大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。大数据将是下一个创新、竞争、生产力提高的前沿。众多专家认为大数据将成为新的财富,价值堪比石油。因此,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。
互联网特别是移动互联网的发展,加快了信息化向社会经济各方面、大众日常生活的渗透。有资料显示,截至2017年6月,中国网民规模达到7.51亿,占全球网民总数的五分之一。互联网普及率为54.3%,超过全球平均水平4.6个百分点。手机网民规模达7.24亿,网民中使用手机上网的比例由2016年底的95.1%提升至96.3%。我国网民数居世界之首,每天产生的数据量也位于世界前列。
随着宽带化的发展,人均网络接入带宽和流量也迅速提升。全球新产生数据年增40%,即信息总量每两年就可以翻番,这一趋势还将持续。目前,单一数据集容量超过几十TB甚至数PB已不罕见,其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。
数据规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数据热的原因。首先,大数据反映舆情和民意。网民在网上产生的海量数据,记录着他们的思想、行为乃至情感,这是信息时代现实社会与网络空间深度融合的产物,蕴含着丰富的内涵和很多规律性信息。其次,企业和政府的信息系统每天源源不断产生大量数据。
为了开发大数据这一金矿,需要有大数据的技术与产品支持,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。
随着大数据的发展和创新,对数据处理的能力越来越来强,可以对大量的数据进行精确的分析和挖掘,并运用到工业、农业、医院、学校和银行等各个行业场景。其中NLPIR文本搜索与挖掘系统是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。
NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示其中包括:全文精准检索、 新词发现、分词标注、 文本聚类、分类过滤、 正负面分析、自动摘要、关键词提取、文档去重等十余项功能。
大数据是新一代信息技术的集中反映,是一个应用驱动性很强的服务领域,是具有无穷潜力的新兴产业领域;目前,其标准和产业格局尚未形成,这是我国实现跨越式发展的宝贵机会 |
|
|