大数据应用的现状与展望
摘 要 大数据具有规模大、 种类多、 生成速度快、 价值巨大但密度低的特点. 大数据应用就是利用数据
分析的方法, 从大数据中挖掘有效信息, 为用户提供辅助决策, 实现大数据价值的过程. 主要介绍了大数
据分析方法、 分析模式以及常用的分析工具, 将大数据应用归纳为6个关键领域———结构化数据分析、
文本分析、 Web分析、 多媒体分析、 社交网络分析和移动分析, 并列举了6个大数据的典型应用. 最后,
从基础理论、 关键技术、 应用实践以及数据安全4个方面总结了大数据的研究现状, 并对大数据应用未
来的研究进行展望.
关键词 大数据; 数据分析; 数据挖掘; 非结构化数据; 物联网;
引言
1
大数据应用的现状与展望
近来,当人们对“物联网”、“云计算”、“移动互联网” 等热词还感觉模糊时, “大数据” ( Big Data) 又横空出世且其发展成燎原之势.2014 年巴西世界杯与往届世界杯最大不同的是, 其融入了诸多的科技元素如“云计算”、“大数据” 等.IBM 研究表明, 在整个人类文明所获得的全部数据中,有 90%是过去 2 年内产生的, 到 2020 年, 全世界所产生的数据规模将达到 2009 年的 44 倍.根据国际数据公司 IDC 监测,人类产生的数据量正在呈指数级增长, 大约每 2 年翻一番, 2020年全球数量将达到 35 ZB.据统计,平均每一秒都有 200 万用户在使用Google 搜索, Facebook 注册用户超过 10 亿, 每天生成 300 TB 以上的日志数据.同时,传感网、 物联网、 社交网络等技术迅猛发展, 引发数据规模爆炸式增长, 各种视频监控、 监测、 感应设备也源源不断地产生巨量流媒体数据, 能源、 交通、 医疗卫生、 金融、 零售业等各行业也有大量数据不断产生,积累了 TB 级、 PB 级的大数据.上述情况表明, 现在已进入大数据时代,大数据已经开始造福于人类, 成为信息社会的宝贵财富.
大数据泛指大规模、 超大规模的数据集, 因可从中挖掘出有价值的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日报》 将大数据时代、 智能化生产和无线网络革命称为引领未来繁荣的3 大技术变革.“世界经济论坛” 报告指出大数据为新财富, 价值堪比石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要举措.当前大数据分析者面临的主要问题有: 数据日趋庞大, 无论是入库和查询, 都出现性能瓶颈; 用户的应用和分析结果呈整合趋势, 对实时性和响应时间要求越来越高; 使用的模型越来越复杂, 计算量指数级上升; 传统技能和处理方法无法应对大数据挑战.可喜的是,学术界、 工业界甚至于政府机构都已经开始密切关注大数据问题, 并对其产生浓厚的兴趣. 就学术界而言, 《Nature》和《Science》 等国际顶级学术期刊相继出版专刊专门探讨大数据问题.2008 年《Nature》 出版了“Big Data” 专刊[ 1] , 从互联网技术、 网络经济学、 超级计算、 环境科学、 生物医学等多个科技方面介绍大数据带来的挑战《.Science》也在 2011 年推出数据处理“Dealing with Data” 专刊[ 2] ,
2
大数据应用的现状与展望
讨论大数据所带来的挑战和大数据科学研究的重要性.IT 产业界如 IBM、 Google、 亚马逊、 Facebook 等国际知名企业都是大数据的主要推动者, 相继推出了各自的大数据产品.国内的大数据企业代表有百度、 阿里巴巴、腾讯等.可以说, 大数据兴起另一重要原因是经济利益驱动.大数据是一个具有国家战略意义的新兴产
业,作为国家和社会的主要管理者, 各国政府机构也是大数据技术的主要推动者.2012 年 3 月 29 日,美国政府宣布投资 2 亿美元启动“大数据研究和开发计划[ 3 ] ( Big Data Research and Development Initiative) ” ,该计划旨在提高和改进人们从海量和复杂的数据中获取知识的能力,加快科学、 工程领域的创新步伐, 增强国家安全, 把大数据看作“未来的新石油” , 并将对大数据的研究上升为国家意志, 其 6 大机构合力研发核心技术, 支持协同创新. 英国、 澳大利亚等国政府也开始大数据研究进程. 我国对大数据研究也已提出指导性方针,《国家中长期科技发展规划纲要2006—2020》、《“十二五” 国家战略性新兴产业发展规划》 中都提出支持海量数据存储、 处理技术的研发
和产业化.2013 年 2 月 1 日, 科技部公布了国家重点基础研究发展计划( 973 计划) 2014 年度重要支持方向,其中,大数据计算的基础研究为重要支持方向之一。
1大数据的定义
目前, 虽然大数据的重要性得到了大家的一致认同, 但是关于大数据的定义却众说纷纭. 大数据是一个抽象的概念, 除去数据量庞大, 大数据还有一些其他的特征, 这些特征决定了大数据与“ 海量数据”和“ 非常大的 数 据” 这 些 概 念 之 间 的 不 同. 一 般 意 义上, 大数据是指无法在有限时间内用传统IT 技术和软硬件工具对其进行感知、 获取、 管理、 处理和服务的数据集合. 科技企业、 研究学者、 数据分析师和技术顾问们, 由于各自的关注点不同, 对于大数据有着不同的定义. 通过以下定义,
3
大数据应用的现状与展望
或许可以帮助我们更好地理解大数据在社会、 经济和技术等方面的深刻内涵.2010年 Ap acheHadoo p组织将大数据定义为,“ 普通的计算机软件无法在可接受的时间范围内捕捉、 管理、 处理的规模庞大的数据集” . 在此定义的基础上, 2011年5月, 全球著名咨询机构麦肯锡公司发布了“ 大数据: 下 一 个 创 新、 竞 争 和 生 产 力 的 前 沿”,在报告中对大数据的定义进行了扩充. 大数据是指其大小超出了典型数据库软件的采集、 存储、 管理和分析等能力的数据集. 该定义有两方面内涵: 1) 符合大数据标准的数据集大小是变化的, 会随着时间推移、 技术进步而增长; 2) 不同部门符合大数据标准的数据集大小会存在差别. 目前, 大数据的一般范围是从几个 TB到数个 PB( 数千 TB) [ 10]. 根据麦肯锡的定义可以看出, 数据集的大小并不是大数据的唯一, 数据规模不断增长, 以及无法依靠传统的数据库技术进行管理, 也是大数据的两个重要特征。
其实, 早在2001年, 就出现了关 于 大 数 据 的 定义.META 集团( 现为 Gartner) 的分析师道格· 莱尼( Dou gLane y) 在研究报告中, 将数据增长带来的挑战和机遇定 义 为 三 维 式, 即 数 量( Volume)、 速 度
( Velocit y) 和种类( Variet y) 的增加[ 14]. 虽然这 一 描述最先并不 是 用 来 定 义 大 数 据 的, 但 是 Gartner和许多企业, 其中包括IBM[ 15]和微软[ 16], 在此后的10年间仍然使用这个“ 3Vs” 模型来描述大数 据[ 17]. 数量, 意味着生成和收集大量的数据, 数据规模日趋庞
大; 速度, 是指大数据的时效性, 数据的采集和分析等过程必须迅速及时, 从而最大化地利用大数据的商业价值; 种类, 表示数据的类型繁多, 不仅包含传统的结构化数据, 更多的则是音频、 视频、 网页、 文本等半结构和非结构化数据.但是, 也有一些不同的意见, 大数据及其研究领域极具影响力的领导者的国际数据公司( IC) 就是
4
大数据应用的现状与展望
其中 之 一.2011 年, 在 该 公 司 发 布 的 报 告 中 ( 由EMC 主办) [ 1], 大数据被定义为:“ 大 数 据 技 术 描 述了新一代的技术和架构体系, 通过高速采集、 发现或分析, 提取各种各样的大量数据的经济价值. ” 从这一定义来看, 大 数 据 的 特 点 可 以 总 结 为 4 个 V, 即volume( 体量浩大)、 variet y( 模态繁多)、 velocit y( 生成快速) 和value( 价值巨大但密度很低), 如图1 所示. 这种4Vs定 义 得 到 了 广 泛 的 认 同, 3Vs是 一 种较为专业化的定义, 而4Vs则指出大数据的意义和必要性, 即挖掘蕴藏其中的巨大价值. 这种定义指出大数据最为核心的问题, 就是如何从规模巨大、 种类繁多、 生成快速的数据集中挖掘价值. 正如 Facebook的副总工程师杰伊·帕瑞克所言,“ 如果不利用所收集的数据, 那么你所拥有的只是一堆数据, 而不是大数据” [ 18]。
2大数据分析方法
随着大数据时代的到来, 如何快速地从这些海量数据中抽取出关键的信息, 为企业和个人带来价值, 是各界关注的焦点. 目前一些大数据具体处理方
法主要有:
1)BloomFilter: 布隆过滤器, 其实质是一个位数组和一系列 Hash 函 数. 布 隆 过 滤 器 的 原 理 是 利用位数组存储 数 据 的 Hash 值 而 不 是 数 据 本 身, 其本质是利用 Hash函数对数据进行有损压缩存储的位图索引. 其优点是具有较高的空间效率和查询速率, 缺点是有一定的误识别率和删除困难.
2)Hashing: 散 列 法, 也 叫 做 Hash 法, 其 本 质是将数据转化为长度更短的定长的数值或索引值的方法. 这种方法的优点是具有快速的读写和查询速度, 缺点
5
大数据应用的现状与展望
是难以找到一个良好的 Hash函数.
3)索引: 无论是在管理结构化数据的传统关系数据库, 还是管理半结构化和非结构化数据的技术中, 索引都是一个减少磁盘读写开销、 提高增删改查速率的有效方法. 索引的缺陷在于需要额外的开销存储索引文件, 且需要根据数据的更新而动态维护.
4)Trie树: 又 称 为 字 典 树, 是Hash 树 的 变 种形式, 多被用于快速检索, 和词频统计.Trie树的思想是利用字符串的公共前缀, 最大限度地减少字符。
5)并行计算: 相对于传统的串行计算, 并行计算是指同时使用多个计算资源完成运算. 其基本思想是将问题进行分解, 由若干个独立的处理器完成各自的任务, 以达到协同处理的目的. 目前, 比较典型的并行计算模型有 MPI( message passing interface),MapReduce,Dryad等。
传统数据分析方法, 大多数都是通过对原始数据集进行抽样或者过滤, 然后对数据样本进行分析,寻找特征和规律, 其最大的特点是通过复杂的算法从有限的样本空间中获取尽可能多的信息. 随着计算能力和存储能力的提升, 大数据分析方法与传统
分析方法的最大区别在于分析的对象是全体数据,而不是数据样本, 其最大的特点在于不追求算法的复杂性和精确性, 而追求可以高效地对整个数据集的分析. 总之, 传统数据方法力求通过复杂算法从有限的数据集中获取信息, 其更加追求准确性; 大数据分析方法则是通过高效的算法、 模式, 对全体数据进行分析。
3大数据应用
6
大数据应用的现状与展望
大数据应用, 是利用大数据分析的结果, 为用户提供辅助决策, 发掘潜在价值的过程. 本节首先回顾各种数据源的应用演化, 并研究由结构化数据分析、文本分析、 网站分析、 多媒体分析、 网络分析和移动分析构成的6个关键分析领域, 最后列举大数据的典型应用
7
大数据应用的现状与展望
4研究现状
大数据应用面临着许多挑战, 而目前的研究仍处于初期阶段, 仍需要进行更多的研究工作来解决数据展示、 数据储存以及数据分析的效率等问题. 表3所示为目前大数据研究所取得的成果.
5大数据研究展望
大数据的出现, 开启了一次重大的时代转型. 在IT 时代, 以前技术( technolo gy,T) 才是大家关注的重点, 是技术推动了数据的发展; 如今数据的价值凸显, 信息( information, I) 的 重 要 性 日 益 提 高, 今 后将是数据推动技术的进步. 大数据不仅改变了社会经济生活, 也在影响了每个人的生活和思维方式, 而这样的改变才刚刚开始.
8
大数据应用的现状与展望
1)规模更大、 种类更多、 结构更复杂的数据
虽然目前以 Hadoo p为代表的技术取得了巨大的成功, 但是随着大数据迅猛的发展速度, 这些技术肯定也会落伍被淘汰. 就如同 Hadoo p, 它的理论基
础早在2006年就已诞生. 为了能更好地应对未来规模更大、 种类更多、 结构更复杂的数据, 很多研究者已经开始关注此问题, 其中最为著名的当属谷歌的全球级的分布式 数 据 库 Spanner, 以 及 可 容 错 可扩展的分布式关系型数据库 F1. 未来, 大数据的存储技术将建立在分布式数据库的基础上, 支持类似于关系型数据库的事务机制, 可以通过类SQL 语法高效地操作数据.
2)数据的资源化
既然大数据中蕴藏着巨大的价值, 那么掌握大数据就掌握了资源. 从大数据的价值链分析, 其价值来自数据本身、 技术和思维, 而核心就是数据资源,离开了数据技术和思维是无法创造价值的. 不同数据集的重组和整合, 可以创造出更多的价值. 今后,掌控大数据资源的企业, 将数据使用权进行出租和转让就可以获得巨大的利益.
3)大数据促进科技的交叉融合
大数据不仅促进了云计算、 物联网、 计 算 中 心、移动网络等技术的充分融合, 还催生了许多学科的交叉融合. 大数据的发展, 既需要立足于信息科学,探索大数据的获取、 存储、 处理、 挖掘和信息安全等创新技术与方法, 也需要从管理的角度探讨大数据对于现代企业生产管理和商务运营决策等方面带来的变革与冲击. 而在特定领域的大数据应用, 更需要跨学科人才的参与.
9
大数据应用的现状与展望
4)大数据可视化
在许多 人 机 交 互 场 景 中, 都 遵 循 所 见 即 所 得( whaty ouseeiswhaty oug et,WYSIWYG) 的 原则, 例如文本和图像编辑器等. 在大数据应用中, 混杂的数据本身是难以辅助决策的, 只有将分析后的
结果以友好的形式展现, 才会被用户接受并加以利用. 报表、 直方图、 饼状图、 回归曲线等经常被用于表现数据分析的结果, 以后肯定会出现更多的新颖的表现形式, 例如微软的“ 人立方” 社交搜索引擎使用关系图来表现人际关系.
5)面向数据
程序是数据结构和算法, 而数据结构就是存储数据的. 在程序设计的发展历程中, 也可以看出数据的地位越来越重要. 在逻辑比数据复杂的小规模数据时代, 程序设计以面向过程为主; 随着业务数据的复杂化, 催生了面向对象的设计方法. 如今, 业务数据的复杂度已经远远超过业务逻辑, 程序也逐渐从算法密集型转向数据密集型. 可以预见, 一定会出现面向数据的程序设计方法, 如同面向对象一样, 在软
件工程、 体系结构、 模式设计等方面对IT 技术的发展产生深远的影响。
6总结
大数据应用, 是通过数据分析的方法从大数据中发掘潜在价值, 具有重要的研究意义和实际价值.大数据虽然表面上是个技术术语, 但实际上涉及到社会生活、 经济运行、 国防军事、 科学技术等方方面面.面对大数据的机遇与挑战, 大数据时代呼唤创新型人才,
10
大数据应用的现状与展望
给国内自主处理器芯片研发行业提供重大战略机遇,将会有更多应用大数据技术的新兴的公司和运营模式出现.美国 Gartner 咨询公司预测大数据将为全球带来 440 万个 IT 新岗位和成千上万个非 IT岗位。
根据中国计算机学会大数据专委会发布的 2014年大数据发展 10 大趋势预测[ 10] : 大数据从“概念”走向“价值”、 大数据架构的多样化模式并存、 大数据安全与隐私、 大数据分析与可视化、 大数据产业成为战略性产业、 数据商品化与数据共享联盟化、 基于大数据的推荐与预测流行、 深度学习与大数据智能成为支撑、 数据科学的兴起和大数据生态环境逐步完善。
7认识
对计算机网络的基础知识和大致结构有了一个粗浅的认识。由于本身这方面的基础不扎实,知识结构在这方面比较薄弱,所以不能在技术方面进行深入的研究,只能对一些理论性的知识做一些了解和认识,建立起大概的知识框架。在学习过程中,关于大数据Big Data方面引起了我很大的兴趣,自己私下里做了一些阅读和查询(主要是维克托·迈尔-舍恩伯格的《大数据时代》和在中国知网下载的相关论文)。
我发现身边很多人都提起过大数据,其中包括老师和同学。可是对于这些热门的新技术、新趋势人们往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少同学能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“无知”,因为现在人们普遍都有以一种信息焦虑感,别人知道的东西我不知道,就会感到焦虑,无论这些信息对你有没有用;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。当然我也一样,虽然我希望能有些不一样,但是自己实在欠缺IT这方面的知识,所以也只
11
大数据应用的现状与展望
能查阅一些资料,翻阅了一些专业书籍,粗略的了解相关方面的知识。
12
因篇幅问题不能全部显示,请点此查看更多更全内容