农业大数据建设
项 目 建 议 书
************实验室
2015年11月
目 录
1、农业大数据概述 ......................................................................................................................... 1
1.1概念 .................................................................................................................................... 1 1.2农业大数据的类型 ............................................................................................................ 1 1.3农业大数据技术 ................................................................................................................ 2 1.4农业大数据的特性 ............................................................................................................ 3 1.5大数据的发展现状 ............................................................................................................ 4 1.6建设的必要性 .................................................................................................................... 5 2、建设的可行性及需解决的关键技术 ......................................................................................... 8
2.1建设的可行性 .................................................................................................................... 8
2.1.1符合云南高原特色农业发展的政策 .................................................................... 8 2.1.2大数据是云南高原特色农业发展的平台 ............................................................ 8 2.1.3建设农业大数据已经具备良好的基础 ................................................................ 8 2.2需解决的关键技术问题 .................................................................................................... 9
2.2.1数据存储 ................................................................................................................ 9 2.2.2数据分析 ................................................................................................................ 9 2.2.3数据显示 .............................................................................................................. 10 2.2.4数据安全 .............................................................................................................. 10 2.3大数据落地面临的困难 .................................................................................................. 10 3、建设内容 ................................................................................................................................... 12
3.1农业大数据平台 .............................................................................................................. 12
3.1.1平台功能 .............................................................................................................. 12 3.1.2平台目标 .............................................................................................................. 13 3.2建设的基本原则 .............................................................................................................. 13 4、大数据解决方案 ....................................................................................................................... 15
4.1大数据技术组成 .............................................................................................................. 15
4.1.1分析技术 .............................................................................................................. 15 4.1.2存储数据库 .......................................................................................................... 16 4.1.3分布式计算技术 .................................................................................................. 17 4.2大数据处理过程 .............................................................................................................. 18
4.2.1采集 ...................................................................................................................... 18 4.2.2导入/预处理 ........................................................................................................ 18 4.2.3统计/分析 ............................................................................................................ 18 4.2.4挖掘 ...................................................................................................................... 19 4.3大数据处理的核心技术-Hadoop .................................................................................... 19
4.3.1 Hadoop的组成 .................................................................................................... 19 4.3.2 Hadoop的优点 .................................................................................................... 22 4.3.3 Hadoop的不足 .................................................................................................... 22 4.3.4主要商业性“大数据”处理方案 ...................................................................... 23 4.3.5其他“大数据”解决方案 .................................................................................. 25 4.3.6大数据”与科技文献信息处理 .......................................................................... 25
4.4大数据处理技术发展前景 .............................................................................................. 26
4.4.1大数据复杂度降低 .............................................................................................. 26 4.4.2大数据细分市场 .................................................................................................. 26 4.4.3大数据开源 .......................................................................................................... 26 4.4.4 Hadoop将加速发展 ............................................................................................ 26 4.4.5打包的大数据行业分析应用 .............................................................................. 27 4.4.6大数据分析的革命性方法出现 .......................................................................... 27 4.4.7大数据与云计算:深度融合 ................................................................................ 27 4.4.8大数据一体机陆续发布 ...................................................................................... 27
5、大数据分析平台 ....................................................................................................................... 28
5.1大数据分析平台体系架构 .............................................................................................. 28 5.2大数据分析平台关键技术 .............................................................................................. 29
5.2.1平台层 .................................................................................................................. 30 5.2.2功能层 .................................................................................................................. 30 5.2.3服务层 .................................................................................................................. 30 5.3大数据分析平台应用与产业化 ...................................................................................... 31 6、项目实施说明 ........................................................................................................................... 33
6.1项目启动阶段 .................................................................................................................. 33 6.2需求调研确认阶段 .......................................................................................................... 34 6.3系统功能实现确认阶段 .................................................................................................. 35 6.4基础地理信息数据预处理阶段 ...................................................................................... 35 6.5基础地理信息数据整理入库阶段 .................................................................................. 36 6.6数据与系统集成初装阶段 .............................................................................................. 36 6.7项目培训阶段 .................................................................................................................. 36 6.8系统安装测试及试运行阶段 .......................................................................................... 37 6.9项目总体验收阶段 .......................................................................................................... 38 6.10项目成果交接阶段 ........................................................................................................ 38 7、建议........................................................................................................................................... 40
农业大数据建设项目建议书
1、农业大数据概述 1.1概念
“大数据”一词,最早由阿尔文•托夫勒在1980年发表的《第三次浪潮》中提过。其后,随着物联网、云计算、移动互联、智能终端等技术的发展,大数据才迅速进入人们的视野。《Nature》和《Science》杂志先后对大数据做了专题性介绍,美国等国家纷纷提出大数据研究与发展计划以及相关战略,我国也于2012年多次以大数据为主题召开会议,大数据一夜之间成为广泛关注的焦点。
农业大数据是融合了农业地域性、季节性、多样性、周期性等自身特征后产生的来源广泛、类型多样、结构复杂、具有潜在价值,并难以应用通常方法处理和分析的数据集合。它保留了大数据自身具有的规模巨大(volume)、类型多样(variety)、价值密度低(value)、处理速度快(velocity)、精确度高(veracity)和复杂度高(complexity)等基本特征,并使农业内部的信息流得到了延展和深化。
农业大数据是生产到流通的农业信息集合,能为政府及涉农部门提供数据共享和产业指导,帮助农户进行生产管理及政农信息互通,为消费端提供原产地信息及认证溯源。 1.2农业大数据的类型
根据农业的产业链条划分,目前农业大数据主要集中在农业环境与资源、农业生产、农业市场和农业管理等领域。
1
(1)农业自然资源与环境数据。主要包括土地资源数据、水资源数据、气象资源数据、生物资源数据和灾害数据。
(2)农业生产数据包括种植业生产数据和养殖业生产数据。其中,种植业生产数据包括良种信息、地块耕种历史信息、育苗信息、播种信息、农药信息、化肥信息、农膜信息、灌溉信息、农机信息和农情信息;养殖业生产数据主要包括个体系谱信息、个体特征信息、饲料结构信息、圈舍环境信息、疫情情况等。
(3)农业市场数据包括市场供求信息、价格行情、生产资料市场信息、价格及利润、流通市场和国际市场信息等。
(4)农业管理数据主要包括国民经济基本信息、国内生产信息、贸易信息、国际农产品动态信息和突发事件信息等。 1.3农业大数据技术
根据大数据处理的生命周期,大数据的技术体系包括大数据的采集与预处理技术、大数据存储与管理技术、大数据计算模式与系统、大数据分析与挖掘技术、大数据可视化分析技术及大数据安全技术等。
随着海量信息的爆发,农业跨步迈入大数据时代。统一数据标准和规范,构建农业基准数据(即以农业信息的标准和规范为基础,以现代信息技术为手段,收集并整理的产前、产中、产后各环节的基础精准数据),推动数据标准化,并综合使用农业大数据的相关技术,建设农业大数据平台,对农业大数据进行分析、处理和展示,并将所得结果应用到农业的各个环节,才能更好的推动我国传统农业向现代农业的转型,助力我国农业信息化和农业现代化的融合。
大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值,而且未来急剧增长的数据迫切需要寻求新的处理技术手段。
2
在“大数据”(Big data)时代,通过互联网、社交网络、物联网,人们能够及时全面地获得大信息。同时,信息自身存在形式的变化与演进,也使得作为信息载体的数据以远超人们想象的速度迅速膨胀。
云时代的到来使得数据创造的主体由企业逐渐转向个体,而个体所产生的绝大部分数据为图片、文档、视频等非结构化数据。信息化技术的普及使得企业更多的办公流程通过网络得以实现,由此产生的数据也以非结构化数据为主。2012年,非结构化数据将达到互联网整个数据量的75%以上。用于提取智慧的“大数据”,往往是这些非结构化数据。传统的数据仓库系统、BI、链路挖掘等应用对数据处理的时间要求往往以小时或天为单位。但“大数据”应用突出强调数据处理的实时性。在线个性化推荐、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒级。
“大数据”不仅是一场技术变革,更是一场商业模式变革。在“大数据”概念提出之前,尽管互联网为传统企业提供了一个新的销售渠道,但总体来看,二者平行发展,鲜有交集。我们可以看到,无论是Google通过分析用户个人信息,根据用户偏好提供精准广告,还是Facebook将用户的线下社会关系迁移在线上,构造一个半真实的实名帝国,但这些商业和消费模式仍不能脱离互联网,传统企业仍无法嫁接到互联网中。同时,传统企业通过传统的用户分析工具却很难获得大范围用户的真实需求。 1.4农业大数据的特性
农业大数据的特性满足大数据的五个特性,一是数据量大(Volume)、二是处理速度快(Velocity)、三是数据类型多(Variety)、四是价值大(Value)、五是精确性高(Veracity)。包括以下几种:
(1)从领域来看,以农业领域为核心(涵盖种植业、林业、畜牧业等子行业),逐步拓展到相关上下游产业(饲料生产,化肥生产,农机生产,屠宰业,肉类加工业等),并整合宏观经济背景的数据,包括统计数据、进出口数据、价格数据、生产数据、乃至气象数据等。
(2)从地域来看,以国内区域数据为核心,借鉴国际农业数据作为有效参考;不仅包括全国层面数据,还应涵盖省市数据,甚至地市级数据,为精准区域研究提供基础;
3
(3)从粒度来看,不仅应包括统计数据,还包括涉农经济主体的基本信息、投资信息、股东信息、专利信息、进出口信息、招聘信息、媒体信息、GIS坐标信息等。
(4)从专业性来看,应分步实施,首先是构建农业领域的专业数据资源,其次应逐步有序规划专业的子领域数据资源,例如针对畜品种的生猪、肉鸡、蛋鸡、肉牛、奶牛、肉羊等专业监测数据。 1.5大数据的发展现状
大数据的快速发展,使它成为IT领域的又一大新兴产业。据中央财经大学中国经济管理研究院博士张永力估算,国外大数据行业约有1000亿美元的市场,而且每年都以10%的速度在增长,增速是软件行业的两倍。我国2012年大数据市场规模大约4.7亿元,2013年增速达到138%,达到11.2亿元,产业发展潜力非常巨大。
(一)政府积极介入推动
2009年,联合国启动“全球脉动计划”,借大数据推动落后地区发展。2012年1月,世界经济论坛年会把“大数据、大影响”作为重要议题。美国从开放政府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。美国在开放政府上非常积极,通过Data.gov开放37万个数据集,并开放网站的API和源代码,提供上千个数据应用。除了推动本国政府数据开放,美国倡导发起全球开放政府数据运动,已有41个国家响应。美国政府还投资两亿美元促进大数据核心技术研究和应用,把大数据放在与集成电路、互联网同等重要的位置,从国家层面推进。
(二)资本市场也对大数据钟爱有加
2012年4月,大数据分析公司Splunk高调宣传大数据,引发投资者关注。12月初,为企业市场提供Hadoop解决方案的创业公司Cloudera获得6500万美元融资,估值约为7亿美元。近期,高盛联席主席斯科特.斯坦福说:“投资大数据及其运用回报率最高”。大数据领域的企业并购热度也在上升,单笔平均并购金额方面,大数据超过云计算位居IT领域榜首,在总并购额上也位居第二。
(三)人才需求巨大
据一家国际咨询公司,盖特纳咨询公司预测大数据将为全球带来440万个
4
IT新岗位和上千万个非IT岗位。麦肯锡公司预测美国到2018年需要深度数据分析人才44万—49万,缺口14万—19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。中国是人才大国,但能理解与应用大数据的创新人才更是稀缺资源。
(四)国内情况
大数据的火爆,也带动了国内学术界、产业界和政府对大数据的热情。2011年以来,中国计算机学会、中国通信学会先后成立了大数据委员会,研究大数据中的科学与工程问题,科技部的《中国云科技发展“十二五”专项规划》和工信部的《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。其中工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。
应用方面,中国三大通信运营商都在结合自身业务情况,积极推进大数据应用工作,并取得了较好的进展。电子商务企业阿里巴巴提出要做中国数据分析第一平台,通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。据透露,截至目前阿里巴巴已经放贷300多亿元,坏账率约0.3%左右,大大低于商业银行。
研发企业方面,我国能够处理大数据的企业并不是很多。北京永洪科技在这方面做的不错。永洪科技在大数据、分布式计算、数据分析等领域具备核心竞争力、自主创新并拥有多项发明专利。推出的Z系列产品在大数据的应用分析中在国际上也是领先的。
大数据的热潮触发了一场思想启蒙运动,使得“大数据是资产,不是包袱”、“要拿数据说话”等观念逐步深入人心,改变了以往不重视数据积累,不相信数据分析等认识。有了这种思维模式的改变,大数据的应用就有了希望。 1.6建设的必要性
中国农业科学院农业信息研究所所长许世卫认为,对于信息时代的农业交易而言,“大数据”法则有助于深入挖掘并有效整合散落在各处的农产品生产和流通数据,是重要的国家战略需求。大数据的应用与农业领域的相关科学研究相结
5
合,可以为农业科研、政府决策、涉农企业发展等提供新方法、新思路。
农业部副部长陈晓华表示,信息化对于加快转变农业发展方式、建设现代农业具有重要的牵引和驱动作用,是现代农业的制高点。2014年10月26日,温孚江在2014农业信息化高峰论坛上提出,大数据必将对未来农业发展产生深远影响,他从生产环节、产品流通、科技推广、管理决策等方面全面分析了当前农业大数据研究与应用的现状,指出了目前我国农业大数据面临的主要问题,并对推动农业大数据的发展提出了建议。王文生从国际大数据研究与应用现状、农业大数据未来应用等方面,深入分析了国内外案例,全面论述了农业在云计算大数据时代面临的机遇与挑战。
2014年10月29日,“中国农产品大数据联盟”成立。农业“大数据”法则有助于深入挖掘并有效整合散落在各处的农产品生产和流通数据,是重要的国家战略需求。农业部将在今后一阶段的信息化工作中重点推进信息资源开放共享工作、促进农业信息资源创新应用,充分挖掘数据价值。
2015年11月26日,由贵州省碧江区政府和贵州为米科技有限公司合作建设的“碧江农业大数据应用平台”在该区智慧产业园上线。碧江区农业大数据已经建成了农业大数据功能应用平台、为米农业大数据应用云平台、为米网碧江“互联网+农业”节点、碧江农场GIS平台、为米APP应用平台,并实现了系统间的共享互通。该平台在业务上已实现基本数据管理共享和基于农业大数据的农产品电商B2B服务,能为带动产业、食品安全和黔货出山、品牌打造等方面提供数据支持。下一步,碧江区将大力实施“互联网+”战略,加快推进农业大数据、农村电子商务、农业物联网、农业扶贫开发、信息进村入户工作,把碧江区建成产、学、研、用相结合的农业大数据产业发展应用示范区。
2015年11月26日,在全国电子商务创新推进大会“腾计划”专场活动中,农业部市场与经济信息司副司长王小兵介绍了目前我国农村电商呈现四个特点:一是中西部农业电子商务呈现散发态势,贫困地区借助互联网实现快速发展;二是农村电商正在由交易环节向生产和消费两个环节延伸;三是农产品电商正在由干货农产品向鲜货农产品发展,农业生产资料和观光农业全面拓展;四是多种农村电商模式不断涌现。王小兵认为,加快发展农业电子商务,是形成农业大数据、体现数据价值的重要途径。数据已经成为国家基础性战略资源,农业电子商务对
6
农业生产、流通、消费影响重大,是信息时代获取农业数据的重要渠道,也是利用数据直接调节生产、消费的重要平台,是农业大数据体系的重要组成。
目前,云计算、大数据时代已经来临,对于农业行业既是机遇,也是挑战,如何应对?如何利用?这是一个大课题。农业与云计算、大数据必然发生各种联系,通过云计算、大数据带来的技术突破推动农业全面迈向信息化、现代化时代。
农业云计算与大数据的集成和未来的挖掘应用对于现代农业的发展具有重要作用。在农业发展中,大数据不仅可以渗透到生产经营的各环节,而且能够帮助农业实现跨行业、跨专业、跨业务的发展。农业云计算与大数据可以为农民的农村生产和生活提供方便,而且可以为生产发展和政府决策提供科学、准确的依据。通过这种\"大数据驱动\"的农业,必使得农民的生产活动变得更有效率、更开放、更精细。同时,基于大数据的分析,也能够帮助政府有效监控各种农业政策的实施情况,及时纠正农业生产中的偏差和失误。
农业“大数据”有助于开展农产品监测预警,通过深入挖掘并有效整合散落在全国各农业产区的农产品生产和流通数据,进行专业分析解读,为农产品生产和流通提供高效优质的信息服务,以提高农业资源利用率和流通效率,保障食品安全,便利农民,促进中国农业产业发展。
7
2、建设的可行性及需解决的关键技术 2.1建设的可行性
2.1.1符合云南高原特色农业发展的政策
未来产业的发展,不是资本的竞争,不是人才的竞争,也不是技术的竞争,一定是资源的竞争。充分利用云南地理优势独特、气候优势突出、物种优势明显、开放优势巨大等条件,打造在全国乃至世界有优势、有竞争力的绿色战略品牌,增强农业发展的动力和活力,努力走出一条具有云南高原特色的农业现代化道路。
打响“丰富多样、生态环保、安全优质、四季飘香”4张名片。
推进“高原粮仓、特色经作、山地牧业、淡水渔业、高效林业、开放农业”6大特色农业。
集中发展粮食、烟草、蔗糖、茶叶、咖啡、橡胶、果类、蔬菜、畜牧、蚕桑、花卉园艺、生物制药、淡水渔业、木本油料、林下经济等一批特色优势产业;推进特色产业向最适宜区集中,大力促进特色农业规模化经营,因地制宜分类推进特色农业发展,着力优化高原特色农业区域布局;重点推进高原特色农业示范、农产品加工推进、农业科技支撑能力提升、农产品品牌创建、新型农业经营主体培育、农业基础设施建设、城乡流通服务体系提升、农产品质量安全保障能力提升“8大行动”。
打高原牌,走特色路,通过协同创新体在创新机制和体制方面的创新,优势互补,实现高原特色现代农业的创新发展是完全可行的。 2.1.2大数据是云南高原特色农业发展的平台
云南农业发展相比其他省份最大的特色在于自然与人文,而这两者在农产品中的附加值并未得到体现。将云南丰富的生物资源和云南特有丰富的少数民族文化,以及传承数千年来的生活习俗等人文资源量化成数据,作为提升云南高原特色农产品附加值的依据。通过大数据,将云南高原特色农产品“丰富多样、生态环保、安全优质、四季飘香”的产地环境与其他地方生产的农产品的市场价值区别开来,用数据说话,让人信服,这就是大数据农业。 2.1.3建设农业大数据已经具备良好的基础
(1)基础设施已具备条件
随着我国信息化建设的推进,互联网基础设施的建设取得了明显成果,许多
8
领域都已处于世界先进水平,甚至超越了发达经济体。互联网基础设施直接决定着经济活动的效率和经济效益,同时也影响着每个经济体的投资环境。互联网基础设施的改善会带来经济与社会发展的良性循环,帮助摆脱贫困,加快工业化进程,吸收利用外国资本,融入区域产业链和供应链体系,获得宝贵的发展机遇,进而通过发展解决矛盾和问题。
(2)基础数据库已逐渐完善
目前,国土部门已完成并形成的相关数据库有:土地利用现状、土地利用更新调查、基本农田划定、农用地分等、耕地质量评价、耕地后备资源调查、土地整治规划。农业部门已完成并形成的相关数据库有:测土配方、土壤质量评价(耕地质量评价)、土地承包经营权确权,种、养殖、水产相关资料。气象部门:气象观测数据库。水利部门:水文、干旱、灌溉,水利工程资料,水利普查数据库。测绘部门:地理国情普查等。
(3)数据处理技术已逐步形成
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。
主要可分为:数据采集,数据存取,基础架构,数据处理,统计分析,数据挖掘,模型预测,结果呈现等8种技术。
大数据技术主要形成了批处理、流处理和交互分析三种计算模式: 离线批处理(Batch Processing)技术以MapReduce和Hadoop系统为代表, 实时流处理(Stream Processing)技术以Yahoo的S4系统和Twitter的Storm系统为代表,
交互式分析(Interactive Analysis)技术以谷歌的Dremel系统为代表。 2.2需解决的关键技术问题 2.2.1数据存储
大数据发展面临的问题是来自不同地方、不同标准、数据量大、多种结构形式、实时性等多样化要求的数据信息。这些问题无疑增加了数据采集和整合的困难,故此应修改基于块和文件的存储系统的架构设计,以克服存在的问题。 2.2.2数据分析
数据分析是大数据处理流程的核心,因为大数据的价值就产生于分析的过程,
9
但是它同样带来了很大的挑战。首先,数据量大带来更大价值的同时也带来了更多的数据噪音,在进行数据清洗等预处理工作时必须更加谨慎,若清洗的粒度过细,很容易将有用的信息过滤掉,而清洗的粒度过粗,又无法达到理想的清洗效果,因此在质与量之间需要进行仔细的考量和权衡,同时也对机器硬件和算法都是严峻的考验。其次,传统的数据仓库系统对处理时间的要求并不高,而在很多大数据应用场景中,不仅要考虑算法的准确性,还要考虑实时性的要求。 2.2.3数据显示
与数据分析相比,很多用户往往更关心数据结果的显示。传统的以文本形式输出结果或者直接在电脑终端上显示结果的方法在面对小数据量或许是很好的选择,但是对于形式复杂的海量数据是不可行的。这就需要引入可视化技术来可视化最终甚至是中间的计算结果,此外,还需要人机交互技术或者数据起源技术,使得用户在得到结果的同时更好的理解结果的由来。 2.2.4数据安全
数据的持续增长带来了数据的安全问题。首先,大数据因为目标大而在网络上更容易被发现;其次,大数据存在更敏感更有价值的数据,对潜在攻击者的吸引力更大。近两年来,有些互联网公司用户信息泄露的数据量非常庞大,在2012年6月,据挪威IT网站Dagens IT报道,约有650万职业社交网站LinkedIn用户的账户的明文和加密密码被泄露;在2012年7月,据美国有线电视新闻网(CNN)报道,雅虎网络遭遇黑客攻击,45万个用户账号信息遭到泄露雅虎遭到网络攻击。此外,个人信息的曝露,也会造成个人安全的问题。 2.3大数据落地面临的困难
应该说,全球来看,对大数据认识、研究和应用还都处于初期阶段。特别是对我国来说,大数据真正落地,还需要迈过三道坎。
第一,数据是否足够丰富和开放?丰富的数据源是大数据产业发展的前提。而我国数字化的数据资源总量远远低于美欧,每年新增数据量仅为美国的7%,欧洲的12%,其中政府和制造业的数据资源积累远远落后于国外。就已有有限的数据资源来说,还存在标准化、准确性、完整性低,利用价值不高的情况,这大大降低了数据的价值。
同时,我国政府、企业和行业信息化系统建设往往缺少统一规划和科学论证,
10
系统之间缺乏统一的标准,形成了众多“信息孤岛”,而且受行政垄断和商业利益所限,数据开放程度较低,以邻为壑、共享难,这给数据利用造成极大障碍。制约我国数据资源开放和共享的一个重要因素是政策法规不完善,大数据挖掘缺乏相应的立法,无法既保证共享又防止滥用,一方面欠缺推动政府和公共数据的政策,另一方面数据保护和隐私保护方面的制度不完善抑制了开放的积极性。因此,建立一个良性发展的数据共享生态系统,是我国大数据发展需要迈过去的第一道砍。
第二,是否掌握强大的数据分析工具?要以低成本和可扩展的方式处理大数据,这就需要对整个IT架构进行重构,开发先进的软件平台和算法。这方面,国外又一次走在我们前面。特别是近年来以开源模式发展起来的Hadoop等大数据处理软件平台,及其相关产业已经在美国初步形成。
而我国数据处理技术基础薄弱,总体上以跟随为主,难以满足大数据大规模应用的需求。如果把大数据比作石油,那数据分析工具就是勘探、钻井、提炼、加工的技术。我国必须掌握大数据关键技术,才能将资源转化为价值。应该说,要迈过这道坎,开源技术为我们提供了很好的基础。
第三,管理理念和运作方式能否适配数据化决策?大数据开发的根本目的是以数据分析为基础,帮助人们做出更明智的决策,优化企业和社会运转。哈佛商业评论说,大数据本质上是“一场管理革命”。大数据时代的决策不能仅凭经验,而真正要“拿数据说话”。因此,大数据能够真正发挥作用,深层次看,还要改善我们的管理模式,需要管理方式和架构的与大数据技术工具相适配。这或许是我们最难迈过的一道坎了。
11
3、建设内容
为了不断推进农业经济的优化,实现可持续的产业发展和区域产业结构优化,进一步推动智慧农业的建设进程,需要全面及时掌握农业的发展动态,这需要依托农业大数据及相关大数据分析处理技术,建设一个农业大数据分析应用平台---农业大数据平台来支撑。 3.1农业大数据平台
在技术上,该平台应该充分运用先进数据管理技术和数据仓库技术,建设具有高效性,先进性,开放性的商务智能项目。结构上,该平台应具有良好的可配置性,满足资源、业务流程的变化。同时随着业务的发展,业务量的增加,系统也应该具有良好的应用及性能的扩展。 3.1.1平台功能
(1)实现数据库的交互;
(2)根据农业大数据研究的个性化需求,形成一系列相关公开发布数据的采集机制,将数据采集的相关程序设计并编写完善,部署此套机制在平台上周期运转;
(3)数据的浏览,对数据进行查询、展现和基础统计分析等初步应用; (4)实现农业大数据分析人员的交流平台
12
3.1.2平台目标
(1)通过平台的建设,汇集各方资源,构建农业领域特色的大数据研究中心;
(2)通过数据整合,采集和加工处理,建设专业的农业数据资源中心; (3)依托农业大数据相关技术,包括数据采集技术、存储技术、处理技术、分析挖掘技术、展现技术等构建农业大数据应用平台;
(4)通过分析应用平台,进行成果发布,形成农业领域专业研究的权威成果发布平台,服务于高校和政府,涉农企业,社会公众等。 3.2建设的基本原则
大数据中心系统是能够对各种信息数据进行存储、管理、更新、维护、查询、分析等操作的一个集合,是建设智慧农业的重要组成部分。为确保数据中心建成后能够稳定的运行和发挥作用,必须针对数据中心建设的技术要求和需求情况提出一些基本原则。
(1)实用性原则
大数据中心建设要充分考虑各部门应用的实际情况,尽可能地满足当前的基本应用需求,使大数据中心建成后能够很快的发挥作用,辅助政府、单位等解决城市中存在的一些实际问题。数据库管理系统建设还应该做到功能完善、界面美观、操作方便,能够充分实现信息资源共享,方便人们获得自己所需要的信息。
(2)先进性原则
大数据中心建设要在吸取国内外大数据中心建设的经验和教训的基础上,研究和分析相关技术及其发展趋势,尽可能采用先进的技术和手段,统一规范大数据中心的内容,合理组织数据库的结构,实现多源空间数据的集成化管理,确保大数据中心的科学性和前瞻性,方便进行更新维护,使数据中心能够适应未来技术发展的变化,保证大数据中心能够持续稳定的发展。
(3)开放性原则
大数据中心建设必须严格按照国家和行业的相关标准和规范,结合应用的实际需要,这样才能保证大数据中心建设的质量,方便数据及时更新和维护,有效整合现有的数据资源,方便用户随时随地直接应用数据库中的数据,也方便将数据转换到所需的系统中,确保数据能够广泛地得到应用。
13
(4)可扩展性原则
大数据中心的更新维护是一个长期而重要的过程。随着系统业务的变更、内容的调整和技术的不断进步,对大数据中心的要求也越来越高,一方面需要能够方便系统进行管理、维护和升级,另一方面需要能够对相关数据进行及时更新。因此,在大数据中心建设之初,要充分考虑大数据中心的可扩展性,以便在未来的使用过程中能够方便对数据进行更新和扩展。
(5)安全性原则
大数据中心储存着大理的基础信息数据,随着计算机网络技术的不断发展,数据共享越来越紧密,数据的安全性就显得越来越重要,一旦出现数据泄密情况,将对国家的安全构成威胁。因此,在建设大数据中心时应设计一套行之有效的安全机制,保证数据在网络中的安全。
14
4、大数据解决方案 4.1大数据技术组成
大数据技术由四种技术构成,它们包括: 4.1.1分析技术
分析技术意味着对海量数据进行分析以实时得出答案,由于大数据的特殊性,大数据分析技术还处于发展阶段,老技术会日趋完善,新技术会更多出现。大数据分析技术涵盖了以下的五个方面
(1)可视化分析
数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。
(2)数据挖掘算法
图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。
(3)预测分析能力
数据挖掘可以让分析师对数据承载信息更快更好地消化理解,进而提升判断的准确性,而预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。
(4)语义引擎
非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。
(5)数据质量和数据管理
数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。
我们知道大数据分析技术最初起源于互联网行业。网页存档、用户点击、商品信息、用户关系等数据形成了持续增长的海量数据集。这些大数据中蕴藏着大量可以用于增强用户体验、提高服务质量和开发新型应用的知识,而如何高效和准确的发现这些知识就基本决定了各大互联网公司在激烈竞争环境中的位置。首
15
先,以Google为首的技术型互联网公司提出了MapReduce的技术框架,利用廉价的PC服务器集群,大规模并发处理批量事务。
利用文件系统存放非结构化数据,加上完善的备份和容灾策略,这套经济实惠的大数据解决方案与之前昂贵的企业小型机集群+商业数据库方案相比,不仅没有丢失性能,而且还赢在了可扩展性上。之前,我们在设计一个数据中心解决方案的前期,就要考虑到方案实施后的可扩展性。通常的方法是预估今后一段时期内的业务量和数据量,加入多余的计算单元(CPU)和存储,以备不时只需。
这样的方式直接导致了前期一次性投资的巨大,并且即使这样也依然无法保证计算需求和存储超出设计量时的系统性能。而一旦需要扩容,问题就会接踵而来。首先是商业并行数据库通常需要各节点物理同构,也就是具有近似的计算和存储能力。而随着硬件的更新,我们通常加入的新硬件都会强于已有的硬件。这样,旧硬件就成为了系统的瓶颈。为了保证系统性能,我们不得不把旧硬件逐步替换掉,经济成本损失巨大。其次,即使是当前最强的商业并行数据库,其所能管理的数据节点也只是在几十或上百这个数量级,这主要是由于架构上的设计问题,所以其可扩展性必然有限。而MapReduce+GFS框架,不受上述问题的困扰。需要扩容了,只需增加个机柜,加入适当的计算单元和存储,集群系统会自动分配和调度这些资源,丝毫不影响现有系统的运行 4.1.2存储数据库
存储数据库(In-Memory Databases)让信息快速流通,大数据分析经常会用到存储数据库来快速处理大量记录的数据流通。比方说,它可以对某个全国性的连锁店某天的销售记录进行分析,得出某些特征进而根据某种规则及时为消费者提供奖励回馈。
但传统的关系型数据库严格的设计定式、为保证强一致性而放弃性能、可扩展性差等问题在大数据分析中被逐渐暴露。随之而来,NoSQL数据存储模型开始风行。NoSQL,也有人理解为Not Only SQL,并不是一种特定的数据存储模型,它是一类非关系型数据库的统称。其特点是:没有固定的数据表模式、可以分布式和水平扩展。NoSQL并不是单纯的反对关系型数据库,而是针对其缺点的一种补充和扩展。典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据库、列存储等
16
NoSQL数据库是一种建立在云平台的新型数据处理模式,NoSQL在很多情况下又叫做云数据库。由于其处理数据的模式完全是分布于各种低成本服务器和存储磁盘,因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。它为Zynga、AOL、Cisco以及其它一些企业提供网页应用支持。正常的数据库需要将数据进行归类组织,类似于姓名和帐号这些数据需要进行结构化和标签化。但是NoSQL数据库则完全不关心这些,它能处理各种类型的文档。
在处理海量数据同时请求时,它也不会有任何问题。比方说,如果有1000万人同时登录某个Zynga游戏,它会将这些数据分布于全世界的服务器并通过它们来进行数据处理,结果与1万人同时在线没什么两样。现今有多种不同类型的NoSQL模式。商业化的模式如Couchbase、10gen的mongoDB以及Oracle的NoSQL;开源免费的模式如CouchDB和Cassandra;还有亚马逊最新推出的NoSQL云服务。 4.1.3分布式计算技术
分布式计算结合了NoSQL与实时分析技术,如果想要同时处理实时分析与NoSQL数据功能,那么你就需要分布式计算技术。分布式技术结合了一系列技术,可以对海量数据进行实时分析。更重要的是,它所使用的硬件非常便宜,因而让这种技术的普及变成可能。SGI的Sunny Sundstrom解释说,通过对那些看起来没什么关联和组织的数据进行分析,我们可以获得很多有价值的结果。比如说可以分发现一些新的模式或者新的行为。运用分布式计算技术,银行可以从消费者的一些消费行为和模式中识别网上交易的欺诈行为。
分布式计算技术让不可能变成可能,分布式计算技术正引领着将不可能变为可能。Skybox Imaging就是一个很好的例子。这家公司通过对卫星图片的分析得出一些实时结果,比如说某个城市有多少可用停车空间,或者某个港口目前有多少船只。它们将这些实时结果卖给需要的客户。没有这个技术,要想快速便宜的分析这么大量卫星图片数据将是不可能的。如图所示:
17
分布式计算技术是Google的核心,也是Yahoo的基础,目前分布式计算技术是基于Google创建的技术,但是却最新由Yahoo所建立。Google总共发表了两篇论文,2004年发表的叫做MapReduce的论文介绍了如何在多计算机之间进行数据处理;另一篇于2003年发表,主要是关于如何在多服务器上存储数据。来自于Yahoo的工程师Doug Cutting在读了这两篇论文后建立了分布式计算平台,以他儿子的玩具大象命名。
而Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为
4.2大数据处理过程 4.2.1采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。 4.2.2导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。 4.2.3统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方
18
面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。 4.2.4挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理 4.3大数据处理的核心技术-Hadoop
大数据技术涵盖了硬软件多个方面的技术,目前各种技术基本都独立存在于存储、开发、平台架构、数据分析挖掘的各个相对独立的领域。这一部分主要介绍和分析大数据处理的核心技术——Hadoop。 4.3.1 Hadoop的组成
大数据不同于传统类型的数据,它可能由TB甚至PB级信息组成,既包括结构化数据,也包括文本、多媒体等非结构化数据。这些数据类型缺乏一致性,使得标准存储技术无法对大数据进行有效存储,而且我们也难以使用传统的服务器和SAN方法来有效地存储和处理庞大的数据量。这些都决定了“大数据”需要不同的处理方法,而Hadoop目前正是广泛应用的大数据处理技术。Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。该框架在很大程度上受Google在2004年白皮书中阐述的MapReduce的技术启发。Hadoop主要组件包含如图:
19
Hadoop Common:通用模块, 支持其他Hadoop模块
Ha d o o p Di s t r i b u t e d Fi l eSystem(HDFS):分布式文件系统,用以提供高流量的应用数据访问
Hadoop YARN:支持工作调度和集群资源管理的框架 HadoopMapReduce:针对大数据的、灵活的并行数据处理框架 其他相关的模块还有:
ZooKeeper:高可靠性分布式协调系统 Oozie:负责MapReduce作业调度
HBase:可扩展的分布式数据库,可以将结构性数据存储为大表 Hive:构建在MapRudece之上的数据仓库软件包 Pig:架构在Hadoop之上的高级数据处理层
在Hadoop框架中,最底层的HDFS存储Hadoop集群中所有存储节点上的文件。HDFS的架构是基于一组特定的节点构建的(如图),
这些节点包括一个NameNode和大量的DataNode。存储在HDFS中的文件被
20
分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的RAID架构大不相同。块的大小(通常为64MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议。NameNode在HDFS内部提供元数据服务,负责管理文件系统名称空间和控制外部客户机的访问。它决定是否将文件映射到DataNode上的复制块上。DataNode通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。H a d o o p M a p R e d u c e 是Google MapReduce的开源实现。MapReduce技术是一种简洁的并行计算模型,它在系统层面解决了扩展性、容错性等问题,通过接受用户编写的Map函数和Reduce函数,自动地在可伸缩的大规模集群上并行执行,从而可以处理和分析大规模的数据[6]。Hadoop提供了大量的接口和抽象类,从而为Hadoop应用程序开发人员提供许多工具,可用于调试和性能度量等。在H a d o o p 应用实例中,一个代表客户机在单个主系统上启动Ma pRe d u c e的应用程序称为JobTracker。类似于NameNode,它是Ha d o o p 集群中唯一负责控制MapReduce应用程序的系统。在应用程序提交之后,将提供包含在HDFS中的输入和输出目录。JobTr a cke r使用文件块信息(物理量和位置)确定如何创建其他TaskTracker从属任务。MapReduce应用程序被复制到每个出现输入文件块的节点,将为特定节点上的每个文件块创建一个唯一的从属任务。每个TaskTracker将状态和完成信息报告给JobTracker。如图显示一个示例集群中的工作分布,如图:
21
4.3.2 Hadoop的优点
Hadoop能够使用户轻松开发和运行处理大数据的应用程序。它主要有以下几个优点:
(1)高可靠性。
Hadoop按位存储和处理数据的能力值得人们信赖。 (2)高扩展性。
Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
(3)高效性。
Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
(4)高容错性。
Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。 4.3.3 Hadoop的不足
Hadoop作为一个处理大数据的软件框架,虽然受到众多商业公司的青睐,但是其自身的技术特点也决定了它不能完全解决大数据问题。在当前Hadoop的设计中,所有的metadata操作都要通过集中式的NameNode来进行,NameNode有可能是性能的瓶颈。当前Hadoop单一NameNode、单一Jobtracker的设计严重制约了整个Hadoop可扩展性和可靠性。首先,NameNode和JobTracker是整个系统中明显的单点故障源。再次,单一NameNode的内存容量有限,使得Hadoop集群的节点数量被限制到2000个左右,能支持的文件系统大小被限制在10-50PB,最多能支持的文件数量大约为1.5亿左右。实际上,有用户抱怨其集群的NameNode重启需要数小时,这大大降低了系统的可用性。随着Hadoop被广泛使用,面对各式各样的需求,人们期望Hadoop能提供更多特性,比如完全可读写的文件系统、Snapshot、Mirror等等。这些都是当前版本的Hadoop不支持,但是用户又有强烈需求的。
22
4.3.4主要商业性“大数据”处理方案
“大数据”被科技企业看作是云计算之后的另一个巨大商机,包括IBM、谷歌、亚马逊和微软在内的一大批知名企业纷纷掘金这一市场。此外,很多初创企业也开始加入到大数据的淘金队伍中。Hadoop是非结构数据库的代表,低成本、高扩展性和灵活性等优势使其成为各种面向大数据处理分析的商业服务方案的首选。Oracle、IBM、Microsoft三大商业数据提供商是Hadoop的主要支持者。很多知名企业都以Hadoop技术为基础提供自己的商业性大数据解决方案。这一部分主要介绍以Hadoop为基础的典型商业性大数据解决方案。
(1)IBM InfoSphere大数据分析平台
I B M于2011年5月推出的InfoSphere大数据分析平台是一款定位为企业级的大数据分析产品。该产品包括BigInsight s和Streams,二者互补,Biglnsights基于Hadoop,对大规模的静态数据进行分析,它提供多节点的分布式计算,可以随时增加节点,提升数据处理能力。St reams采用内存计算方式分析实时数据。它们将包括HadoopMapReduce在内的开源技术紧密地与IBM系统集成起来。研究Hadoop这样开源技术的人很多,但是IBM这次是真正将其变成了企业级的应用,针对不同的人员增加不同的价值。InfoSphereBigInsight s 1.3的存储和运算框架采用了开源的Ha d o o pMa pRe d u c e,同时针对Ha d o o p 框架进行了改造,采用了IBM特有的通用并行文件系统——GPFS。利用GPFS的目的是为了避免单点故障,保证可用性。BigInsights中还有两个分析产品——Cognos和SPSS,这两个分析产品在传统功能上加强了文本分析的功能,提供了一系列文本分析工具,并使用高级语言进行自定义规则,如文本格式转换等。目前BigInsights提供两种版本,一种是企业版(Enterprise Edition),用于企业级的大数据分析解决方案。另一种是基础版(Basic Edition),去掉了企业版中的大部分功能,用户可以免费下载,主要提供给开发人员和合作伙伴试用。St r e ams 最大的特点就是内存分析,利用多节点PC服务器的内存来处理大批量的数据分析请求。St reams的特点就是“小快灵”,数据是实时流动的,其分析反应速度可以控制在毫秒级别,而BigInsights的分析是批处理,反应速度无法同St reams相比。总体来说,二者的设计架构不同,也用于处理不同的大数据分析需求,并可以形成良好的互补。InfoSphere平台仅仅是IBM大数据解决
23
方案中的一部分。IBM大数据平台包括4大部分:信息整合与治理组件、基于开源Apache Hadoop的框架而实现的Bi g I n s i g h t s 平台、加速器,以及包含可视化与发现、应用程序开发、系统管理的上层应用。通过IBM的解决方案可以看出,解决大数据问题不能仅仅依靠Hadoop。
(2)Oracle BigData Applianc
Oracle Big Data Appliance准确地说是一款硬件产品,添加了Hadoop装载器、应用适配器以及Or acle新的NoSQL数据库,主要目的是为了将非结构化数据加载到关系型数据库中去,并对软硬件的集成做了一些优化。Oracle BigData机包括开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、OracleHa d o o p 装载器、Op e n So u r c eDistribution of R、Oracle Linux和Oracle Java HotSpot虚拟机。它能够快速、便捷地与Oracle数据库11g、Oracle Exadata数据库云服务器和Oracle Exalytics商务智能云服务器集成。分析师和统计人员可以运行现有的R应用,并利用R客户端直接处理存储在Oracle数据库11g中的数据,从而极大地提高可扩展性、性能和安全性。
(3)Microsoft SQLServer
微软已经发布Hadoop Connectorfor SQL Se r ve r Pa r a l lel Dat aWarehouse和Hadoop Connectorfor SQL Ser ver社区技术预览版本的连接器。该连接器是双向的,用户可以在Hadoop和微软数据库服务器之间向前或者向后迁移数据。微软的SQL Server 2012将并入Hadoop分布式计算平台,微软还将把Hadoop引入Windows Server和Azure(微软的云服务)。
(4)Sybase IQ
Sybase IQ是Sybase公司推出的特别为数据仓库设计的关系型数据库,添加了Hadoop的集成,并提供了MapReduce的API。相比于传统的“行式存储”的关系型数据库,Sybase IQ使用了独特的列式存储方式,在进行分析查询时,仅需读取查询所需的列,其垂直分区策略不仅能够支持大量的用户、大规模数据,还可以提交对商业信息的高速访问,其速度可达到传统的关系型数据库的百倍甚至千倍。
24
4.3.5其他“大数据”解决方案
“大数据”解决方案并非只有Hadoop一种,许多知名企业还提供了其他的解决方案。
(1)EMC
EMC 提供了两种大数据存储方案,即Isilon和Atmos。Isilon能够提供无限的横向扩展能力,Atmos是一款云存储基础架构,在内容服务方面,Atmos是很好的解决方案。在数据分析方面,EMC提供的解决方案、提供的产品是Greenplum,Greenplum有两个产品,第一是GreenplumDatabase,GreenplumDatabase是大规模的并行成立的数据库,它可以管理、存储、分析PB量级的一些结构性数据,它下载的速度非常高,最高可以达到每小时10 T B,速度非常惊人。这是EMC可以提供给企业、政府,用来分析海量的数据。但是Gr e e n p l umDa t a b a s e面对的是结构化数据。很多数据超过9 0 % 是非结构化数据,E M C 有另外一个产品是GreenplumHD,GreenplumHD可以把非结构化的数据或者是半结构化的数据转换成结构化数据,然后让GreenplumDatabase去处理。
(2) BigQuery
BigQu e r y是Go og l e 推出的一项We b服务,用来在云端处理大数据。该服务让开发者可以使用Go o g l e 的架构来运行SQL语句对超级大的数据库进行操作。BigQuery允许用户上传他们的超大量数据并通过其直接进行交互式分析,从而不必投资建立自己的数据中心。Google曾表示BigQuery引擎可以快速扫描高达70TB未经压缩处理的数据,并且可马上得到分析结果。大数据在云端模型具备很多优势,BigQuery服务无需组织提供或建立数据仓库。而BigQuery在安全性和数据备份服务方面也相当完善。免费帐号可以让用户每月访问高达100GB的数据,用户也可以付费使用额外查询和存储空间。 4.3.6大数据”与科技文献信息处理
“大数据”目前主要指医学、天文、地理、Web日志、多媒体信息等数据,鲜有提及文献信息。事实上,现在的科技文献信息日益凸显出“大数据”的特征,主要表现在以下几个方面:更新周期缩短;数量庞大;文献的类型多样;文献载体数字化;文献语种多样化;文献内容交叉;文献信息密度大。科技文献中所含
25
的信息类型多样,既有结构性数据,也有非结构性文本和公式,如何利用“大数据”技术对文献内容进行分析,挖掘用户访问日志、评价反馈等数据的价值,为用户提供服务成为科技信息服务业急需思考和解决的问题。在科技文献信息处理中,文本分析技术、语义计算技术、数据安全需要与“大数据”解决方案结合起来考虑实施,这样才能更有效地提供知识服务。 4.4大数据处理技术发展前景
随着大数据时代的来临,应用越来越广,其发展前景是很光明的。 4.4.1大数据复杂度降低
大数据技术的落地将会有两个特点:一个是对MapReduce依赖越来越少,另外一个是会把Hadoop技术深入的应用到企业的软件架构中。对于第一个特点,像Cloudera的Impala和微软的PolyBase这样的软件会得到充分发展,他们绕开了MapReduce,直接对存在HDFS中的数据进行处理。对于第二个特点,大规模的使用Hadoop是个必然趋势,渐渐的就会形成行业的标准,进而成为更有价值的软件基础,而不仅是自己内部使用。 4.4.2大数据细分市场
大数据相关技术的发展,将会创造出一些新的细分市场。例如,以数据分析和处理为主的高级数据服务,将出现以数据分析作为服务产品提交的分析即服务(Analyze as a Service)业务;将多种信息整合管理,创造对大数据统一的访问和分析的组件产品;基于社交网络的社交大数据分析;甚至会出现大数据技能的培训市场,教授数据分析课程等。 4.4.3大数据开源
开源软件为大数据市场带来更多机会。与人们的传统理解不同,大数据市场开源软件的盛行不会抑制市场的商业机会,相反开源软件将会给基础架构硬件、应用程序开发工具、应用、服务等各个方面的相关领域带来更多的机会。 4.4.4 Hadoop将加速发展
做为大数据领域的代表技术,许多企业都把明年的计划聚焦在Hadoop之上。据预测,用户对Hadoop的优化将更注重硬件,同时,对企业友好的Hadoop技术市场将达到前所未有的高峰。从整体上说,不仅是Hadoop本身本会得到迅猛的发展,同时Hadoop在多个数据中心中的配置和无缝集成技术也将成为热门。
26
Hadoop的专业知识正在飞速增长,但是这方面优秀的人才仍然很缺乏。基于SQL的Hadoop工具将会得到持续发展”。 4.4.5打包的大数据行业分析应用
随着大数据逐渐走向各个行业,基于行业的大数据分析应用需求也日益增长。未来几年中针对特定行业和业务流程的分析应用将会以预打包的形式出现,这将为大数据技术供应商打开新的市场。这些分析应用内容还会覆盖很多行业的专业知识,也会吸引大量行业软件开发公司的投入。 4.4.6大数据分析的革命性方法出现
在大数据分析上,将出现革命性的新方法。就像计算机和互联网一样,大数据可能是新一波技术革命。从前的很多算法和基础理论可能会产生理论级别的突破。
4.4.7大数据与云计算:深度融合
大数据处理离不开云计算技术,云计算为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式,大数据则为云计算提供了新的商业价值,大数据技术与云计算技术必有更完美的结合。同样的,云计算、物联网、移动互联网等新兴计算形态,既是产生大数据的地方,也是需要大数据分析方法的领域。 4.4.8大数据一体机陆续发布
自云计算和大数据概念被提出后,针对该市场推出的软硬件一体化设备就层出不穷。在未来几年里,数据仓库一体机、NoSQL 一体机以及其它一些将多种技术结合的一体化设备将进一步快速发展。
27
5、大数据分析平台
5.1大数据分析平台体系架构
大数据没有一个明确的定义,是一个相对的概念,取决于当前所具有的数据处理能力。如果一个用户所面对的数据超出该用户所拥有的数据存储、处理和分析的能力,致使该用户不能有效地利用数据,该用户就面对大数据问题。在大数据时代,个人、企业和机构都会面临大数据的问题。建设面向服务的大数据平台,为众多的中小企业和个人用户提供大数据处理和分析的能力,将成为大数据产业发展的重要方向。
面向服务的大数据分析平台以区域性智能数据中心及高速互联网为基础设施,以互联网服务体系为架构,以大数据存储、处理、挖掘和交互式可视化分析等关键技术为支撑,通过多样化移动智能终端及移动互联网为用户提供数据存储、管理及分析服务。
大数据分析平台的拓扑架构如图5.1所示。其中部署在多个地方的智能数据中心提供大数据存储及计算平台,通过平台服务器提供系统调用功能。门户服务中心将整合所有的智能数据中心存储和计算资源,并通过 web 应用服务器和 Open API 服务器以 web 调用和Open API 调用的方式提供大数据存储、管理及挖掘服务。终端用户利用移动智能终端通过互联网访问门户服务中心,使用其提供的大数据存储、管理及挖掘服务。
图5.1 大数据分析平台拓扑示意图
28
大数据分析平台的系统架构如图5.2 所示。系统包含3个层次:平台层为整个大数据分析平台提供基础平台支持;功能层提供基本的大数据存储和挖掘功能;服务层为用户提供基于互联网的大数据服务。具体包括:
图5.2 大数据分析平台系统架构
(1)平台层:为大数据存储和挖掘提供大数据存储和计算平台,为多区域智能中心的分析架构提供多数据中心调度引擎;
(2)功能层:为大数据存储和挖掘提供大数据集成、存储、管理和挖掘功能;
(3)服务层:基于 Web 和 Open API 技术提供大数据服务。 5.2大数据分析平台关键技术
建设面向服务的大数据分析平台,需要研究和开发一系列关键技术(如图5.3 所示),主要包括:
图5.3 大数据分析平台关键技术
29
5.2.1平台层
(1)大数据分布式存储系统:针对数据不断增长的挑战,需要研究大规模、非结构化数据的存储问题,突破大数据的存储、管理和高效访问关键技术,当前需要构建至少 PB 级存储能力的大数据平台才能满足一般的科研和应用需求。
(2)分布式数据挖掘运行时系统:针对大数据挖掘算法运行的挑战,突破 MapReduce 技术的局限,研究有效支持迭代、递归、层次及集成机制的海量数据挖掘编程模型和运行时系统,构建大数据运行时系统。
(3)智能数据中心联合调度技术:针对大数据存储和挖掘的挑战,研究多数据中心的智能联合调度、负载均衡技术,整合多个数据中心的存储和计算资源,构建基于多智能中心的大数据服务平台。 5.2.2功能层
(1)高可扩展性大数据挖掘算法:针对大数据挖掘的挑战,研究基于云计算的分布式大数据处理与挖掘算法,构建高可扩展的大数据处理与挖掘算法库,实现 TB 级数据的建模能力。
(2)大数据安全与隐私保护技术:针对数据挖掘“软件即服务”(SaaS)模式的需求,研究开发数据挖掘在云环境下的隐私保护、数据审计和节点数据挖掘技术,确保大数据挖掘过程中的数据安全,保证用户的隐私不被泄露。
(3)分布式工作流引擎:针对大数据挖掘分布式调度的挑战,研究基于云计算的分布式工作流调度、负载均衡技术,构建高效分布式工作流执行引擎。
(4)交互式可视化分析技术:针对传统分析方法交互性和可理解性不足的问题,研究启发式、人机交互、可视化数据挖掘新技术,实现大数据挖掘的高度人机交互功能。 5.2.3服务层
(1)基于 Web 的大数据挖掘技术:突破传统的基于单机软件的数据挖掘技术,创新基于 Web 的大数据挖掘方法和流程,实现易于使用的基于 Web 的大数据挖掘技术,构建基于 Web 的大数据分析环境。
(2)基于 Open API 的大数据挖掘技术:突破传统的基于软件的数据挖掘技术,创新基于 Open API 的大数据挖掘方法,研究大数据挖掘开放接口、开放流程,构建基于 Open API 的大数据分析模式。
30
为广大用户提供大数据处理和分析的服务功能,大数据分析平台要突破传统的基于软件和高端服务器的数据挖掘传统技术体系,采用基于云计算的大数据存储和处理架构、分布式数据挖掘算法和基于互联网的大数据存储、处理和挖掘服务模式。实现这一目标需要做如下创新:
(1)系统架构创新:突破传统的基于软件和高端服务器的数据挖掘技术体系,研发基于互联网和云计算的大数据存储、处理和挖掘的数据中心系统架构,支持多用户、多任务的大数据分析环境;
(2)服务模式创新:突破传统的一次性软件销售或软件租赁的高价格解决方案,创新基于互联网的大数据存储、处理和分析服务模式,为用户提供按需、廉价的大数据存储、处理和分析服务;
(3)使用模式创新:突破传统的使用单机软件的方式,创新基于互联网的大数据存储、管理和分析服务,提供多终端(台式机、笔记本、平板电脑、手机等)、多途径(浏览器访问,Open API 调用等)的用户使用模式。 5.3大数据分析平台应用与产业化
商业应用是大数据分析平台的发展目标。随着我国企业信息化程度和水平不断提高,越来越多的企业需要大数据分析的能力以提高竞争力。在互联网、电子商务、金融、电信、零售、物流等数据驱动型行业,客户分群、客户行为分析、客户关系管理、市场营销、广告投放、业务优化、风险管理等企业核心业务越来越依赖于对数据的有效分析与挖掘。正如在《大数据:国家选择与产业方向》一书中所说,“大数据时代公司的价值,与其拥有的数字资产的规模、活性成正比,与其解释、运用数据的能力成正比”。因此,如何从海量业务数据中挖掘有价值的信息和知识,从而指导商业运营与决策、提高企业运营效率和盈利能力,成为每个企业都将面临的重要挑战。
大数据分析平台基于分布式海量数据存储与计算环境,提供图形化交互式数据处理和分析工具,丰富的数据分析与挖掘算法,以及交互式可视化分析工具,通过互联网服务方式向用户提供服务。这种系统实现策略不仅符合大数据应用的发展趋势,同时也满足中小企业和个人用户对于数据分析系统的可用性、时效性和低成本等方面的要求。
目前,在大数据处理与分析领域,国际上三支主要力量在不断地竞争与融合,
31
即大型互联网公司(如Google、Amazon)、 传 统 商 务 智 能 公 司( 如 SAS、SPSS)和传统 IT 公司(如 IBM、ORACLE、SAP)。三方从各自优势出发,不断增强针对大数据的分析智能性、计算扩展性和非结构化数据处理能力。尽管一些公司在上述领域取得突破并抢得市场先机,但国际大数据产业整体上仍然处于起步阶段,据 IDC 公司预测未来 5 年大数据分析产业年增长率高达 9.8%,到 2016年全球产业规模将超过 500 亿美元。同时,越来越多的大数据创新公司不断涌现并发展迅速,也证明了该领域蕴含着巨大的发展潜力和广阔的市场前景。
大数据分析平台所采用的技术路线和应用模式融合了智能分析技术、高可扩展计算技术、非结构化数据处理技术和软件即服务(SaaS)应用模式,符合当前国际大数据产业的发展趋势和产业化应用要求。一方面,系统通过互联网服务方式向用户提供高可用、高易用和一站式的海量数据分析服务,可有效降低企业应用门槛和成本,通过专业化服务外包满足企业个性化需求。另一方面,由于是开放架构的系统平台,商业用户和其他软件提供商可通过系统提供的互联网服务开发接口(Open API)开发面向行业商务智能应用的解决方案,孵化新型咨询公司、软件公司和信息服务公司,有助于形成以平台为核心的大数据分析产业生态环境。
32
6、项目实施说明
大数据中心的建设,一般采用三种模式进行:
(1)政府主导型:由地方政府投资建设,网络基础设施、硬件投入、数据采集及基础数据库建设、软件开发、数据中心云平台、应用推广等均由政府投资进行,企业以项目形式承担其中某一部份的工作。
(2)企业建设、客户购买服务型:由不同类型的企业进行投资建设,客户提出需求并向相应的服务提供商购买服务。
(3)混合型:地方政府进行部分基础数据库建设(如:基础地理信息空间数据,此类数据为国家保密数据,不对外公开,即便是处理、应用部分数据也需相应的保密资质),不同类型的企业建设各自的大数据服务云平台并提供服务,应用部门按需求购买服务;或企业按客户需求专门开发并提供服务。
大数据中心建设投资巨大,功能繁多,不建议地方政府单一投资进行,仅建议地方政府对涉密数据进行基础数据中心的建设。其余功能由不同类型的企业进行投资建设,客户提出需求并向相应的服务提供商购买服务;或企业按客户需求专门开发并提供服务。
因此,本建议书以基础地理信息大数据中心平台为例进行说明。 6.1项目启动阶段
此阶段处于整个项目实施工作的最前期,由成立项目组、前期调研、编制总体项目计划、启动会四个阶段组成。
阶段主任务: 对象
公司 公司项目组
召开项目启动会
配合公司项目组,将积累的项目和用户信息转交给项目组。将项目组正式
商务经理
介绍给用户,配合项目组建立与用户的联系
成立项目实施组织,配合前期调研和召开启动会,签署《总体项目计划》
用户
和《项目实施协议》
任务
在合同签定后,指定项目经理,成立项目组,授权项目组织完成项目目标 进行前期项目调研,与用户共同成立项目实施组织,编制《总体项目计划》,
(1)成立项目组:
33
项目实施部门经理接到实施申请后,任命项目经理,指定项目目标,由部门经理及项目经理一起指定项目组成员及成员任务,并报总经理签署《项目任务书》。
(2)前期调研:
项目经理及项目组成员,在商务人员配合下,建立与用户的联系,对合同、用户进行调研。填写《项目工作说明书》。在项目商务谈判中,商务经理积累了大量的信息,项目组首先应收集商务和合同信息,并与商务经理一起识别哪些个体和组织是项目的干系人,确定他们的需求和期望,以确保项目开发顺利。
(3)编制《项目总体计划》:
《项目总体计划》主要包括以下几方面内容:项目描述,项目目标、主要项目阶段、里程碑、可交付成果等。
(4)启动会:
项目组与用户共同召开的宣布项目实施正式开始的会议。 会程安排如下:
共同组建项目实施组织,实施组织的权利和职责,填写《项目组成员表》; 项目组介绍《项目总体计划》和《项目组成员表》,包括以下内容:项目目标、主要项目阶段、里程碑、可交付成果及计划的职责分配(包括用户的);
项目实施中项目管理的必要性和如何进行项目管理,项目的质量如何控制; 项目实施中用户的参与和领导的支持的重要作用;
阶段验收、技术交接和项目结束后如何对用户提供后续服务。 6.2需求调研确认阶段
此阶段的主要工作是项目实施人员向用户调查用户对系统的需求,包括用户工作现状调研、系统所需软硬件环境调研、系统功能需求调研、现有数据情况调研等,实施人员调研完成后,会编写《项目工作调研报告》,并交付用户进行确认,待用户对《项目工作调研报告》上所提到的需求确认完毕后,项目实施人员将以此为依据进行软件功能、数据处理的实现。如果用户又提出新的需求,实施人员将分析需求的难度及对整个系统的影响程度来确定是否给予实现。
需求调研阶段具体包括如下内容: (1)进行需求调研准备 (2)编制《需求调研计划》
34
(3)需求调研,项目组以《需求调研计划》为依据,从工作流程、地理信息公共平台现状、基础地理信息库现状等方面开展详细调研工作,并搜集用户的个性化需求。
(4)需求调研分析,根据调研的结果,项目组和公司其他技术部门将进一步进行分析,确定合理、可行的需求,将分析结果形成《项目工作调研报告》和《系统功能设计书》草稿。
(5)内部评审通过《项目工作调研报告》和《系统功能设计书》,项目组、部门经理、公司其他技术部门的人员对《项目工作调研报告》和《系统功能设计书》草稿进行评审,稍后由用户签署。
(6)用户组织项目干系人以会议的形式审核《项目工作调研报告》和《系统功能设计书》, 在经过讨论、质询、确定《项目工作调研报告》和《系统功能设计书》阐述的内容符合用户需求后,用户确认并签署《项目工作调研报告》和《系统功能设计书》,需求调研阶段工作结束,进行后续的软件功能实现和数据处理等工作。
6.3系统功能实现确认阶段
此阶段的主要工作是项目实施人员根据需求调研阶段确认的《项目工作调研报告》和《系统功能设计书》中的内容进行具体软件功能的研发实现工作。在此阶段需要重点研究基础地理信息数据库系统建设技术路线,进行数据库结构设计和数据库系统设计,按照《系统功能设计书》进行数据库建设和数据库管理系统软件开发、测试、集成,实现多源、多尺度、海量市级基础地理信息数据库建设、更新、管理和分发等服务,同时指导其他项目实施人员开展基础地理信息数据预处理和数据整理入库工作。
按照调研要求的所有功能实现完毕后,项目实施人员编制《系统功能确认表》,将定制好系统功能待用户确认,用户根据《系统功能确认表》上的功能逐一确定软件功能达到要求。
6.4基础地理信息数据预处理阶段
此阶段的主要工作是项目实施人员指导用户整理**市现有基础地理信息数据资料,按照矢量数据、影像数据、地形数据、城市模型数据、业务数据进行分类,并参照已有的基础地理信息库,将所有数据资料依照**市地理信息公共平台
35
的基础地理信息数据集成要求,进行格式转换、坐标变换、投影变换、数据拼接等操作,为下一步的数据整理入库做好准备。
在此阶段为了清除掌握**市基础数据的情况,项目实施人员需要整理《基础数据情况统计表》,并请用户负责人签字确认。 6.5基础地理信息数据整理入库阶段
此阶段的主要工作是项目实施人员指导用户将来自多个单位和部门的生产和汇交的基础地理信息数据按照统一的标准规范、数据组织要求编制数据建库方案。在基础地理信息数据预处理的基础上对多源、多尺度、多格式的空间数据按照入库方案进行数据整合、数据质量检查,包括坐标系统的一致化、数据编码的一致化、数据格式的一致化、数据命名等一致规范化,然后配合系统研发人员将已有数据资料整理入库。 6.6数据与系统集成初装阶段
此阶段的主要工作是项目实施人员指导用户按照地理信息公共平台大数据中心系统的要求,将标准化后的数据资料进行集成处理,并对用户进行初装空间信息数据的软件操作培训,以便用户能够及时的将各类空间信息数据录入到数据库管理系统中,初装完成后,项目实施人员对空间数据资料集成的情况进行核查,为以后具体业务功能的开展做好基础。 6.7项目培训阶段
项目培训阶段工作是整个项目实施工作中比较重要的工作,用户对基础地理信息数据库的操作功能是否熟练将直接影响到后面的系统应用效果,应给予足够的重视。在项目实施过程中对用户的相关人员进行了系统和规范的使用培训,让用户了解了系统的功能,最终自己能够解决使用中的具体的问题。
此阶段的培训工作中将用户参加培训的人员划分为三个层次:决策层、技术层、操作层,对不同层次的用户参加产品培训人员的培训内容分别是:
决策层:领导在实施中的作用与重要性、决策查询。 维护层:系统维护知识、操作方法。 操作层:操作方法。 具体的培训工作流程为: (1)编制培训计划:
36
根据地理信息公共平台大数据中心系统的使用需求,与用户实施负责人商议具体培训内容、时间,场地,人员等。项目组编制《培训计划》。
(2)发培训通知:
培训开始前2天,按照签署的《培训计划》,将培训内容、时间,场地,人员等信息通知用户实施负责人。
(3)组织培训:
公司项目组培训负责人与用户实施负责人组织相关人员参加培训,详细讲解软件使用方法,解答用户疑问,并向操作人员提供软件使用手册。由用户将考勤情况填入《培训人员签到表》。
(4)培训总结:
公司项目组培训负责人与用户实施负责人一起对培训情况做出总结,确认各级使用人员对系统操作掌握情况,保证培训成果。 6.8系统安装测试及试运行阶段
此阶段的主要工作是在用户真实环境下,对用户网络及硬件设备进行测试,对地理信息公共平台大数据中心系统进行容量、性能压力等测试,确保系统各项功能均能正常使用,并且符合用户签署的《项目工作调研报告》中描述的需求,同时把尽可能多的潜在问题在正式运行之前发现并改正,并进一步提高有关人员的操作水平,规范操作。
此阶段的主要工作内容为: (1)编制计划:
与用户实施负责人商议具体测试及试运行时间,地点,人员等安排,项目组编制《测试及试运行计划》。
(2)发测试及试运行通知:
在测试及试运行开始前2天,按照《测试及试运行计划》,将时间,地点,人员等信息通知用户实施负责人。
(3)搭建环境及数据准备:
在试运行开始前搭建好软件环境、硬件环境、网络环境、调通线路;检查软件、硬件、网络、线路等各个环节是否有问题。
由各部门和生产单位整理提供试运行基础数据,系统所需各类数据完整可用。
37
(4)组织测试及试运行:
用户相关各级领导给予全面配合,组织相关人员进行测试及试运行。公司项目组负责担当指挥,检查用户人员组织情况并给予指导。
(5)测试及试运行总结:
测试及试运行完成,测试运行中硬件网络设备、软件的运行情况是否正常,试运行中系统各操作环节符合预期期望,生成《系统测试报告》。 6.9项目总体验收阶段
此阶段是对项目总体的完成情况进行验收。验收分阶段进行,在每一项目阶段结束时,用户对这一阶段的可交付成果进行验收,在测试及试运行结束后,对系统进行总体验收。
需要验收的可交付成果:
主要项目阶段 启动阶段
启动会
需求调研阶段 系统功能实现 数据处理
入库
数据集成与系
初装检查及总结
统初装 用户操作培训
培训总结
培训完成 用户签署测试及试
系统完整安装
测试及试运行总结
测试及试运行
试运行完成
项目验收
总体验收
验收完成
签署《系统测试报告》 签署《总体验收报告》
运行计划
签署《测试及试运行计划》
签署《培训总结表》
数据初装完成 制定培训计划
签署《培训计划》
确认 用户参加初装培训
需求分析报告确认 系统功能确认 数据预处理与整理
需求调研结束 系统功能得到确认 数据入库成果得到
阶段组成 编制总体项目计划
项目启动会
签署《项目实施协议》 签署《项目工作调研报告》 签署《系统功能确认表》 签署《基础数据情况统计
主要里程碑
可交付成果 签署《总体项目计划》
表》
6.10项目成果交接阶段
此阶段是项目实施的最后一个阶段,主要工作是项目组向用户移交项目成果资料,包括基础地理信息库管理系统、空间信息数据预处理成果、空间信息数据
38
整理入库成果、项目实施过程中所生成的各种文档资料。
项目组需根据系统部署情况、数据成果情况编制《项目成果提交单》,交由用户签字确认。
39
7、建议
大数据开发的根本目的是以数据分析为基础,帮助人们做出更明智的决策,优化企业和社会运转。大数据本质上是“一场管理革命”。大数据时代的决策不能仅凭经验,而真正要“拿数据说话”。因此,大数据能够真正发挥作用,深层次看,还要改善我们的管理模式,需要管理方式和架构与大数据技术工具相适配。
大数据有巨大的社会和商业价值,就看会不会挖掘,是否善于运用数据分析的结果。同时,它又是一个应用驱动性很强的服务,要做好大数据产业,为经济发展提供更大的动力,需要从以下几个方面入手。
(一)建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。
(二)规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。
(三)搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类信息系统的数据交换和数据共享。
(四)培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。
40
因篇幅问题不能全部显示,请点此查看更多更全内容