物联网大数据分析实验室建设方案
一、项目背景
“十三五”期间,随着我国现代信息技术的蓬勃发展,信息化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新 IT”浪潮风起云涌,信息化应用进入一个“新常态”。章鱼大数据为积极应对“互联网+”和大数据时代的机遇和挑战,适应经济社会发展与改革要求,开发建设物联网大数据平台。
物联网大数据平台打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台,以信息化提升数据化管理与服务能力,及时准确掌握社会经济发展情况,做到“用数据说话、用数据管理、用数据决策、用数据创新”,牢牢把握社会经济发展主动权和话语权。 二、物联网行业现状
数字传感器的大量应用及移动设备的大面积普及,才会导致全球数字信息总量的极速增长。根据工信部的统计结果,中国物联网产业规模在2011年已经超过2300亿元,虽然和期望的“万亿规模产业”还有一定距离,但已经不可小视。其中传感器设备市场规模超过900亿元,RFID产业规模190亿元,M2M终端数
1
物联网大数据分析实验室建设方案
量也已超过2100万个。另一个方面,我国的物联网企业也呈现出聚集效应,例如北京中关村已有物联网相关企业600余家,无锡国家示范区有608家,重庆、西安等城市也有近300家。从区域发展来看,形成了环渤海、长三角、珠三角等核心区以及中西部地区的特色产业集群。
在2009年以前,可能没有哪家企业说自己是物联网企业。一夜之间产生的上千家物联网企业,他们的核心能力、产品或服务价值定位、目标客户和盈利模式都是如何呢?首先来看这些物联网企业从哪里来。现在的物联网企业主要分为三类,第一类是以前的公用企业转型,最典型的是电信运营商,他们有自己的基础设施,有客户资源,因此自然转型到物联网行业。除了电信运营商,一些交通基础设施运营商、甚至是气象设施运营商,也都转型为物联网企业。第二类是传统IT企业,例如华为、神州数码,以及众多上市公司等。这一类公司也是在传统的优势积累基础上开拓物联网新业务。第三类是一些制造企业,包括传感设备制造企业,网络核心设备制造企业,还包括如家电等一批传统制造企业。这一类企业不能说没有大企业,但是绝大多数都是中小型企业。这些企业的核心能力主要体现在三个方面,第一是传感器和智能仪表,第二是嵌入式系统和智能装备,第三是软件与集成服务。
再来看我国物联网应用的领域。通过对多个部委和地区的物联网专项进行汇总,下图列出了目前提到最多,也是应用最成熟
2
物联网大数据分析实验室建设方案
的八个领域。但是换个角度再看,不管是工业控制、供应链管理、精准农业,还是建筑自动化、远程抄表、ETC,其实都并不是新的技术领域,而是在物联网这个大概念下重新包装后再次引起了人们的兴趣。总的来说,物联网应用传感器改善了信息获取的实时性和准确性,同时智能终端改变了人们利用和使用信息的习惯。目前存在的主要问题包括应用过于碎片化,缺少满足用户需求的创新型产品/服务,行业间缺乏信息共享和应用协同渠道,以及安全和隐私保护重视不够。
三、建设目标
章鱼大数据物联网大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析,实现企业信用社会化监督,建立规范化共建共享投资项目管理体系,推进政务数据共享和业务协同,为决策提供
3
物联网大数据分析实验室建设方案
及时、准确、可靠的信息依据,提高政务工作的前瞻性和针对性,加大宏观调控力度,促进经济持续健康发展。
1、制定统一信息资源管理规范,拓宽数据获取渠道,整合业务信息系统数据、企业单位数据和互联网抓取数据,构建汇聚式一体化数据库,为平台打下坚实稳固的数据基础。
2、梳理各相关系统数据资源的关联性,编制数据资源目录,建立信息资源交换管理标准体系,在业务可行性的基础上,实现数据信息共享,推进信息公开,建立跨部门跨领域经济形势分析制度。
3、在大数据分析监测基础上,为政府把握经济发展趋势、预见经济发展潜在问题、辅助经济决策提供基础支撑。 四、建设原则
物联网大数据平台以物联网数据资源为重点,以大数据应用为核心,坚持“统筹规划、分步实施,整合资源、协同共享,突出重点、注重实效,深化应用、创新驱动”的原则,全面提升信息化建设水平,促进全省经济持续健康发展。
4
物联网大数据分析实验室建设方案
1、统筹规划、分步实施。结合我省经济发展与改革领域实际需求,明确总体目标和阶段性任务,科学规划建设项目。先期完成大数据平台的整体架构建设,后期分步完成业务系统的整合及相互间数据共享问题。
2、整合资源、协同共享。对信息资源统一梳理,建立经济发展与改革信息标准资源库和数据规范,逐步消灭“信息孤岛”,加快推进数据资源整合,建设共享共用的大数据中心,实现业务协同。
3、突出重点、注重实效。以用户为中心,以需求为导向,以服务为目的,突出重点,注重实效,加强平台可用性和易用性。 4、深化应用、创新驱动。深入了解用户需求,密切跟踪信息技术发展趋势,不断深化应用、拓展新技术在应用中的广度和深度,促进跨界融合,丰富管理和服务手段。 五、建设方案
为了保证项目的顺利进行和建设目标的可行性,章鱼大数据采取如下几种建设方案。 1、数据采集方案。
我们统一信息资源标准规范,建立多维度数据库,拓宽数据来源,通过不同的方式汇聚数据,增强分析力度,提高
5
物联网大数据分析实验室建设方案
监测预警的准确性和时效性。
1、预留接口,支持其它系统各种数据的上传导入处理。将现存有关经济运行业务系统中的历史数据和时效数据,通过上传数据文件至服务器、分析提取有效数据导入服务器数据库等方式采集起来,在本平台上复用。
2、支持外接数据的上传导入处理。可以将企业单位或定点监测机构的数据通过同样的方式采集起来,在本平台上复用。
3、支持非结构化数据,即搜索引擎数据、社交媒体数据、地理空间数据和音视频数据等等。 2、数据分析方案。
物联网大数据之大并不是难点所在,其真正难以对付的挑战来自于数据类型多样、要求及时响应和数据的不确定性,而我们所面临的也正是如此。
我们采用批量数据处理系统,借助于深度学习、知识计算和可视化等大数据分析技术,通过对数据的批量处理挖掘其中的价值来支持决策和发现新的洞察。 3、业务整合方案。
在对社会发展相关业务子系统充分调研基础上,结合项目需求,可对其进行整合或嵌入处理(本方案整合公共信用
6
物联网大数据分析实验室建设方案
信息服务平台、投资项目信息管理平台等)。
1、整合处理。将原有数据通过上传或导入方式进行采集,原有功能模块整合到本平台中,合二为一,完美的将数据汇聚起来。缺点是耗时较长。
2、嵌入处理。以单点登录的方式将原有系统链接嵌入到本平台中,作为子系统单独存在。缺点在于数据共享难以实现。 六、建设内容
1、宏观经济监测预测及可视化平台
政府信息化的最终目标是提高政府的决策水平,其中经济决策是核心内容。为了提高宏观调控决策水平,我们必须从依靠传统统计数据向依靠物联网非统计数据转变,从监测预测宏观经济总量向监测预测宏观经济先行指标转变,从中长期监测预测向实时监测预测转变。
7
物联网大数据分析实验室建设方案
宏观经济监测预测及可视化平台围绕网络搜索、社交媒体、电子商务、终端定位和业务交易等五个方面全面整合互联网相关数据资源,建设以“容量大、形式多、分类细、响应快”为目标的宏观经济监测预测数据库,构建基于互联网数据的宏观经济非统计指标监测预测应用平台。
围绕重点产业活跃度、区域经济关联度、宏观经济走向社会预期、社会消费热点、大宗商品供求及价格走势、全国就业形势、外贸订单变化趋势等方面,构建物联网大数据宏观经济先行指标和现时预测指标库,研究能客观、准确反映我省宏观经济运行状况的指标体系,编制“山东指数”。
在健全完善监测预警数据库的基础上,充分运用大数据
8
物联网大数据分析实验室建设方案
技术和理念,加强数据挖掘力度,强化定量分析,建立宏观经济分析系列模型,切实提高预测分析的前瞻性、准确性和可靠性。
积极拓宽信息发布渠道,建立可视化平台,如采用Unity3D引擎,三维界面高度仿真,所见即所得。平台针对多源易构的海量数据,通过数据处理、存储管理、可视化交互分析等技术,实现图形化数据查询、可视化关联分析、证据链和情报线索发掘等功能。利用预测信号灯系统,形象地刻画出宏观经济总体运行状况,分析经济波动原因,及时了解各地区经济发展的不平衡性,准确判断和测定经济景气循环运行状态,提高宏观经济决策水平。 2、建立食品安全风险监测大数据分析平台
食品安全风险监测大数据平台的基础是感知、收集、分析和共享覆盖食品生产全过程的相关数据。国家应制定相关法规,强制推行在农、林、牧、副、渔及食品生产企业和相关主体建立覆盖食品生产全过程的食品安全风险监测网点,进行动态数据的标示与感知,设立食品安全风险监测省级及地方大数据分平台,负责动态收集、分析本省及地方的食品安全监测数据,对本省及地方的食品安全状况做出评估,对监测发现的可能存在的食品安全隐患及时发布预警,并将数据及时汇总到食品安全风险监测管理部门。
9
物联网大数据分析实验室建设方案
3、物联网数据共享交换平台
物联网数据共享交换平台是各个平台中的基础性和综合性平台,是解决“信息孤岛”、实现数据互连互通的基础设施,有利于提高各类信息资源整合共享,以及信息资源的综合利用。
建设物联网数据共享交换平台的首要目标就是要创造一个信息交换、信息共享的方式和环境,按照统一标准和规范,建立信息资源整合机制,规范数据采集口径、采集方式,规范数据的服务方式,建立统一的资源信息整合与交换机制。
我们按照统一、集约、高效的数据开发利用理念,通过研究建立多级交换管理体系,形成政务信息资源物理分散、逻辑集中的信息共享模式,通过以应用为抓手,进一步打通数据流,满足政府部门多方位、多层次的数据需求,为跨地域、跨部门、跨平台不同应用系统、不同数据库之间的互连互通提供包含提取、转换、传输和加密等操作的数据交换服务。通过分布式部署和集中式管理架构,有效解决各节点间
10
物联网大数据分析实验室建设方案
数据的及时、高效上传下达,在安全、快捷、方便的进行信息交换的同时精准的保证数据的一致性和准确性。
章鱼大数据物联网数据共享交换平台的全局目标是建立一个可扩展、可集成、有统一数据模型、可交换和安全可靠的分布式系统,对各类物联网资源进行组织和管理。解决物联网信息资源的发现与定位问题,解决物联网信息资源规划与整理问题。支持物联网信息集成整合应用、各业务部门办公应用和政府职能决策应用。面向政务协作、宏观决策、市场监管和社会管理服务。 七、技术支持与平台性能 1、系统架构
建立基于分布式的物联网大数据集群管理系统,提供物联
网大数据集群管理系统,功能包含Hadoop、Hive、HBase、Sqoop、Flume、Spark等节点部属及管理,提供实时监控集群的CPU、内存、硬盘等使用率及相关信息,可以对管理节点、计算节点进行启动、停止等操作管理。 系统架构图如下:
11
物联网大数据分析实验室建设方案
2、Hadoop集群生态系统技术架构
12
物联网大数据分析实验室建设方案
3、Hadoop核心主要功能设计
4、HDFS介绍-文件读流程
Client向NameNode发起文件读取的请求。
13
物联网大数据分析实验室建设方案
NameNode返回文件存储的DataNode的信息。 Client读取文件信息。 5、HDFS介绍-文件写流程
Client向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
6、MapReduce——映射、化简编程模型
输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果
14
物联网大数据分析实验室建设方案
7、HBase——分布式数据存储系统
Client:使用HBase RPC机制与HMaster和HRegionServer进行通信
Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况
HMaster: 管理用户对表的增删改查操作
HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据
HRegion:Hbase中分布式存储的最小单元,可以理解成一个Table
15
物联网大数据分析实验室建设方案
HStore:HBase存储的核心。由MemStore和StoreFile组成。
HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件
2、平台性能及优势
1、先进性、开放性。
基于Hadoop/Spark主流大数据结构的应用技术和开放式的体系框架,结构化设计,灵活可拆分,具有灵活的可扩充接口,易于修改调整、二次开发和扩充,最大限度降低因上游技术升级带来的系统实施风险,保证投资的有效性和延续性。
2、可扩展性。
由于采用了平台化构建思想,章鱼大数据整个系统可做到与底层多种硬件环境、操作系统、数据接口的自由适配,保证系统在软件、硬件环境方面的灵活配置以及未来的拓展应用。
采用基于开放的模块化设计,可根据需要进行灵活动态的模块扩充,并保证原系统环境不受影响。
系统提供开放的标准接口,可实现与外围业务系统的无缝集成应用,灵活扩展系统的业务应用范围。
16
物联网大数据分析实验室建设方案
3、稳定性、可靠性。
系统采用集群结构应用模式,集中安装部署,客户端零安装,所以系统的运行不受任何客户端单点故障的影响。技术框架的支撑,可以实现数据信息的持久、稳定连接,确保事务处理的连续和完整,保证业务数据准确完全。
4、其他优势。
八、硬件系统建设 1、服务器
采用二十台高性能品牌服务器作为大数据节点进行建设,采用企业级全千兆三层交换机进行网络数据交换。
每台节点的配置如下: 处理器 每节点支持2个英特尔® 至强® 处理器 E5-2620v4 CPU 17
物联网大数据分析实验室建设方案
高速缓存 15MB QPI总线速率 7.2GT/s 内存 提供12个内存插槽,标配192G内存, 支持高级内存纠错,内存镜像,内存热备等高级功能 磁盘 标配3块3TB SAS硬盘 标配2块480G SSD 硬盘 网络控制器 集成1个高性能千兆以太网控制器(双口),支持虚拟化加速,网络加速,负载均衡,冗余等高级功能 电源 虚拟化技术 标配大功率高效白金级电源,1+1冗余 支持VMware vSphere、Docker、OpenStack等 2、实验终端设备
采用20台普通品牌PC机作为物联网大数据实验终端设备。 每台终端配置如下: 处理器 内存 磁盘 显卡 声卡
第四代智能英特尔酷睿I3处理器 DDR3 8G内存 500GB SATA硬盘 集成H110芯片显卡 集成声卡 18
物联网大数据分析实验室建设方案
网络控制集成1个高性能千兆以太网控制器 器 显示器 软件系统 键盘鼠标
20英寸显示器 Windows 10 有线鼠标、有线键盘 19
因篇幅问题不能全部显示,请点此查看更多更全内容