您的当前位置:首页正文

基于云计算的大数据分析

2022-04-02 来源:步旅网
、 嚣 基于云计算的大数据分析 王涛,邵国强 (大庆师范学院计算机科学与信息技术学院黑龙江大庆163712) 【摘要】:数据爆炸的年代多元化数据大量涌现,大数据的技术和市场正在快速发展,应充分利用 现有的云计算技术对大数据进行管理分析,挖掘出数据的潜在价值,从而促进企业的生产经营活动。 【关键词】:云计算;大数据;Hadoop O引言 当前在计算机学术界和工业界有两大热门核心 词汇,它们分别是云计算和大数据。云计算使得企业 可以更换掉过时落伍的设备和系统,降低IT投资花 费,并且提升员工问的协作交流;大数据由大的信息 集所组成,对其进行分析有助于企业识别出可以提升 业务流程运行效率的趋势和行为。 1云计算 云计算是基于Internet的以服务形式交付的全面 解决方案,它像电网传输电力那样提供资源,用户可 以根据需要访问计算资源,无论资源是物理的还是虚 拟的,是专用的还是共享的。云中的计算机一起工作, 各种应用程序使用同一计算能力集合。出现向云计算 转移这一潮流有许多合理而重要的原因:如降低成 本,优化资源的使用,健壮的可伸缩性等。 云的构成主要有三种类型:公共云、私有云和混 合云。公共云可供一般公众或大型行业组织使用,由 销售云服务的组织拥有和供应;私有云位于公司防火 墙内部,由公司自己管理,它们是在企业内部创建和 控制的云服务;混合云是公共云和私有云的组合,同 时使用公共和私有的服务,公共云提供商和企业本身 各自承担一部分管理责任。现在公共云主要用于那些 数据不太敏感的研发类任务上,相比之下私有云和混 合云的应用更为广泛。在这个革命性的新时代,云计 算甲台可以向用广提供如存储和计算分析等的高质 量服务以及系统稳定运行的保障。 2大数据 大数据是由数量巨大、结构复杂、类型众多的数 据构成的数据集,是基于云计算的数据处理与应用模 式,通过数据的集成共享、交叉复用可以形成强大的 基金项目:大庆师范学院自然科学基金项目(12Zlt23) ・26・ 福建电脑l 2014年第7期 智力资源和知识服务能力。大数据超出了典型结构化 数据的范围,典型结构化数据可通过关系数据库管理 系统进行查询,而大数据来源常常是半结构化文件、 数字视频、图像、传感器数据、日志文件,以及几乎未 包含明显可搜索字段的记录数据。大数据正以复杂的 格式,从不同的数据源高速奔涌而来,必须利用云计 算的技术和方法去进行管理分析。 典型结构化数据的数据源每时每刻产生的大数 据都不会违背预先定义好的规范格式;而更多大数据 的数据源是半结构化的,数据格式并不友好,但这些 数据具有内在可被理解的逻辑流程,因此在这些数据 的各个组成部分之间建立联系是可以实现的;对于那 些完全非结构化的大数据,目前人们拥有非常少的控 制权,能够做的只是接收存储等。 3云计算与大数据的关系 从技术上看,大数据与云计算的关系密不可分。 云计算强调的是计算,而大数据则是计算的对象。如 果数据是财富,那么大数据就是宝藏,而云计算就是 挖掘和利用宝藏的利器。大数据无法用单台计算机进 行分析处理,必须采用分布式计算架构,依托云计算 的分布式处理、分布式数据库、云存储和虚拟化技术。 云计算为大数据分析提供了前所未有的机会,不管数 据是传统结构化的数据库信息,还是社交网络、传感 器网络数据及不那么结构化的多媒体资源。 对大数据进行分析处理的云应用需要以数据为 中心的计算架构,许多解决方案都包含基于云的 API,用于与高级的列式搜索、机器学习算法及高级分 析(如计算机视觉、视频分析和可视化工具)配合使 用。在技术领域,以往更多是依靠模型的方法,现在我 们可以借用规模庞大的数据,用基于统计的方法,有 。 , , , 望使语音识别、机器翻译这些技术领域在大数据时代 仓库等)一起整合到其总体信息管理战略中。 取得更大的进展。 4大数据分析应用 大数据对社会经济生活产生的影响不仅仅限于 技术层面,还为我们认识世界提供了一种全新的视 很多行业都面临着海量数据所带来的挑战,例如 角,即决策行为将日益基于数据分析做出,而不是像 金融、零售行业等需要统计、分析最近几年甚至更长 过去更多凭借经验和直觉做出。大数据正在重构很多 时间的数据,电信运营商需要分析、挖掘所有客户信 传统行业。通过收集、整理商业运营中方方面面的数 息以及使用记录,互联网行业则更加突出,它需要分 据,并对其进行分析挖掘,进而从中获得有价值的信 析上亿网民上网的行为以及互联网上的海量内容,从 息,最终衍化出新的商业模式。在零售业中,数据分析 而为用户提供更加智能的服务。面对着呈几何级数不 的技术与手段更得到广泛的应用,卓越亚马逊、淘宝 断增长的数据,数据分析师已经无法使用传统的建模 等通过对海量数据的掌握和分析,为用户提供更加专 分析方法去处理这些数据,然而,Hadoop的出现已经 业化和个性化的服务。与此同时,大数据在社会管理 成为大数据处理的革命性举措。 等方面也同样具有不可替代的重大价值,比如交通管 Hadoop是实现了包括分布式文件系统HDFS和 理部门可以通过对运行中的车牌信息实时采集,进行 MapReduce框架在内的云计算软件平台的基础架构, 套牌车的自动拦截与发现。 并且在其上整合了包括数据库、云计算管理、数据仓 储等一系列平台,其己成为工业界和学术界进行云计 5结束语 企业组织希望充分利用其信息资产中包含的价 算应用和研究的标准平台。Hadoop是用Java语言编 值时,面临着大数据管理带来的挑战。利用现有的云 写的开源框架,目前能够让数千台普通、廉价的服务 计算技术可以一次分析整个大数据集而不受数据结 器组成一个稳定的、强大的集群,使其能够对PB级别 构的限制,从而及时且经济高效地完成复杂的数据分 的大数据进行存储、计算,已经具有了强大稳定的生 析任务。而Hadoop在可伸缩性、健壮性、计算性能和 态系统。 成本上具有无可替代的优势,事实上已成为当前大数 探查大数据和传统企业数据是许多企业组织的 据分析的首选解决方案。 共同需求,在企业级应用中,可以以复杂的商务智能 需求为驱动,通过基于Hadoop的平台管理大数据,利 参考文献: 03. Bill Franks.驾驭大数据[M].北京:人民邮电出版社,2013, 用其高可靠性,高扩展性,高效性的优势,将传统的商 [1]务智能应用程序转化为企业自身的业务分析平台,从 化。当前越来越多的公司正基于Hadoop平台部署开 发全面的信息管理战略,将大数据管理分析与现有数 据系统(包括关系型DBMS、企业内容管理系统、数据 ; 蛤 坊 石\ 写 ; ; 2. 而完成企业海量数据的统计分析、模型预测和流程优 [2]刘鹏.实战Hadoop[M].北京:电子工业出版社,2011,1[3]孟小峰,慈祥.大数据管理:概念、技术与挑战….计算机研 究与发展,2013,01. ; ; 龉 # ; ; ; (上接第79页) 步产生解的空间,假设问题的规模为n,解空间的高度 复杂度为0((n(h))!)。 参考文献: 5):98. 赵越高职高专教务管理系统初探[I].辽宁高职学报,2011( 为h,那么需要0ffh)!)计算时间才能找到最优解,所以 [1][2]刘小丹分层教学模式在高职院校中的可行性探讨[I].湖湘 论坛.2006(2). 考虑高职院校特点的学生班级的分配问题的创 新点在于给出了高职院校,在成绩均衡,学生类别均 衡,和男女比列均衡的分班问题的目标函数和约束条 件,同时在此基础上,提出了启发式算法。 [3]刘丽娜,郭立志,周亚萍.推进高校政务信息化建设的思考[J]. 石家庄经济学院报,2005(3):330—332. [4]谢文静 职教育中两类生源学习能力差异的分班教学研究 [J].中国高教研究,2009(6):88—89 2014年第7期l福建电脑 ‘27‘ 

因篇幅问题不能全部显示,请点此查看更多更全内容