第38卷
第1期
《新疆师范大学学报》(自然科学版)JournalofXinjiangNormalUniversity
(NaturalSciencesEdition)
Vol.38,No.1Mar.2019
2019年3月
大数据工程教育之统计学与计算机科学融合研究
张学新
(湖北工程学院数学与统计学院,湖北孝感432000)
摘要:近年来我国数据科学与大数据技术专业兴起很快,但是缺乏人才培养目标及课程设置的研究。文章首先提出大数据的特征
决定了数据科学与大数据技术专业是跨学科的,主体是统计学和计算机科学的元素。界定了大数据工程教育的三个培养层次:数据分析员、大数据工程师、大数据科学家,研究了它们的角色与技能要求。其次对培养大数据科学家,详细讨论了计算机科学与统计学融合的课程设置及内容,最后提出了突出前沿的数据建模和多种先进的商业软件分析技术,提供一个独特的数据科学、商业和信息系统混合的学习情境的教学原则。提出大数据工程教育中把统计学与计算机科学融合,要专注于四项关键技能,要重点培养具有深度定量技能的统计学教师,要建设高度协作的、跨职能的教学团队。
关键词:大数据工程;人才培养层次;跨学科课程体系;高级商业软件工具;课程教学原则中图分类号:G642.0
文献标识码:A
文章编号:1008-9659(2019)01-0057-08
大数据时代的到来呼唤大数据技术教育。目前美国、加拿大、欧洲等西方发达国家把数据科学与大数
据技术人才的培养放在硕士,甚至博士研究生阶段,我国则放在本科阶段,三年来大数据本科专业发展势头迅猛。2014年05月,中国科学院大学开设首个大数据技术与应用专业方向,主要为科研发展及产业实践培养信息技术与行业需求结合的复合型大数据人才。2016年2月16日,教育部颁布的普通高等学校本科专业里新增数据科学与大数据技术专业,北京大学、对外经济贸易大学及中南大学获批。2017年3月,32所高校再次获批数据科学与大数据技术专业招生。2018年3月,又有250所高校获批新增数据科学与大数据技术
图12018年250所新增数据科学与大数据技术专业高校类别分布
[收稿日期][基金项目][作者简介]
2018-06-18
湖北工程学院2017年教学研究项目(201729)资助。
张学新(1966-),男,湖北宜城人,博士研究生,副教授,主要从事概率论与数理统计方法应用研究。
58新疆师范大学学报(自然科学版)2019年
专业。按大学各学科门类,可把这些高校大致分为综合类、文理类、理工类、文科类、财经类、工学类、农学类、医学类、科技类、管理类、体育类、艺术类等12类,其中多达42所是民办或独立学院。从学位授予门类看,工学182所,占比72.8%,理学68所,占比27.2%。另外有5所高校新增大数据管理与应用专业,授予管理学学位。按办学层次看,非211、985高校占比87%。
开办数据科学与大数据技术专业涉及统计学、数学、计算机科学等多个领域的师资与数据资源的融合,其中工学的计算机应该是不可缺少的。各类数据挖掘大赛的参赛组队或许能证实一些。据官方统计,第五届“泰迪杯”数据挖掘挑战赛共有来自全国30多个省市、自治区的325所高校2541支队伍参赛,专业覆盖广,主要集中在计算机、数学、统计学相关专业,如图2所示。
图2第五届“泰迪杯”数据挖掘挑战赛组队专业分布
从参赛选手就读专业来分析,信息与计算科学、数学与应用数学、统计学等应用数学专业,计算机科学与技术、软件工程等计算机专业,这两大类与数据挖掘对口专业的学生依然是参赛的主体成员。同时,也不乏就读于金融、管理、医疗、通讯、物理、化学等领域专业的学生参赛,还有与大数据挖掘技术相关的学科专业的学生,比如数据挖掘与商业信息处理、智能科学与技术等。但从两批新增的多数本科高校来看,工学类的学校占比只有18.8%,这反映了很多高校数据科学与大数据技术专业人才培育能力严重不足,与计算机科学相关的配套设施不足,多学科师资力量薄弱,实践教学课程单一。由此导致实践教学课程比重偏低,存在着对专业课程体系认识不足,课程设置随意性大,人才培养模式趋同,办学特色不鲜明等问题。
国内现有文献研究基本上是对单一学科的课程设置调整的研究。张学新[1]对应用统计学专业课程的调整做了探索,提出增开Hadoop及人工智能基础课程;郭海兵提出提升信息技术教育,增强实践教育的观点[2],提出对传统的统计学科在认知水平、技术手段、内容框架等方面均需要进行革新;祝丹,陈立双[3]归纳了部分高校统计学人才培养模式及其存在的突出问题;周四军、熊伟强[4]提过学习知识与能力培养,开设计算机基础课程。很少从数学、统计学与计算机科学密切融合的角度去交叉研究[5-14]。大数据技术需要不同相关学科之间的渗透,它离不开计算机技术支撑,而进行数据分析必须掌握统计学方法。大数据技术教育是一个新领域,需要把多个学院的人才培养方案与课程体系融合起来。但是,大数据领域是相当庞大的,大数据技术有很多,所以需要进一步研究如何精准定位大数据工程教育人才培养目标,在课程设置上如何融合统计学与计算机科学,优化数据相关资源配置及师资队伍建设等问题。
国务院关于印发促进大数据发展行动纲要的通知(国发〔2015〕50号)里提到“加强专业人才培养”的“政
张学新:大数据工程教育之统计学与计算机科学融合研究
59
策机制”,具体到每个高校如何进行大数据专业建设,选择适宜的人才培养模式,国内的研究则刚刚起步。在2018大数据专业建设与人才培养研讨会上,杜小勇介绍中国人民大学制定培养方案的基本原则是基于OBE的思想,以学生为中心,进行持续改进;专业知识结构则包括计算平台、问题求解、数据科学、特色板块。曹淑艳介绍对外经济贸易大学的大数据人才培养是关注大数据人才的出口、学生的就业领域及校企合作,而课程体系的建立则考虑产业的发展。
1大数据行业中的不同角色及技能要求
关于什么是大数据,有许多定义。理解的角度可以是数据集,是工艺与技术,是信息资产。例如,Paul
Zikopoulos等[15]认为大数据是具有大体积、多来源、多种类三个特征的快速的输入与输出数据。IBM公司提出大数据的4V特征Volume、Variety、Velocity、Veracity。必须看到大数据还有一个特征,结构的复杂性(complexity)。大数据结构的复杂性决定了大数据在一定时间范围内通常无法用常规软件工具进行捕捉、管理和处理,大数据挖掘技术离不开一些以C++语言为基础的语言编程。
大数据工程是利用计算系统、计算机软件作大数据分析以提取有用信息的多学科实践,涵盖大数据的设计、部署、获取和存储。在大数据行业中有这样几种不同角色:数据分析员、大数据工程师、大数据科学家。数据分析员的职责是以特设报告和图表去帮助公司人员了解具体的查询和处理数据,提供报告,总结和可视化数据。例如,行业数据分析员是依据行业业务需求来建模,数据可视化分析员则对分析结果作直观化展示。大数据工程师的职责是设计、建设、整合各种资源的数据以创建大数据仓库,编写复杂的查询,确保数据仓库是容易访问,对数据的提取、转换和加载顺利。他们就是数据软件工程师,工作中通常不需要机器学习或统计学知识。例如,大数据系统管理工程师职责是大数据系统管理维护,包括云计算、软硬件系统平台的安装、调配、运行及维护。大数据系统构架师职责是大数据系统解决方案(包括应用系统的设计部署)和构架设计。大数据科学家的职责是应用统计学、机器学习和分析方法来解决关键业务问题。他们应具有较强的编程技能,能建立数学或统计模型,把原始大数据转化为知识,对研究结果能解释和发表。一个大数据科学家可以利用大数据工程师准备的“大数据”基础设施去分析大数据,不需要具备大数据工程师的技能。
从知识层面要求看,数据分析员首先是某个具体应用领域,然后是数学与统计学,最后是人工智能、计算机信息技术;而大数据工程师的知识程度顺序是计算机信息技术、人工智能、某个具体应用领域、数学与统计学;大数据科学家的知识程度顺序是数学与统计学、人工智能、计算机信息技术、某个具体应用领域。因此,在大数据工程教育中,必须准确理解这三种角色,依据学校自身的实力,精准定位数据科学与大数据技术专业的人才培养目标。此外,还需理解这三种不同角色所需技能与使用的工具。
一个数据分析员一般不做大数据分析,只需具备基础的数理统计、数据库原理以及相关知识,能做描述性统计、数据修改、简单的数据可视化,精通微软Excel、SPSS、QUANVERT、微软Access,基本掌握SPSSModeler、SAS、SQL、Tableau、SSAS等软件。大数据工程师为数据科学家分析大数据而准备“大数据”基础设施,优化公司大数据仓库的性能,工作重心是大数据生态系统的设计和架构,其技能和工具就是:Hadoop,MapReduce、Hive、Pig、MySQL、MongoDB、Cassandra、数据流、NoSQL、SQL编程。一个大数据科学家把大数据变成有价值和可操作的见解,他要具备非常广泛的机器学习、数据挖掘、统计和大数据基础设施方面的不同技术知识,了解计算机科学基础和多种语言编程是必不可少的。大数据科学家的技能和工具是:Python、R,Scala、ApacheSpark、Hadoop、数据挖掘工和算法、机器学习、统计学。
总体上,大数据工程涉及系统和设置的设计及部署,使相关的数据提供给各种面向消费者和内部的应用,它是计算实施的前提。而大数据分析涉及数据的高级计算,围绕大数据的概念而展开,分析趋势,分类预测。在角色上,大数据工程师与大数据科学家有时是重叠的。例如,大数据科学家可能使用Hadoop生态系统来为大数据问题提供答案,而大数据工程师可能正在编写一个迭代的机器学习算法以在Spark集群上
60运行。
新疆师范大学学报(自然科学版)2019年
2大数据工程教育人才培养定位
大数据工程教育,要以数据为中心制定专业人才培养方案,人才培养目标的定位不能笼统模糊。各级
各类学校,应该依据自身的计算机基础设施条件及教师队伍的学科结构、使用软件的能力,依据学校的人才培养定位、招收学生的层次,在培养数据分析员、大数据工程师、大数据科学家上去选择定位,避免绝大多数学校同质化。如果授予理学学士学位,仅统计学院师资力量比较雄厚,那么数据科学与大数据技术专业的人才培养定位是大数据分析师。如果授予工学学士学位,仅计算机学院师资力量比较雄厚,那么数据科学与大数据技术专业的人才培养定位是大数据工程师。如果授予工学学士学位,统计与计算机学院师资力量都比较雄厚,那么数据科学与大数据技术专业的人才培养定位是大数据科学家。
这里重点讨论大数据科学家的培养,包括以下几个方面的内容:
培养目标:本专业培养大数据科学与工程领域的复合型中高级技术人才。毕业生熟练掌握大数据采集、处理、分析与应用的技术与核心技能,能够承担企事业、社会组织等部门的信息管理与信息咨询服务,具备大数据处理、挖掘、可视化、大数据系统集成、管理维护等能力。
培养要求:本专业学生主要学习自然科学和人文社科基础知识,学习计算科学、大数据科学相关的基础理论和基本知识。具有良好的创新和创业意识、竞争意识和团队精神,具有良好的外语基础。
毕业生应获得的专业知识和能力:
(1)掌握从事本专业工作所需的数学、统计学及其他相关的自然科学、系统科学知识;
(2)掌握数据科学与大数据技术所需要的计算机、网络、数据编码、数据处理等相关学科的基本理论和基本知识;
(3)掌握数据采集、清洗、存储、分析、挖掘和可视化的方法,具备从事相关工作的能力;(4)具备整合不同数据源,不同结构类型数据的能力和探索数据背后价值的能力;
(5)经过系统化的训练,具有参与实际软件开发项目的经历,具备作为大数据工程师从事工程实践所需的专业能力;
(6)掌握市场需求的数据管理、系统开发、数据分析与数据挖掘等方面的核心技能;(7)职业素养方面,要求学生养成良好的团队协作精神,学习、管理及沟通能力。
3数据科学与大数据技术专业的课程设置
大数据工程教育在课程内容与知识体系上要兼顾数学与概率统计、计算机系统基础、程序设计、数据信
息管理、分布与并行计算、智能学习、行业领域的专门知识等多方面。要重视理论类课程、技术类课程、应用类课程的合理比重。
对于数据科学与大数据技术专业的人才培养定位是大数据科学家的高校,需要一个系统的、规范的教学体系,其课程设置包括理论课与实践课程、实践资源保障等。
主干课程:线性代数、运筹学、数理统计、面向对象程序设计(JAVA)、数据库原理、应用多元统计分析、大数据统计分析软件、机器学习与模式识别。
特色课程:Python语言及应用、大规模分布式存储系统、数据可视化、互联网大数据处理技术与应用、数学实验与数学模型。
主要实践教学:C语言程序设计实训、面向对象程序设计(JAVA)实训、大规模分布式系统构架与设计基础课程设计、数据库原理课程设计、Linux操作系统基础及应用课程设计、数据可视化课程设计、大数据综合应用实训、专业实习、毕业设计(论文)等。毕业论文撰写8周,专业实习8周。
具体的专业课程设置见表1。
张学新:大数据工程教育之统计学与计算机科学融合研究
61
表1
课程性质必修课必修课必修课必修课必修课必修课必修课必修课必修课必修课必修课必修课必修课必修课选修课必修课选修课选修课必修课选修课选修课选修课选修课
数据科学与大数据技术专业主要课程开设情况一览表
课程名称
学分13324434243344332243224
周学时13433544344464442364324
开课学期
12223333344444454556666
数据科学与大数据技术导论
线性代数Python语言及应用C语言程序设计数据库原理面向对象程序设计(java)运筹学与最优化方法
概率论
Linux操作系统基础及应用
Scala程序设计应用多元统计分析应用时间序列分析数学实验与数学模型
数理统计
大规模分布式系统构架与设计基础
大数据统计分析软件Hadoop大数据技术大规模分布式存储系统机器学习与模式识别
SAS编程技术数据可视化云计算
互联网大数据处理技术与应用
注:适宜培养大数据科学家。
对主要专业课程的开设,要突出线性代数、运筹学与最优化方法、概率论与数理统计的数理基础地位,还有把大数据挖掘分析涉及的计算机科学与统计学科的课程结合起来,最低要达到大数据处理的基本要求:能用Python或R替代大部分的大数据技术语言java或Scala的编码,掌握Linux或Bash脚本。
主要专业课程内容分析如下:
数据科学与大数据技术导论课程主要是介绍大数据与大数据时代、大数据的可视化、大数据的商业规则、大数据时代的思维变革、大数据促进医疗与健康、大数据激发创造力、大数据预测分析、大数据促进学习、大数据在云端、支撑大数据的技术、数据科学与数据科学家和大数据的未来等内容。
Python语言及应用课程主要学习Python语言、算法、掌握应用Python爬虫基础库;掌握使用Python爬虫利器、Scrapy项目构建;熟练掌握Scrapy流程化开发;熟练使用Scrapy拓展;掌握使用Scrapy与Mysql交互,Python的面向对象编程案例。
62新疆师范大学学报(自然科学版)2019年
数据库原理课程包括大数据必备的数据结构与算法。
面向对象程序设计(java)课程包括java语法基础、类和对象、java中的字符串、java实用类与集合、泛型、继承和多态、接口与抽象类异常处理等等。
大规模分布式系统构架与设计基础课程包括大规模分布式并行计算的原理、分布式协调的实现、分布式缓存的实现、信息队列的实现、分布式文件系统的实现、分布式作业调度平台的实现。
大数据统计分析软件课程内容有:应用统计分析软件R、数据挖掘专业工具IBMspssmodeler的模块、功能、使用方法以及数据挖掘部分主流算法实现方式。通过实际案例的操作,了解如何选择算法,如何使用算法得到需求的潜在信息。
Hadoop大数据技术课程主要涉及hadoop生态圈的大数据处理框架的使用,使用hadoop生态圈进行一些模块化、项目功能化的开发,包括Hadoop分布式集群搭建、Hadoop的单机、伪分布、完全分布式模式的安装配置,基于Hadoop技术实现的基本的离线数据分析平台的实现。
大规模分布式存储系统课程包括单机存储系统知识、分布式系统的数据分布、复制、一致性、容错、可扩展性。
机器学习与模式识别课程主要讲述梯度寻优、数据特征选择、回归算法、决策树、随机森林和提升算法、SVM、聚类算法、EM算法、贝叶斯算法、Adaboost算法、马尔可夫、隐马尔科夫模型、LDA主题模型、人工智能中各种搜索方法求解的原理和方法、认知计算与深度学习、概率图模型与词性标注,算法优化。
SAS编程技术课程涉SAS编程基础、SAS数据获取与数据集操作、SAS变量操作、SAS观测值操作、SAS数据集管理、SAS数据汇总与展现、SASData步循环与控制、SAS输出控制、IML编程技术、SASSQL语言、SAS宏语言。Linux操作系统基础及应用课程包括Linux的基本管理、系统维护及网络配置等相关知识。Scala程序设计主要是使用Scala构建面向对象、函数式、并发应用。
数据可视化主要是学习Tableau商业智能与可视化应用实战,内容有:Tableau的数据连接与编辑、图形编辑与展示功能,包括数据连接与管理、基础与高级图形分析、地图分析、高级数据操作、基础统计分析、如何与R集成进行高级分析、分析图表整合以及分析成果共享等。也可以选择Echarts入门及实战,要求能够利用Echarts图表结合后端数据进行前端可视化报表展示,为成为大数据开发工程师、大数据分析师打下良好的基础。
云计算课程包括网站建设的部署与发布、单动态网站搭建、云服务器管理维护、云数据库管理与数据迁移、云存储平台、技术与安全(使用安全、云上服务器安全、云上网络安全、云上数据安全、云上应用安全、云上安全管理)、超大流量网站的负载均衡。
互联网大数据处理技术与应用课程,主要是使用专门工具或编程进行网络数据的抓取与存储,包括静态或动态WEB页面内容获取技术、结构化或非结构化数据的存储、互联网分行业关键数据指标,数据分析方法和数据分析方法的应用,包括文本数据预处理、数据内容的语义分析技术、文本内容分类技术、聚类分析、大数据中的隐私保护、大数据可视化等内容。
大数据综合应用实训主要以项目的形式进行,包括医疗保险大数据分析与统计推断、AI大数据互联网电影智能推荐、电商大数据情感分析与AI推断、AI大数据基站定位智能推荐商圈分析、卓越的项目管理应用与实践、系统架构设计的案例分析、中小型企业商业智能平台的开发和实现(数据仓库、BI系统、真实项目)。
4数据科学与大数据技术专业课程的教学
立足于获取从企业的角度解决问题的技能,各专业课程的教学应使用多种先进的商业软件工具,在教
学过程中不但学会如何操作软件,而且突出前沿的数据建模和分析技术。重点放在对实际问题的严格建模和分析,从计算机、统计学和商业角度进行。例如,大数据统计分析软件课程教学时,在结合对SPSSmodeler软件应用的同时,更要强调建模思想,强调模型规划设计,讲清每个参数设置/选择的目的。又例如,在讲授业务分析时,要将业务框架与最新的数据分析技术相结合,将挖掘技术所涉及的思想、方法、参数与统计学基础联系起来。
努力提供一个独特的数据科学、商业和信息系统混合的学习情境。要建立广泛的企业联系,让学生接
张学新:大数据工程教育之统计学与计算机科学融合研究
63
触到来自企业、网络和社会资源的大量、实时和非结构化数据,甚至在企业工厂、在更广泛的管理信息系统框架内讲授数据分析。例如,企业网站日志分析,搭建企业级数据分析平台,基于LBS的热点店铺搜索,基于机器学习PAI实现精细化营销,基于机器学习的客户流失预警分析,使用DataV制作实时销售数据可视化大屏,使用MaxCompute进行数据质量核查,使用QuickBI制作图形化报表,使用时间序列分解模型预测商品销量等。
总之,在教学过程中,始终把建模技术的原理思想及选择方法作为本课程的重点与难点。
5结语
技术和社会变革催生了一个数字可用的数据大爆炸。充分探索现有数据,以改进决策,提高生产力和
加深我们对问题的科学理解,是当今的主要挑战之一。数据科学是一门新兴学科,旨在应对这一挑战。它是一个多学科领域,计算机科学、统计学和数学发挥着关键作用,辅之以人类技术互动、商业模式和业务管理专门知识和技能。数据科学与大数据技术专业的课程必然是跨学科的,统计学和计算机科学的元素是课程体系的主体,人工智能可以理解为数学统计与计算机的交集。课程内容强调在设计、建模和实施企业问题的解决方案中建立定性和定量的技能,要侧重于某个具体应用领域。各个学校要依据学生的实际知识结构,专注于提供个性化的基于行业案例研究和活动的教育教学,提供经验指导,使学生拥有沟通技巧和业务背景,能用数据“讲述故事”。把大数据工程教育之统计学与计算机科学融合,要专注于四项关键技能—获取和管理数据的专业知识、运用模型和算法的能力、对业务系统和流程的掌握以及面向创新的思维定势。要充分利用各种数据挖掘竞赛平台,指导学生参赛,锻炼学生在建模与算法上更加准确、快速、有用。通过接触来自不同学科的数据、方法和技术,使学生获得知识和技能以应对现实社会里当前和未来的数据挖掘挑战。当前,很多高校缺少双师型教师人才,没有在数据企业行业的工作经历。要拓宽校企合作,争取企业放宽对数据的限制,允许高校教师与企业员工自由地运行数据驱动的实验。要重点培养具有深度定量技能的统计学教师,要建设一支高绩效、跨职能的团队,包括多种角色,包括实验室的实验员、统计学教师和数据库设计师。办好数据科学与大数据技术专业面还要解决数据开放问题。无论是定位于培养大数据科学家还是大数据工程师,都要争取地方政府的支持,使师生能免费在多数政府部门的数据上运行实验,让学生有机会从事现实世界的数据集和项目工作,锻炼他们解决复杂问题的能力,为从事真实世界的大数据分析做准备。参考文献:
[1]张学新.大数据时代本科应用统计学专业课程改革探索[J].阴山学刊,2016,30(3):143-146.[2]郭海兵.大数据背景下统计学专业教学改革的思考[J].现代职业教育,2016,(31):184-185.[3]祝丹,陈立双.大数据驱动下统计学人才培养模式研究[J].统计与信息论坛,2016,31(12):87-92.[4]周四军,熊伟强.如何构建数据科学与大数据技术本科专业课程体系[J].才智,2017,(25):60.[5]朱建平,张悦涵.大数据时代对传统统计学变革的思考[J].统计研究,2016,33(2):3-9.[6]王婷婷.大数据时代下统计学科建设与教学改革的几点思考[J].大学教育,2017,(6):9-11,14.
[7]孙丽男,沈奇,赵丽艳.基于大数据技术的统计学专业应用型人才培养模式的构建[J].吉林化工学院学报,2017,34(6):36-39.[8]李坦.大数据与农林院校统计学专业建设研究-基于2015年安徽农业大学统计专业大数据问卷调查[J].巢湖学院学报,
2017,19(6):86-91.
[9]周庆欣.数学专业本科生随机数学课程群的教学改革研究-以哈尔滨商业大学为例[J].课程教育研究,2017,(8):135.[10]赵永霞,彭玉华.大数据时代民办高校计算机科学与技术专业人才培养模式研究[J].高等教育,2016,(6):54.[11]曹淑艳,张莉,黄浩.大数据本科专业申报及认识[J].计算机教育,2016,(6):30-33.
[12]陈洁,张文翔.大数据视角下计算机科学与技术专业建设探究[J].软件导刊,2016,15(10):185-187.[13]冯思畅.大数据时代的计算机科学与技术专业综合改革[J].信息系统工程,2017,(1):20.[14]詹玲.计算机专业大数据方向课程群建设研究[J].教育教学论坛,2017,(28):274-276.
[15]PaulZikopoulos,ChrisEaton,etal.UnderstandingBigData:AnalyticsforEnterpriseClassHadoopandStreamingData[M].New
York:McGraw-HillOsborneMedia,2011.
64新疆师范大学学报(自然科学版)2019年
AStudyontheIntegrationofStatisticsandComputerScienceinBigDataEngineeringEducation
ZHANGXue-xin
(SchoolofMathematicsandStatistics,HubeiEngineeringUniversity,Xiaogan,Hubei,432000,China)Abstract:Inrecentyears,DataScienceandBigDataTechnologyMajorarespringupfastinChina.However,therearealackofresearchesonprofessionaltraininggoalsandcurriculumsetting.ThepaperfirstlybringsforwardthatthecharacteristicsofbigdatastipulatedDataScienceandBigDataTechnologyMajorisinterdisciplinaryinwhichStatisticsandelementsfromComputerScienceformthebackboneofthemajor.andthispaperdefinesthreetraininglevelsofbigdataengineeringeducation,dataanalyst,bigdataengineer,bigdatascientist,pointingouttheirrolesandskillrequirements.Secondly,forcollegesanduniversitiestocultivatebigdatascientist,acurriculumsystemintegratingComputerscienceandstatisticsandselectionsofteachingcontentwerediscussedindetail.Final-ly,theteachingprincipleofusingthecuttingedgedatamodelingandanalysistechniqueswithmanyadvancedandcommercial-strengthsoftwaretoolsshouldbehighlighted,andofferingauniquelearningcontextblendedofdatasci-ence,businessandinformationsystemswaspresented.Also,threepointsofviewthattheintegratingofstatisticsandcomputerscienceinbigdataengineeringeducationmustfocusonfourcriticalskills,putinganemphasisoncultivat-ingstatisticsteacherswithdeepquantitativeskills,buildingahighlycollaborative,crossfunctionteachingteamwasproposedinthispaper.
Keywords:Bigdataengineering;Levelsoftalenttraining;Interdisciplinaryboundary-spanningcurriculum;Advancedandcommercial-strengthsoftwaretools;Principlesofcurriculumteaching
因篇幅问题不能全部显示,请点此查看更多更全内容