您的当前位置:首页正文

基于Spark技术的ETL系统及其方法[发明专利]

2021-09-28 来源:步旅网
专利内容由知识产权出版社提供

专利名称:基于Spark技术的ETL系统及其方法专利类型:发明专利

发明人:陈涛,黄卓凡,张志聪,李笋,林志广申请号:CN201710088150.6申请日:20170220公开号:CN106897411A公开日:20170627

摘要:本发明公开一种基于Spark技术的ETL系统,其包括数据抽取模块、数据处理模块、数据整合模块、数据输出模块、元数据管理模块和数据存储模块;数据存储模块包括中转数据存储库、整合数据存储库和元数据控制文件;数据抽取模块用于抽取源数据,在分布节点上动态生成多个SparkRDD,并对其进行并行处理;数据处理模块用于读取数据抽取模块生成的Spark RDD,经过元数据匹配检查和数据转换后保存在中转数据存储库中;数据整合模块用于对当天的中转数据和上一天的整合数据进行数据整合后保存在整合数据存储库中;数据输出模块用于对当天整合后数据进行格式转换并输出。本发明基于Spark技术,可以线性平滑扩展,运行速度快,无需人工干预,易于管理和维护。

申请人:广东奡风科技股份有限公司

地址:510000 广东省广州市天河区高普路136号三楼自编03区A房

国籍:CN

代理机构:东莞市神州众达专利商标事务所(普通合伙)

代理人:皮发泉

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容