您的当前位置:首页正文

一种多源异构数据处理系统[发明专利]

2024-08-21 来源:步旅网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 112162754 A(43)申请公布日 2021.01.01

(21)申请号 202011121166.0(22)申请日 2020.10.19

(71)申请人 科技谷(厦门)信息技术有限公司

地址 361000 福建省厦门市湖里区安岭二

路88号A栋404室(72)发明人 吴炎泉 

(74)专利代理机构 厦门致群财富专利代理事务

所(普通合伙) 35224

代理人 刘兆庆 邓贵琴(51)Int.Cl.

G06F 8/41(2018.01)

权利要求书1页 说明书2页 附图1页

(54)发明名称

一种多源异构数据处理系统

(57)摘要

本发明公开了一种多源异构数据处理系统,包括数据接口模块、数据管道模块、大数据分析平台、数据处理模块及编译模块,所述数据接口模块由多种数据源或数据仓库的I/O接口组成,所述数据管道模块用于构建将数据从数据源或数据仓库传输到大数据分析平台的管道,所述大数据分析平台包括Direct Pipeline、Apache Spark、Apache Flink和Google Cloud Dataflow,所述数据处理模块用于生成数据加工处理程序,所述编译模块集成于大数据分析平台,用于对数据加工处理程序进行编译,转换为大数据分析平台可执行的程序代码。CN 112162754 ACN 112162754 A

权 利 要 求 书

1/1页

1.一种多源异构数据处理系统,其特征在于,包括数据接口模块、数据管道模块、大数据分析平台、数据处理模块及编译模块,所述数据接口模块由多种数据源或数据仓库的I/O接口组成,所述数据管道模块用于构建将数据从数据源或数据仓库传输到大数据分析平台的管道,所述大数据分析平台包括Direct Pipeline、Apache Spark、Apache Flink和Google Cloud Dataflow,所述数据处理模块用于生成数据加工处理程序,所述编译模块集成于大数据分析平台,用于对数据加工处理程序进行编译,转换为大数据分析平台可执行的程序代码。

2.如权利要求1所述的一种多源异构数据处理系统,其特征在于,所述数据源或数据仓库支持批处理和流处理。

3.如权利要求2所述的一种多源异构数据处理系统,其特征在于:所述数据管道模块分别连接数据源或数据仓库的I/O接口以及大数据分析平台。

2

CN 112162754 A

说 明 书

一种多源异构数据处理系统

1/2页

技术领域

[0001]本发明涉及数据处理技术领域,特别涉及一种多源异构数据处理系统。

背景技术

[0002]对于用户来讲,数据库中已经存储了大量的数据,包括结构化的和非结构化的,但是分布在不同的系统,各个业务系统从这些数据库中取数据的需求和情况越来越多,已经形成了难以维护管理的“蜘蛛网”,需要建立统一的数据管理和访问平台,便于统一维护和管理,提供一站式的数据访问服务。发明内容

[0003]为解决上述问题,本发明提供了一种多源异构数据处理系统。[0004]本发明采用以下技术方案:[0005]一种多源异构数据处理系统,包括数据接口模块、数据管道模块、大数据分析平台、数据处理模块及编译模块,所述数据接口模块由多种数据源或数据仓库的I/O接口组成,所述数据管道模块用于构建将数据从数据源或数据仓库传输到大数据分析平台的管道,所述大数据分析平台包括Direct Pipeline、Apache Spark、Apache Flink和Google Cloud Dataflow,所述数据处理模块用于生成数据加工处理程序,所述编译模块集成于大数据分析平台,用于对数据加工处理程序进行编译,转换为大数据分析平台可执行的程序代码。

[0006]优选地,所述数据源或数据仓库支持批处理和流处理。[0007]优选地,所述数据管道模块分别连接数据源或数据仓库的I/O接口以及大数据分析平台。

[0008]采用上述技术方案后,本发明与背景技术相比,具有如下优点:[0009]本发明通过构建数据处理管道和数据处理业务逻辑,将数据流的传递和处理进行分离,便于实现统一的维护和管理。通过数据处理模块及编译模块进行数据处理业务逻辑的实现,能够提高整体效率,降低人力和时间成本。附图说明

[0010]图1为本发明的系统框架示意图。

具体实施方式

[0011]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。[0012]实施例

[0013]本发明公开了一种多源异构数据处理系统,包括数据接口模块、数据管道模块、大

3

CN 112162754 A

说 明 书

2/2页

数据分析平台、数据处理模块及编译模块,其中:

[0014]数据接口模块由多种数据源或数据仓库的I/O接口组成,数据源或数据仓库支持批处理和流处理。

[0015]数据管道模块用于构建将数据从数据源或数据仓库传输到大数据分析平台的管道。数据管道模块分别连接数据源或数据仓库的I/O接口以及大数据分析平台。[0016]大数据分析平台包括Direct Pipeline、Apache Spark、Apache Flink和Google Cloud Dataflow。

[0017]数据处理模块用于生成数据加工处理程序。编译模块集成于大数据分析平台,用于对数据加工处理程序进行编译,转换为大数据分析平台可执行的程序代码。在本实施例中,编译模块包括规则解析器和引擎解析器,用户通过数据处理模块根据预先设定的JSON规则生成模型参数文件,并提交给大数据分析平台,规则解析器用于对模型参数文件进行解析,获得参数信息并发送给引擎解析器,参数信息包括算法逻辑、算法参数、输入/输出参数以及引擎参数,引擎解析器基于参数信息选择对应的大数据分析平台的分析引擎,并将参数信息转换成分析引擎能够执行的程序代码后提交给分析引擎,最后分析引擎执行模型的计算工作。

[0018]以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

4

CN 112162754 A

说 明 书 附 图

1/1页

图1

5

因篇幅问题不能全部显示,请点此查看更多更全内容