Tapdata Community(社区版),即 Tapdata Live Data Platform (Community Edition) ,是 Tapdata 面向社区开发者和用户提供的开源版本,目前处于 beta 状态。Tapdata Community 拥有企业版的绝大部分核心功能, 支持用代码而非 SQL 来处理数据。核心覆盖的场景包括:实时数据同步、开发和 Fluent ETL,具备全量和增量复制,异构数据库间的同步与转换,表级同步以及任务监控等能力。预计下个版本将新增实时数据校验、增量数据校验、自定义函数与聚合算子场景支持,同时将数据源补充到 50 个以上。
本教程章节将具体介绍,如何基于 Tapdata Community,构建并运行一个 MongoDB => MySQL 的带 UDF 的同步任务。(点击这里查看更多技术教程与资源)
*任务说明:从 MongoDB 到 MySQL 的带 UDF(User Defined Function)的数据同步,仍然是数据同步,但做了一些字段变换。
定义 UDF(User Defined Function):加一些字段,删除一个已存在的数据
新建表同步任务,增加 UDF 节点并运行
p = Pipeline('mongo=>mysql_with_udf')p.readFrom(mongodb.car).processor(pp).writeTo(mysql.car_with_udf)p.start()
*补充说明:与上一个任务的不同之处在于,这里在读写之间增加了一个处理器(processor),对 record 做了一些变换的同时,按照 UDF 定义增减了字段,变换了类型。
监听实时状态:monitor job mongo=>mysql
查看运行日志:logs job mongo=>mysql
查看建表情况
*任务完成情况:亮点在于,不仅完成了数据同步,还完成了表结构的自动创建。在同步过程中,能够自动建出处理完之后的表结构,无需像其他同步工具一样手动建表,使用更方便。
Tapdata Live Data Platform 是一个自带 ETL 的实时数据平台,通过把企业核心数据实时集中到中央化数据平台的方式并通过 API 或者反向同步方式,为下游的交互式应用,微服务或交互式分析提供新鲜实时的数据。申请试用