Tapdata 技术博客
Tapdata 技术博客

Tapdata Connector 实用指南:云原生数仓场景之数据实时同步到 Databend

2023-03-17 11:08 Tapdata Cloud

【前言】作为中国的 “Fivetran/Airbyte”, Tapdata 是一个以低延迟数据移动为核心优势构建的现代数据平台,内置 60+ 数据连接器,拥有稳定的实时采集和传输能力、秒级响应的数据实时计算能力、稳定易用的数据实时服务能力,以及低代码可视化操作等。典型用例包括数据库到数据库的复制、将数据引入数据仓库或数据湖,以及通用 ETL 处理等。


随着数据对业务的重要性成为广泛共识,我们看到越来越多的企业开始投身数仓建设。而数据的产生和存储量也呈现爆炸式增长的趋势,企业的数据分析需求也在不断增加,对数据处理和分析效率的要求也越来越高,原有的数据处理方式无法满足实时、快速、准确的数据处理和分析需求,时代呼唤更高效的数据仓库管理和数据处理技术。


数据规模仍适逢云计算技术发展,计算平台的能力得到了大幅度提升,提供了更高效、更安全、更灵活、更可靠的计算和存储资源。在此基础上,云原生数仓作为一种新型的数据仓库解决方案,应运而生,并逐渐成为一个重要的发展趋势。作为一种基于云原生技术栈构建的数据仓库解决方案,其在设计和部署时充分利用云服务的特性,如弹性、自动化、可扩展性、高可用性等,并在实际业务中显露出如下优势

  • 更高效的数据处理和分析:云原生数据仓库可以将大规模的数据集和数据处理任务分解成小的可伸缩的计算单元,以提供更高效的数据处理和分析能力;

  • 更灵活的架构设计:云原生数据仓库的架构设计允许用户快速适应不同的数据模型、数据来源和分析需求,同时也支持多种数据处理引擎的无缝集成;

  • 更低的成本:云原生数据仓库可以在弹性云基础设施上进行部署和运行,以降低总拥有成本。此外,由于其自动化的特性,可以减少对专业人员的依赖,进一步降低管理成本;

  • 更高的可靠性和安全性云原生数据仓库利用云服务商提供的安全和可靠的基础设施,以保障数据的安全性和可靠性。此外,基于云原生技术的自动化特性还可以减少运维人员的失误,提高数据仓库的安全性。

同样密切关注数据价值与云原生力量的 Tapdata,作为自带 ETL 的实时数据平台,也透过社区看到了大量相关的数据迁移需求,在最新一批数仓目标新增中,就可以看到新一代云原生数仓 Databend 的身影。


一、Databend 的云原生数仓优势


Databend 是一个使用 Rust 研发、开源、完全面向云架构的新式数仓,提供极速的弹性扩展能力,致力于打造按需、按量的 Data Cloud 产品体验,赋能企业降本增效。目前适用于海量日志存储及分析、订单及商品销售情况分析、数据审计,以及部分 ES 场景。其特点包括:

  • 开源 Cloud Data Warehouse 明星项目

  • Vectorized Execution 和 Pull&Push-Based Processor Model

  • 真正的存储、计算分离架构,高性能、低成本,按需按量使用

  • 完整的数据库支持,兼容 MySQL、Clickhouse 协议

  • 支持事务,支持 Time Travel、Database Clone、Data Share 等功能

  • 支持基于同一份数据的多租户读写、共享操作

使用 Databend 的优势包括:

  • 基于 Rust + 对象存储 及 k8s 架构,真正实现了存算分离

  • 基于对象存储成本及 Databend 的压缩技术,使存储有 10 倍左右的优化,同时也可以让存储实现按需付费

  • 计算节点无状态,可以让计算实现按需扩缩容

开源地址:https://github.com/datafuselabs/databend


二、RDS MySQL → Databend 的数据入仓任务


版本指路:

>>> 点击登录 Tapdata Cloud

>>> 申请试用 Tapdata 本地部署版


架构部署


Tapdata 架构部署


* Tapdata Agent 是数据同步、数据异构、数据开发场景中的关键程序。以上场景对数据的流转有着极高的实时性要求,因此,通过下载 Tapdata Agent 并将其部署在用户可控的环境中,基于低延迟的用户可控网络,Tapdata Agent 能够发挥最佳性能以确保数据流转的实时性。


操作流程详解


① 登录 Tapdata Cloud


Tapdata 可视化工作台


* 默认已完成 Tapdata Cloud 账号注册及 Agent 部署。且用户已经创建阿里云 RDS MySQL 并在 RDS 中存储了一定量的数据,准备把数据同步到 Databend。


② 创建 RDS MySQL   连接


在 Tapdata Cloud 中创建源的连接:


创建数据源 MySQL 的连接


填写相应的连接参数,连接测试通过后保存:


参考连接配置帮助,完成 RDS 连接创建


③ 创建 Databend 连接


在 Beta 数据源中选择 Databend 连接并填写相关连接参数,测试通过后保存:


参考连接配置帮助,完成 Databend 连接创建



④ 创建数据复制任务


开启数据同步任务


将 RDS MySQL 数据源和 Databend 数据源拖到画布中连接起来,表示准备从 RDS MySQL 同步数据到 Databend。同步模式选择为【全量同步】(增量同步的模式正在开发中),启动任务。


拖过托拉拽的方式,创建数据源和目标的连接


开始从 RDS MySQL 同步数据到 Databend,下面展示了同步过程中的信息和数据:


数据同步任务可监控


⑤ 查看结果


首先看一下 RDS MySQL 中的表:


查看 RDS MySQL 中的表


同时我们也可以在 Databend 中查询出已经同步过来的表和数据:


在 Databend 中查询已同步的表和数据


三、Why Tapdata?


借助 Tapdata 出色的实时数据能力和广泛的数据源支持,可以在几分钟内完成从源库到 Databend 包括全量、增量等在内的多重数据同步任务。


在 Any Source → Databend 的数据同步任务中,Tapdata 展现出如下优势:

  • 内置 60+ 数据连接器,稳定的实时采集和传输能力

以实时的方式从各个数据来源,包括数据库、API、队列、物联网等数据提供者采集或同步最新的数据变化。支持多源异构数据双向同步,自动映射关系型到非关系型。一键实现实时捕获,毫秒内更新。已内置 60+连接器且不断拓展中,覆盖大部分主流的数据库和类型,并支持您自定义数据源。

  • 具有强可扩展性的 PDK 架构

4 小时快速对接 SaaS API 系统;16 小时快速对接数据库系统。

  • 对源库几乎无影响

基于自研的 CDC 日志解析技术,0入侵实时采集数据,对源库几乎无影响。

  • 全链路实时

基于 Pipeline 流式数据处理,以应对基于单条数据记录的即时处理需求,如数据库 CDC、消息、IoT 事件等。不同于传统 ETL,每一条新产生并进入到平台的数据,会在秒级范围被响应,计算,处理并写入到目标表中。同时提供了基于时间窗的统计分析能力,适用于实时分析场景。

  • 数据一致性保障

通过多种自研技术,保障目标端数据与源数据的高一致性,并支持通过多种方式完成一致性校验,保障生产要求。

  • 可视化任务运行监控和告警

包含 20+ 可观测性指标,包括全量同步进度、增量同步延迟等,能够实时监控在运行任务的最新运行状态、日志信息等,支持任务告警。


【相关阅读】


推荐阅读