Tapdata 技术博客
Tapdata 技术博客

Tapdata 创始人唐建法受邀出席GOTC,分享实时打通数据孤岛最佳实践

2021-08-05 19:52

731日至81日,由开放原子开源基金会与 Linux 基金会联合开源中国发起,被誉为全球开发者开源技术盛会 GOTC 全球开源技术峰会在深圳顺利举办。


大会云集了华为、腾讯、百度、中兴、浪潮等国内主要开源厂商,全球首个基于数据即服务架构理念、面向 OLTP 业务或场景的企业实时数据服务平台「 Tapdata 」,也一同亮相大会现场,Tapdata 创始人唐建法(TJ) 以特邀嘉宾身份出席并发表主题演讲,与众多行业大咖一道,分享创新技术及实践经验。


d76741d8-db64-4e82-bb7d-778a217efd10.png


△ Tapdata 创始人唐建法 TJ


数据孤岛成企业数字化转型绊脚石


TJ 指出,早期系统设计,不考虑数据互通,传统的 ERPOACRM……每个系统都是独立的,不同架构之间具有天然的层级,数据库也多为单体式,在数据指数级增长的今天,陷入性能无法扩展的窘境,数据孤岛问题对企业而言将会越来越痛。如何从根本上解决数据孤岛问题?近年来行业有着各种各样的尝试,比如数仓、大数据平台、数据中台等几代数据工具和架构,但似乎一直没有找到最佳方案。


原因是,以 TeradataVertica Greenplum 为代表的数仓基于 MPP 架构,拓展性较差,跨节点关联计算瓶颈明显,而且不支持半结构化和非结构化数据;基于 Hadoop 架构的数据湖、大数据平台由于是开放式架构,横向扩展性强,能以原始格式存储数据而无需对数据进行结构化处理,一度占据大数据技术顶流地位,直到近期数据中台的概念横空出世,但数据中台的技术底层仍然以大数据平台的技术为基础,更多只是一种企业管理理念的创新。


TJ 看来,当前大热的主流数据中台解决方案仍存在不少不足和局限:几乎都以离线数据为主,只适合BI、报表等OLAP分析场景;对OLTP型业务高并发低延迟查询以及数据实时性支持不足;包含太多数据业务,架构重,产品体验弱,需要大量人力。


Tapdata 实时数据服务平台实时打通数据孤岛


TJ 一直在强调:回归数据本质。


为新业务提供统一、完整、实时的数据,并且支持十万级并发和毫秒级响应,能够完美支撑 TP+AP 业务才是新时代打通数据孤岛方案的标配。这也正是 Tapdata 在做的事情——打造一个务实的实时数据服务平台。所谓务实,包括:


聚焦于数据,承担采集,融合,治理,建模,质量,安全等核心职责,将洞察画像,推荐,AI引擎,营销引擎,大屏可视化等非数据直接相关的职责由下游业务系统完成。

能够提供离线和真实时数据处理能力,即全链路实时:实时采集同步 + 实时处理 + 实时服务,在支撑 AP 型业务基础之上,更能支持 TP 型业务或场景。


84fdee5f-6abb-471c-a0bc-ec0d7fb37361.png


通过 Tapdata 实时数据服务平台实时打通数据孤岛,从而支撑全渠道业务(OLTP +OLAP):


实时采集融合——建立统一数据平台

实时处理——构建数据资产(模型)

实时服务——支持上层应用业务


像使用自来水一样简单,让数据随时可用


无论企业现在有多少个业务系统,用了多少个不同的数据库,Tapdata 实时数据服务平台能以一种无痛接入的方式,使用基于日志同步的数据虚拟化技术,为企业构建一个虚拟、统一的数据访问层。如此一来,企业需要数据的时候只需要到一个中央化的地方,通过Tapdata 提供的标准化接口(tap),就可以简单方便地获取到想要的数据,就像打开自来水龙头取水一样简单。


要实现这一目标看似简单,实则困难重重。比如:实时数据同步的可靠性、反向更新问题,还要考虑各种异构库的同步问题等。


为了让用户体验最优,并降低客户建设成本、长期运维成本和学习曲线,Tapdata 率先采用数据即服务(Data as a Service,简称 DaaS)架构理念,没有使用主流的类似 Flink 或者 Kafka 这样的大数据技术,而是自研数据虚拟化技术,相比传统的联邦查询方式,基于同步的虚拟化对技术要求更高,容错性更低,毕竟需要对各种底层实现完全不同的数据库进行事务级别的日志解析,忠实还原并在亚秒级延迟下重放到 DaaS 平台。这个架构没有捷径,Tapdata 经过大量的实战研发,并且在不断优化实现和算法的基础上,形成了技术壁垒,能够安全可靠的将源系统数据无需其他ETL工具,就可以实时镜像到 DaaS 平台,并提供准确的数据服务。


Tapdata 的异构数据源统一访问框架通过定义一个支持绝大部分数据库的标准,从统一的URL连接方式,到富结构的数据模型,到标准的DMLDDL,来为具有多源异构数据库的企业用户提供一个简单、一致的数据访问能力。只需要一种语法,就可以对企业所有数据进行浏览查看,甚至简单的更新管理。


f30a6706-1fb8-4793-8e3a-35cadb2bb470.png


从此,用户无需再做多种存储方案,解决元数据、搜索、缓存、队列等问题,只需使用 Tapdata 实时数据服务平台,就拥有了一个架构简单,部署轻量,低成本和上手快的 DaaS 平台,可为业务应用及大部分数仓、大数据平台和中台建设提供最完整、统一、准确的实时源数据。


秉承开源精神,为开发者服务


为了加快实时 DaaS 架构的普及,释放企业实时数据的巨大价值,Tapdata 将坚持开放+开源战略。


目前,Tapdata 通过云上开放的方式( http://cloud.tapdata.net ) ,已将异构数据库实时同步能力免费提供给开发者使用,虽然,Tapdata Cloud 还只是 Tapdata 的一小部分功能,但已具备独立完成多达十几种数据库的异构数据同步能力,为新业务扩展,缓存加速,全文检索,数据库备份容灾等很多新型业务场景提供生产级的支撑,后续会逐步将 Tapdata 的所有能力迁移上云。随着 Tapdata 完成数千万美元 Pre-A 轮融资,将进一步加大研发投入,并启动核心能力的开源路线图。


推荐阅读