Tapdata 技术博客
Tapdata 技术博客

DTCC 干货分享:Real Time DaaS - 面向TP+AP业务的数据平台架构

2021-10-21 12:08

2021年10月20日,Tapdata 创始人唐建法(TJ)受邀出席 DTCC 2021(中国数据库技术大会),并在企业数据中台设计与实践专场上,发表主旨演讲“Real Time DaaS :打造面向 TP+AP 业务的数据平台架构”,从 AP 业务场景 vs. TP 业务场景、常见数据平台优劣势、如何打造面向 TP+AP 业务的数据平台等角度,全面分享了 Tapdata 在全链路实时数据融合平台的独特技术优势和最佳实践案例,整场分享干货满满、广受好评。


Tapdata 创始人唐建法TJ


从20年前的传统数仓,到10年前大数据平台,5年前开始火热的数据中台以及最近出现的湖仓一体新数据平台,企业对这些 AP 业务场景的数据产品及架构有着太多的选择,但是实际上,企业在 TP 类型业务上的投入和 AP 相比是9:1,为什么没有面向 TP 业务的数据平台呢?


OLTP vs. OLAP


唐建法指出,之所以 TP 业务数据平台还不多见,是因为数据孤岛问题不严重的时候,TP 只需要一个RDBMS 就可以解决,同时由于 Technical Difficulty,缺乏合适的工具和技术架构,TP 业务数据平台难以推广。


TP vs. AP 不难发现,他们有着较大的差异和特点。从业务场景来看 OLTP 如常见的:在小程序上一套新的CRM、租房子(房屋租赁平台)等,与之对应的 OLAP 场景就是:用户行为洞察(用户对哪些产品关注比较多,哪些产品比较赚钱)、租房客户推荐( 根据客户行为打上标签,并推荐相应的房源) ,其中 OLTP 切中的是企业核心运营价值链


从技术维度来看,OLTP 要求毫秒级的数据响应速度,数百 ~ 数十万的并发查询量,而 OLAP 通常可接受数秒到分钟级的数据响应速度和数个到数十个的并发查询。在存储方案上,OLTP 常用Oracle,MySQL,SQLServer,PostgreSQL,DB2,MongoDB,Elastic,Redis 等,而 OLAP 常用Teradata,Greenplum,Hadoop等。


既然 TP 业务场景价值更高,且需求非常明确,那么如何打造一个面向 TP 业务的数据平台架构?类似与IaaS,PaaS或者SaaS,Tapdata 给出的方案是提供一个 DaaS (Data as a Service): 将企业各个业务系统的数据汇总到一个中央化平台,经过低代码方式治理以后,形成可复用的企业数据资产,通过无代码数据接口方式提供给业务使用方。


唐建法结合 Tapdata 在全链路实时数据平台方面的实践,重点解析了 Tapdata Real Time DaaS 架构的特点和创新点:一个“实时同步+实时处理+实时服务”的全链路实时数据处理及服务平台。


Tapdata DaaS 架构图


DaaS 架构之一:实时数据采集同步。Tapdata 的第一步就是将批量、滞后的 ETL 换成了 CDC 方式,基于数据库 Write Ahead Log 日志同步监听的方式来进行在不同系统之间的数据复制,它的优势在于:对源库性能影响小;资源消耗少;从事务在源端提交开始到更新写入同步的目标库,延迟可以小于1秒,能够满足对实时性要求较高的业务场景;


Tapdata DaaS 实时数据采集同步机制


DaaS 架构之二:基于Pipeline的流式数据处理建模。当我们把需要的数据从源库里面无侵入、准实时地抽取了出来之后,可能还需要:对来自多个库的数据进行合并;对表结构进行重构,组成新的模型;构建业务宽表等。基于 Tapdata 实时流数据处理技术,可以实现事件触发、毫秒级数据更新、不间断持续运行,从而满足 TP 业务和实时分析等场景需求。


Tapdata DaaS 流式数据处理建模


DaaS 架构之三:基于分布式数据库 MongoDB 或 TiDB 的中间库存储。相比 AP 数据平台常用的 Hadoop 大数据存储方案, 比较成熟的分布式数据库(MongoDB 或 TiDB)更适合作为 DaaS 的存储方案。主要原因是 DaaS 的很大一部分能力需要直接对接业务系统,高并发,毫秒级响应是必备的能力。这种能力只有基于索引机制的分布式数据库才可以做到。MongoDB 的模型变动灵活,非常适合多源快速融合,无需复杂关系建模。而 TiDB 的 HTAP 则能不错的支撑一些常见的分析业务。


此外,Tapdata Real Time DaaS 还具备易集成、易拓展、低代码、可视化等优势,相比自建实时数据平台不仅落地实施快、排错难度低,还可以大幅降低学习成本。


Tapdata DaaS vs. 自建实时数据平台


最后,TJ 对 Tapdata Real Time DaaS 的主要技术场景和业务场景做了总结梳理:

如果你是一个应用架构师或者数据架构师,DaaS架构可以在以下几方面作为选型参考:

  1. 技术场景一:快速数据交付。TiDB, Neo4J,Nebula, Elastic Search, GreatDB, Dameng, 数不胜数的新型数据库和国产数据库品牌都在各个企业生根发芽,而每一个新数据库场景的落地,都有可能需要获取已有业务系统的数据。DaaS 价值:直接从 DaaS 导入并保持持续同步,满足实时数据更新的需求,从数周的时间缩短到数小时内完成数据交付;

  2. 技术场景二:实时数据中台。实时打通企业数据孤岛,对数据进行实时采集,治理及建模,构建企业的主数据系统,为企业的交互式业务,包括客户管理、生产运营管理等提供一个完整全面的企业数据底座。DaaS 价值:孤岛数据汇聚,中央化数据存储,去重、合并、重新建模,主数据管理,构建数据目录,主要支撑前端交互式业务。

  3. 技术场景三:实时数据大屏。为帆软、Tableau或自研的数据可视化平台提供数据固化视图,以亚秒级的性能为这些可视化平台供数。和传统大屏依赖 SQL 和逻辑视图的方案,实时大屏交互体验无需等待,非常流畅。DaaS 价值:数据采集同步,宽表构建,统计聚合计算。

  4. 技术场景四:实时数仓。将企业主数据及运营数据统一汇聚到平台,按照数仓分层理论分成基础数据,主数据和汇总数据层, 为企业BI、报表等提供快速的数据支撑。DaaS 价值:数数据同步,数据分层,数据目录,分析聚合能力。

  5. 技术场景五:企业数据服务平台。企业内部部门众多,各业务均需要获取企业相关运营数据,通过构建一个统一的数据服务平台,部门可以快速的获取业务所需要的数据,并且通过API方式可以实现自助访问。DaaS 价值:数据同步,数据目录,API发布,基于内存的数据库,高并发查询。

Tapdata 创始人唐建法TJ DTCC 2021 演讲


如果你更关注 DaaS 可以创造什么样的业务价值,以下是几个比较常见的场景 DaaS 架构会为企业实现这些业务提供显著的降本增效的能力:

  1. 业务场景:全渠道商品及库存中心大型企业往往有不同业务线,由不同IT部门支撑,并且有线上线下等不同渠道。全渠道营销需要打通各个业务系统,将商品,客户,订单,库存,会员等信息进行统一,给最终客户一个全渠道商品检索,订购和售后的最佳体验。DaaS 价值:提客户体验:一站式购物;IT效率:逐渐下架传统渠道。

  2. 业务场景:SCRM。小程序、钉钉等建立新一代客户关怀系统或银行推出一套新的个贷/信用卡业务等。DaaS 价值:提供完整实时的客户信息给前端业务,加速业务系统的上线。

  3. 业务场景:360度客户视图。客户信息在多套 CRM 系统维护,信息不一致,更新不及时,无法有效进行 cross sale 和 upsale,客户服务体验差,没有统一的入口管理客户信息。DaaS 价值:提高客户体验: 提供准确统一的客户信息;提高营收: 准确的客户标签和相应的推荐带来更多收入。

  4. 业务场景四:实时风控。银行个贷,互金小额贷,保险等在线金融业务需要对客户进行实时风险管控。做法是将来自于金融系统和外部系统(信用、司法、公安等)的个人数据进行统一汇聚,在申请流程中实时查询客户的风险信息并提供个算法引擎做决策。DaaS 价值:完整实时的信息为风控提供高质量的判断,降低坏账率,提高营收利润。

在分享结束后提问环节,TJ 回答了的一个常见的用户问题:Tapdata 可以用来做数据打通,形成一个可复用的实时数据平台,但是我们往往首要的业务诉求往往是做一些统计分析,大屏展示和运营指标。这样的话是否合适使用 Tapdata 呢?TJ 解释到,这些偏向于运营指标和聚合类计算的属于相对简单的分析场景,是完全可以在 DaaS 平台里完成。作为存储的 MongoDB 自带丰富的聚合框架计算能力,Tapdata 的流式计算也提供聚合框架,基本上可以以流式预聚合 + 数据库聚合计算两种技术能力支撑上述的数据场景。 相较于大数据平台,Tapdata的方案能够提供更加准确,更加即时的数据指标和实时分析结果。


获取完整演讲 PPT 内容,请点击http://tapdata-user.mikecrm.com/Z1V3zoT,了解更多 Tapdata Real Time DaaS 相关干货内容请关注 Tapdata 技术博客:,免费试用请点击:http://tapdata-user.mikecrm.com/IpE21eG


推荐阅读