中央化的数据服务,可复用易分发
将企业核心数据实时集中到中央化数据平台的方式并通过API 或者反向同步方式, 为下游的交互式应用、微服务或交互式分析提供新鲜实时的数据。
TapData Data Services
TapData 是新一代实时数据服务平台,通过把企业核心数据实时集中到中央化数据平台的方式并通过API 或者反向同步方式,
为下游的交互式应用、微服务或交互式分析提供新鲜实时的数据。

数据实时采集+传输 →

基于日志解析的能力,通过开放式框架 Plugin Framework,以实时等方式,第一时间对这些数据源头中修改/更新/变动的数据进行采集并标准化,形成标准时间后进入流处理框架;

数据实时计算 →

通过 TapData 自研方案,无需离开进程,在进程内即可完成数据计算、建模和转型,快速得出结果,进入 DaaS Storage 层;

中央化存储

在将数据放入 Storage 层时,实际上已经形成了一套逻辑模型,在这里用户无需关心数据存储在哪里,只需要关注真正需要的是哪些数据信息;

数据实时服务

在服务层,有两种主流的数据服务模式 Pull 和 Push。API 支持低代码发布,可按照具体需求发布数据。当所需数据在业务系统中已有存储时,可通过 REVERSE ETL,反向把经过整理、治理的数据推送给用户;
数据实时采集和传输能力
以实时的方式从各个数据来源,包括数据库,API,队列,物联网等数据提供者采集或同步最新的数据变化。
- 实时 CDC 数据同步,捕获源数据库的数据变化,并在毫秒内更新到目的数据库
- 支持大部分商业和开源的数据库类型,包括关系型和非关系型数据库
- 支持多源异构数据双向同步,自动映射关系型到非关系型
- 定义数据规则,监控和分析所提取的数据质量
数据实时计算能力
基于 Pipeline 流式数据处理,以应对基于单条数据记录的即时处理需求,如数据库CDC,消息,IOT事件等。
和传统 ETL 的不同点是,每一条新产生并进入到平台的数据,会在秒级范围被响应,计算,处理并写入到目标表里。
同时,针对于实时分析场景,系统需要提供基于时间窗的统计分析能力,如计算最近一个小时的订单总数,页面点击总数,订单总额,实时计算游戏排行等场景。

实时性
比定时轮询具备更高的实时性,
可达亚秒级延时。

灵活性
基于 MongoDB 实现的统一数据缓存层,
支持随时修改模型。
全局模型关联
与 Flink 支持时间窗时间缓存相比,
功能更强大。
支持跨库乱序
将所有数据源汇聚到统一缓存数据层,
然后进行模型合并计算。
数据实时服务能力
低代码可视化方式开发和配置业务需要的 Data API,能够提供毫秒级延迟、大并发的实时交互式数据访问能力,做到真正意义上支持 TP 型业务
- 自动发布、自动生成文档和测试用例
- 完善的、可配置的数据访问权限和机制
- 高可用、可扩展架构设计,应对大并发和大流量的访问
- 支持访问监控和分析能力
- 可为数据需求部门提供基于权限内的自助式主数据访问服务
数据校验能力
基于多种自研技术,TapData 可最大程度保障数据一致性。除此以外,TapData 还支持对数据表执行数据校验,帮助您进一步验证和确保数据流转的正确性,满足生产环境的严苛要求。

检验类型:
-- 快速 count 校验:对源表和目标表的行数进行校验,不会展示具体的差异内容,速度极快。
-- 全表字段值校验:对源表和目标表全部字段的值逐行校验,可展示所有字段的差异内容,速度较慢。
-- 关联字段值校验:仅对源表和目标表关联字段的值进行校验,速度中等。
-- 全表 hash 校验:仅支持同构和异构数据源间的全表 hash 校验,速度较快。