数据中台定义:以打通部门或数据孤岛的统一数据平台为基础,构建统一数据资产体系,并以API服务方式为全渠道业务(分析 + 应用)提供即时交付能力的企业级数据架构。
首先,统一数据平台。
数据中台也是一个数据统一的平台,它不会取代原来的系统,而是把原来组织中分散在各系统中的数据实时地汇聚到统一平台之中。
其次,数据资产体系建立。
与数仓及其它大数据平台不同的是,汇聚统一之后,做数据资产体系规划。对数据打标签,组织目录和结构,便于发现和使用。
最后,提供数据服务。
以API的标准接口方式向前端的业务场景,或分析场景提供服务。而不是通过传统的SQL,或者是dump的方式来导出数据。我们称之为DaaS(Data as a Service),数据即服务。
构建企业数据中台,所支撑的场景不仅仅是分析(如可视化分析,数据发现,数据报表等等),也包括满足各种前端业务应用对数据的需求,如CRM、BPM、SCM、MES等。所以这里提供的数据服务是全渠道业务,而不是传统数仓做的BI类似的工作。更多前端业务应用如掌上商城、手机银行、保单管理、客户360、统一订单、销售大屏等。汇聚在中台的数据可以直接推到手机、App等各类前端,并且是实时的,交互的数据。
这些都是传统数仓这样的平台所无法比拟的。
以下是金融企业的数据中台架构参考(银行业):
最低下蓝色是EDW、Hadoop、DB2、Oracle等是已有的各类系统的数据源。
通过CDC、批量导入、API集成等方式把数据汇聚到中台。
在中台里面进行资料的建模和分类,比如按照客户、账户、交易等纬度。
然后以API方式交付到他们的各个业务中心。
最后做成各种业务开发,如金融商城,手机App,社交系统等。
在没有数据中台的时候。实现这些前端场景需要各个业务中心找每一个需要用到的数据中心去协商,前端业务直接连到后台的核心系统。因此而产生两个问题:
一是,当数据量上来时,如做促销活动,核心系统DB2,Oracle等跟不上。
二是,当有业务中心有新的需求产生,对数据模型要改变的时候,核心系统很难支撑。
当企业有了可以灵活组织新的业务模型的数据中台,才可能真正快速地响应前端的业务需要。
在上图的右上角,可以看到数据中台依旧可以支持一些分析的场景。
当然,这样的数据中台必须具备数据的治理能力,如质量,编目,建模等等。
所以数据中台的主要价值在于,数据的协同效率、复用效率和交付速度。原各个系统中的数据不再各自为政,而协同到一起效率提高很多。同样,一份数据可以给多个业务场景使用,而不再需要 ETL 到不同的系统,还要去维护它们的一致性,去掉重复,或防止遗失。最大的价值更在于,加快数据的交付速度。