TJ,唐建法,Tapdata钛铂数据CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师。

“怎样可以来搭建一个数据中台?”身处数据处理行业,经常被客户问到这样的问题。
数据中台到底是什么,是产品、技术还是一个架构……,
在关于数据中台的概念铺天盖地的时候,TJ为你展示,数据中台的架构,如何在技术上实现,如何在企业落地,并实实在在解决问题。

共分五部分:
1. 现代企业数据架构及痛点
2. 理解数据中台
3. 数据中台的技术模块
4. MongoDB数据中台方案
5. 中台方案选型

 

一、现代企业数据架构及痛点

 

– 数据孤岛:低效率和利用困难的根源
– 应用瓶颈:传统方案数据仓库、数据湖的不足

航空公司场景

airline case

航空公司的市场人员,想要推出一个新产品或者是一个客户活动。会希望了解哪一种渠道是某类客户最常用的?当想到这个问题的时候,发现航空公司的客户触点太多了。

PSDP行程订单,投诉、行李系统,常旅客系统,手机App系统等等。这些系统都是航空公司在不同阶段,不同的业务部门建立的应用。这些应用在部署时只会以本业务为目标,而不会考虑到企业其他业务能够很好的对接。如果这些应用中的数据没有做到统一的话,那要花费数天或者数周才能得到结果,甚至都不知道哪里能够拿到数据。有时就算知道,还要协调其他业务部门来正确地给到。

保单贷小程序案例

insurance case

如果客户在保险公司中已购买过重疾险、人寿险或财产险,保险公司可以根据客户的保单额,在一分钟内可以判断提供给客户不同类型的现金贷。在上线的时候发现,这个保单贷小程序很快开发好了,但是数据在人寿、重疾、财险等不同的系统里面,有些还需要推荐系统和标签系统。所以要花很多的时间来做数据的对接,这个时间是数周、甚至数月。因为其中不只是数据问题,还涉及到权限等问题。

以上的情形都是企业中常见的数据孤岛的问题。

data silo

数据孤岛成因,是由于事业部门各自建设,以业务为核心,而不是以数据建设为目标。

其次,常用的数据库如Oracle, SQLServer, DB2, Sybase,这些关系型数据库一直以来存在性能扩展的瓶颈。导致在上大的系统,或者客户量增加时,采用分库分表的方式。因为单个库没有办法支撑到太多的业务量。这也形成了大量数据孤岛。

数据孤岛带来的影响,需要大量时间对接和同步;用户体验下降,数据不完整不实时;重复建设,复用率低等。

data warehouse

目前解决办法,如应用层面ESB企业总线、MQ等;从存储角度来说,如数仓Teradata,Greenplum,及数据湖。可以解决问题,但是有局限。

这些方案都是面向分析场景,对于数据抽取不及时,多是T+1方式。在数仓及数据湖中处理形成了大量报表及结果数据,通过下载、导出等方式进行交付,形式粗放。场景偏重于分析,主要做BI,做报表、Dashboard,来对企业的运营和客户有所洞察。

而对于企业运营来说,关键的、核心的能力不是后端的分析,而是在前端与客户交互,与业务交互,与流程交互。

基于上述情况,数据中台应运而生。