DaaS 平台有三大支柱:数据采集、数据转换、数据交付。
第一:数据采集解决 DaaS 平台原材料引进问题。
对中小企业而言,仅有自身企业数据是远远不够的,必须引入一些外部数据来提高 DaaS 平台价值,获取数据方式一般有:
数据合作:在合规情况下获取企业自有客户数据(通常是免费的),以供对数据进行分析,这包括企业自有的系统和平台。
数据购买:收购拥有数据的相关公司,或向公司单独购买数据。但这通常比较困难,因为大多数公司高估了他们的数据......他们没有意识到实际使数据有用并将其推向市场所需的大量工作。尽管有许多公司将数据货币化作为其当前商业模式的副产品。
公共数据:利用搜索引擎或数据爬取技术,获得公开数据。
第二:数据转型
您的数据采集可能来自数千个来源。DaaS 平台需要您将数据融合在一起并使其更有用。
即使您从一些交易中获取数据,最终需要对所获得的数据进行融合处理,以便能够进一步挖掘数据价值,一般来讲您所获得的数据集越多,就越能挖掘到更大的数据价值。
有些转换可能很简单,有些转换可能非常复杂。数据科学家花费90%的工作来处理数据,而不是构建模型。
数据转换非常困难,你不能只用一个简单的修复方法修复一个错误或者可以'后处理'并删除某些数据点,但它并不像 A / B 测试那么简单。
第三:数据交付
DaaS 平台在数据交付阶段,您可能要关注:数据交付是通过 API 吗?有自助用户界面吗?你有什么与现有平台进行集成?数据是否实时流式传输?或者定期发布数据?数据是可靠的吗?
数据是否记录良好且定义明确?数据是否记录了其假设和变化?是否存在“隐藏”过滤器和假设?数据是否组织成有意义且有用的模式和本体?是否可以轻松加入内部数据或其他外部数据集?或者客户是否必须构建自己的摄取ETL管道才能使用数据?
Tapdata Real Time DaaS 是全球首个基于数据即服务(Data as a Service,简称 DaaS)架构理念、面向 OLTP 业务或场景的企业实时数据服务平台。申请试用:tapdata.net