Tapdata 技术博客
Tapdata 技术博客

什么是数据虚拟化(Data Virtualization)?

2021-07-28 17:18 yonghe

本文将简单易懂地介绍数据虚拟化技术及数据虚拟化软件架构的实现方法,尽量避免教条主义。如需要了解虚拟化定义,可通过wiki 百科了解。

先引用一段百度百科的文字来说明数据虚拟化的定义:

数据虚拟化(data virtualization)是用来描述所有数据管理方法的涵盖性术语,这些方法允许应用程序检索并管理数据,且不需要数据相关的技术细节,例如它格式化的方式或物理位置所在。

正如百科的定义,采用数据虚拟化技术构建的系统或软件,可以充当跨多个不同数据源的桥梁,将关键的主数据集中在一个虚拟层,通过统一的访问方式提供给需要数据的系统或应用。

数据虚拟化提供了一个新的数据层,将企业内部的所有数据源抽象后,成为一个面向领域的统一数据访问层,使用户或者业务系统能够采用统一的接口或者语义访问企业所有的数据,包括传统数据库、大数据源以及云和物联网系统中的数据。这样做的好处是通过数据虚拟化技术,屏蔽了企业内部多元异构数据的多样性和复杂性,大大提升了企业对数据的使用效率,并且显而易见地降低了沟通和使用成本。


数据虚拟化系统应具备的 4 大功能

敏捷设计和开发(Agile design and development):需要从内部审视可用的数据、发现数据之间隐藏的关系、对各个视图/服务进行建模、验证,并按需进行修改定制。所以需要通过敏捷设计和开发一些自动化的功能,已应付大量的重复工作。这些功能可自动执行、缩短解决方案实施的时间,并提高对象的重用率。

高性能运行时(High-performance runtime):当应用程序调用数据请求时,能够执行优化过后的查询语句,并返回适当的格式化数据结果。这类功能需确保提供最新的数据、最优的执行性能和减少源数据读写。

适当使用缓存(Use of caching when appropriate):一旦向外提供数据,意味需要提供高性能高并发的数据交付,适当使用缓存可以提升系统的查询响应性能】避免因网络限制无法读写源数据库,并实现 7x24 小时的可用性。

使数据易于查找和管理(Make data easy to find):提供使数据易于查找的业务目录可用于对数据进行搜索和分类、浏览、选择以及与 IT 部门协作,以提高数据质量和实用性。

数据虚拟化系统/产品的架构实现

数据虚拟化产品的架构一般有两种实现方式,联邦查询和实时镜像。

数据联邦查询通过连接各数据源实现数据统一访问,采用缓存进行加速,不全量负责数据。 当应用调用数据请求时,联邦查询会对查询语句进行优化并执行,发别从缓存或数据源端抽取数据,并进行合并和组装,以应用需要的格式返回数据结果。

优点:无需全量复制,硬件成本低;
缺点:查询的执行过程中会对数据源系统有侵入,需要和源系统改动联动,并且响应的延迟高,无法对查询响应的延迟承诺。
联邦查询

实时镜像的方式实现数据虚拟化,需要建立一个中央化的数据存储库,通过对各个数据源进行连接并实时同步,将各个数据源的数据按 1:1 的方式,镜像到中央数据存储库,然后基于中央数据存储去做数据建模和统一管理。

优点:对源系统无影响或影响较小,可实现亚秒级的查询响应;
缺点:需要额外的存储成本;
实时镜像

Tapdata 数据虚拟化方案

Tapdata 是由深圳钛铂数据研发的一款实时数据服务平台的产品,该产品采用的是“实时镜像” 的方式实现数据虚拟化。

Tapdata 产品架构图 摘自 tapdata.net

Tapdata 主打的是实时数据场景,并专注在为 OLTP 型业务提供数据服务。满足 OLTP型业务的基本条件有三个:高并发、毫秒级响应和实时同步。

Tapdata 采用中央存储库镜像数据,以确保能应付数十万并发请求,并提供毫秒级查询响应的数据服务,此外并在数据实时同步和处理方面花了比较大的功夫,比如基于 CDC 日志挖掘能确保源端数据发生变化,在1秒以内反映到目标数据库(中央存储);在数据处理方面抛弃了现有的开源解决方案,完全重新了计算引擎,支持批流一体数据处理,实现数据合并、清洗和转换。

总体来看,基本做到了实时同步、实时处理的目标,使数据服务满足高并发、毫秒级响应和实时同步 3 大条件,符合 OLTP 业务对数据的要求。

数据虚拟化的好处

业务价值加速:更完整、更新、易于访问的数据,比 ETL 需要花费更少的投入,并获得更快的产品迭代速度,获得更大的价值;

业务洞察力改进:可以对更全面的数据进行分析,助力企业洞察和决策;

减少开发成本:可重复使用的数据服务和交互式开发体验,降低沟通成本、缩短数据准备的工期,可提高项目质量并避免项目返工;

降低数据安全风险:集中式管理,提升了管理的效率,降低了数据安全的风险。


Tapdata 实时数据服务平台

官网: https://tapdata.nettapdata.net


推荐阅读