目录
引言
统一的实时数据平台
统一实时数据平台的构成
统一实时数据平台的企业案例
统一实时数据平台对于企业的重要性
数据技术横向对比:统一实时数据平台的优势
统一的实时数据平台通过将跨数据孤岛的事务处理、流式处理和分析处理合并到一个“统一”平台中来简化并优化数据架构。该平台提供超低延迟、水平可扩展性、强大的安全性和基于磁盘的持久性,并且可以跨越不同的、多样化的、分布式的数据源来实现这些特性。
本文将概述统一实时数据平台及其关键组件,并重点解析一些基于该架构方法的高相关案例。主要内容包括:
深入理解什么是统一的实时数据平台
了解统一实时数据平台所能覆盖的应用案例
统一实时数据平台与其他数据架构的比较
根据 Gartner 的定义 ,“统一实时数据平台(Unified Real Time Data Platform) 结合了事件流处理(ESP)平台的大部分甚至是全部功能,并集成了 DBMS 或内存数据网格以及可编程应用引擎。统一平台是一种相对较新的基础架构软件,可应用于操作型业务或分析型业务,既支持动态流数据的处理,又支持静态历史数据的处理。与 ESP 平台一样,统一平台可以执行自定义业务逻辑和分析功能,如机器学习推理及规则。但是,它们还具有 ESP 平台所不具备的功能,特别是包括对同步、请求/回复交互的支持,以及管理长期参考数据和状态数据的能力。”
简单来说,统一的实时数据平台将动态流数据和静态历史数据与计算功能无缝结合,使企业能够以超低延迟处理复杂的分析、流和事务数据工作负载。该技术的使用可能包括从异常值检测(如实时、同步、欺诈检测用例)到情境决策(如借助于机器学习模型的训练和执行来增强质量控制标准)的任何内容。
统一的实时数据平台以超低延迟提供动态数据和静态数据的数据处理和分析功能。这对平台架构提出了一定的技术要求。让我们通过一个我们都应该非常熟悉的例子来更深入地了解这些要求:信用卡欺诈检测和预防。
一个简化的信用卡欺诈预防工作流程
假设某纽约居民使用信用卡在洛杉矶的加油站付款。为了让我们知道这笔交易是否是欺诈性的,我们还必须了解这张卡的其他用途。例如,如果这个人在洛杉矶国际机场租车或最近使用同一张卡购买了飞往洛杉矶的机票,那么这笔交易可能没问题。但是,如果他们两个小时前在纽约付了一顿饭,那么我们就知道有些不对劲了。因此,为了确定该信用卡的原子交易是可信的还是欺诈性的,我们必须查看一些较旧的交易(几小时、几天、几周前)或历史参数来做出判断。
这意味着,从预防欺诈的角度来看,标记或批准信用卡交易的关键步骤包括:
处理来自销售点系统的交易流;
弄清楚还应该关注哪些历史交易;
查询数据存储以提取这些历史交易;
以这些当前(动态数据)和历史(静态数据)交易作为输入来运行 AI/ML 模型;
确定此次运行的结果,并采取适当的行动阻止该交易或进一步处理(检查余额、信用额度、使用交易金额更
帐户记录等)付款请求。
传统的方法是从事件流中提取信用卡交易(如果流处理引擎甚至可以控制事件处理),对事务数据存储执行智能查询,然后将事件与适当的历史数据相结合,并将其提供给执行模型的 AI 应用程序。 而后将输出发送回事务数据存储。
如你所见,数据移动发生发生在跨应用的边界,虽然整个过程可以相对较快地执行,但仍有一些方法可以优化它并减少端到端的进程延迟。
这就是统一实时数据平台可以发挥作用的地方。通过将流处理与数据存储和 AI/ML 模型执行相结合,可以限制数据在跨应用边界时的移动。那么,这对该统一平台意味着什么呢?好吧,它必须具有处理流数据和处理事件流的能力。它还应该能够保存相关的历史和事务数据,并高速执行复杂的 AI/ML 工作负载,并以超低延迟完成所有这些工作。此外,如果它可以在新的传入事务上训练模型,使新模型具有更高的相关性和准确性,然后在下一个传入事件上部署较新的模型后,效果就可以更好。欺诈检测系统不断改进,每天都在变得更加智能。
统一实时数据平台的主要功能
从上面的例子可以看出,统一的实时数据平台可以分解为以下六个关键功能:
实时风险管理
尽可能接近实时地对来自多个来源的流数据执行复杂的数学模型,确定引入的风险水平。这在金融机构中很常见,尤其是在银行业的资本市场方面。
智能决策
处理实时流数据并执行业务规则、AI/ML 模型或数学优化,以实现实时决策。智能决策的实例可能是公用事业或制造工厂使用统一实时数据平台来处理传感器数据、分析数据并自动触发适当的补救措施。
实时交易分析
在事务上下文中执行分析模型,通常与流数据或 OLTP 系统集成。我们之前讨论的信用卡欺诈预防示例可能属于这一类,我们必须在卡交易范围内处理事件、修饰事件数据并执行复杂的分析。其他例子可以是在资产交易执行期间进行监管检查,或在收银台对购买应用折扣。
低延迟 360 度视图
低延迟数据中心整合了来自各种记录系统的数据,并能够为目标应用或受众操作和管理数据。任何需要 360° 查看周围信息的事件或行动都将从统一实时数据平台的数字集成中心模式部署中受益匪浅。例如,从各种内部金融应用程序中提取数据,并结合来自市场(地缘政治、天气等)事件的流数据,以做出更明智的交易决策、更好的客户参与或咨询活动。
高性能联机事务处理 (OLTP)
高度可扩展、持久且可靠的事务处理,适用于低延迟、高吞吐量的应用。在某些方面,这可能是上述一些用例的子集,在这些用例中,需要高性能的事务处理才能以超低延迟执行事务分析。当然,可扩展性和并行处理只是使支持不断增长的事务工作负载变得更加容易。
数据必须非常接近实时
我们生活在一个即时满足的世界里。从疯狂点击流媒体节目和社交媒体内容,到智能工厂和算法交易或高频交易等商业趋势,所有这一切都在推动人工智能、物联网和 5G 等技术创新的趋势。消费者和企业都已经习惯且需要实时的信息,或尽可能接近实时。
企业数据域的范围超出了企业防火墙的范围
数据世界围绕单一事务系统展开业务的时代早已一去不复返了。即使是像运营数据存储或数据仓库这样的技术,虽然结合了来自各种来源的数据,但不足以满足实时访问和处理数据的需求,无法从数据中提取全部的差异化价值。企业很容易受到地缘政治局势、气候/自然灾害或世界另一端的财务决策的影响。他们必须近乎实时地了解这些事件,以便能够做出相应的反应和调整。
整个数据生态系统的性能
这并不是说操作数据存储或数据仓库的执行速度不够快。这些数据处理技术(事务数据存储、数据仓库、事件流处理等)都得到了极大的改进,并且与高网络速度相结合,也可以快速移动数据。
所有数据在诞生的那一刻都是实时的。然而,当数据跨越应用程序孤岛和边界时,它不仅会带来延迟,而且还会带来维护数据完整性和安全性的风险。数据生态系统中的孤岛越多,延迟就越高,损害数据完整性和数据安全性的风险就越大。更不用说,更多的活动部件会导致更高的复杂性和更高的总拥有成本。
通过将典型企业数据生态系统的多个组件组合到一个统一的实时数据平台中,企业可以实现三件非常重要的事情:1)优化数据在生态系统中的移动,令其尽可能简化,2)简化架构,以及3)降低数据集成及安全性方面的风险。
如下图所示,企业数据生态系统需要跨越的数据边界更少,从而降低了数据在企业中的移动延迟,并简化了架构。这样可以降低总体的拥有成本。如果这个统一的实时数据平台可以横向扩展并在任何地方运行(本地、云中或以跨云方式同时运行多个云平台),那么它就可以以超低延迟轻松支持不断增长的企业数据需求。
传统的 DBMS、数据湖、多模型 DBMS 和内存数据库都是集成有某种交互方式的简单数据存储。根据定义,它们是创建有固定格式数据的粒度化据孤岛。
内存中的数据网格
内存中的数据网格 (IMDG) 是一种非常有效的方法,可在内存中实现数据处理,同时提供水平可扩展性和并行处理功能。它是一个非常强大的性能增强器,用于并行执行大量数据的处理事件。虽然 IMDG 不一定能很好地用作低延迟数据中心或数据存储,但它可以用作统一实时数据平台的底层架构,使其成为性能更高、可扩展性更高的解决方案。
事件流处理平台
事件流处理 (ESP) 平台通过数据管道将事件从 A 点流式传输到 B 点。它们在创建流数据时连续执行计算,从而能够立即了解情况并采取行动,或者只是存储这些计算结果以备将来参考。
但是,ESP 平台不存储数据,因此无法应用或提供上下文或历史信息来真正实时处理事件。相反,ESP 平台依靠数据扩充(数据存储中的数据)和时间窗口来分析事件流,所有这些都会增加几分钟或更长时间的延迟。
统一的实时数据平台是一个全面且灵活的数据处理和分析解决方案,通过将数据流和存储数据作为处理复杂工作负载的一部分来分析和处理这些数据来实现超低延迟,消除了其他这些技术的许多限制。
作为一款现代化数据平台型工具,TapData TapData 支持将企业核心数据实时集中到中央化数据平台,并通过 API 或反向同步方式, 为下游的交互式应用、微服务或交互式分析提供新鲜实时的数据。典型用例包括数据库到数据库的复制、将数据引入数据仓库或数据湖,以及通用 ETL 处理。
TapData 专注于为企业提供高效、低延迟的数据管理方案,旨在以更加创新的方式解决长期存在的数据集成问题,满足现代企业对实时数据资源挖掘及应用的严苛需求。其核心功能特性包括:实时数据管道、集中数据总线架构、数据连接器、数据处理、集中缓存,多表连接和物化视图等,灵活服务于各个场景下的数据集成需求,且兼具低延迟、低代码优势。通过整合事务处理、流处理,将跨数据孤岛的数据无缝集成到一个统一的平台中,为企业提供以下关键优势:
实时数据管道:在现代数据管理中,CDC(Change Data Capture,变更数据捕获)技术的重要性日益凸显。CDC 的主要应用场景包括实时数据复制、数据同步和数据仓库更新。通过捕获和记录数据变化,CDC 能确保数据的一致性和实时性。相比传统的批处理 ETL,CDC 技术能够显著减少数据延迟,使得数据在生成后立即被处理和传输,提高数据同步和更新的效率。TapData 的实时数据管道利用 CDC 技术,实现了更为高效的数据处理和集成。
集中数据中心架构:TapData 支持集中数据中心架构,这种架构简化了数据流动路径,减少了点对点数据管道的数量,提高了系统的可管理性和扩展性。通过一个中心枢纽管理所有数据传输,企业可以更高效地进行数据集成,特别是在多系统之间的数据环境中。
数据连接器:在数据连接方面,TapData 提供了 100+ 内置 CDC 连接器,支持从 SQL 到 NoSQL 的多种数据库连接。这种广泛的兼容性确保了企业可以无缝整合不同的数据源,提高数据管理的灵活性和效率。
数据处理:为了满足复杂的数据处理需求,TapData 支持用户定义函数(UDF),允许用户在数据管道中编写自定义的 Javascript 和 Python 逻辑。这种功能使得数据清洗、转换和聚合等任务更加灵活和强大,适应各种业务需求。
集中缓存:TapData 采用集中缓存技术,有效优化了系统性能和资源利用。通过减少重复的数据处理和传输,集中缓存显著提升了数据处理和查询的速度,确保企业能够高效地利用数据资源。
多表连接和物化视图:在实际场景下企业往往需要整合多个数据源的信息,并进行复杂的查询和分析。TapData 可以帮助其构建更复杂的数据查询和试图,从而为后续的数据分析需求创造便利。
TapData 已经在金融、制造、零售、能源、政府等多个行业与领域中得到了广泛应用和验证,帮助企业实现了实时数据处理和分析的数字化转型。借助 TapData,企业可以显著提升运营效率,快速响应市场变化,实现数据驱动的智能决策。
【推荐阅读】: