随着业务需求的不断增加,统一实时数据平台成为简化和优化数据架构的利器。它通过将事务处理、流处理和分析处理整合到一个平台中,实现了对数据流和历史数据的高效处理,同时具备横向可扩展性、强大的安全性和基于磁盘的耐久性。在这篇博客中,我们将深入了解统一实时数据平台的构成、关键组件,并通过信用卡欺诈检测的例子,窥探这一架构方法的应用场景。
什么是统一实时数据平台
根据 Gartner 的定义,“统一平台将事件流处理(ESP)平台的许多或所有特性与数据库管理系统(DBMS)或内存数据网格以及可编程应用引擎结合在一起。统一平台是一种相对较新的基础设施软件,支持需要同时处理运动中的流数据和静止中的历史数据的操作性或分析性业务应用。与ESP平台类似,统一平台可以执行定制的业务逻辑和分析功能,如机器学习推断和规则。然而,它们还具有ESP平台所不具备的能力,特别是支持同步请求/回复交互和管理长期参考和状态数据的能力。”1
简单来说,统一实时数据平台通过无缝整合运动中的流数据和静止中的历史数据以及计算功能,使企业能够以超低延迟处理复杂的分析、流处理和事务性数据工作负载。这项技术的用途可能包括从异常检测(例如实时同步的欺诈检测用例)到情境决策(例如培训和执行机器学习模型以执行质量控制标准)。
根据 Gartner 的说法,"统一平台将事件流处理 (ESP) 平台的许多或所有功能特性,与 DBMS 或内存数据网格和可编程应用引擎结合在一起。统一平台是一种相对较新的基础架构软件,可支持需要处理动态流数据和静态历史数据的操作性或分析性业务应用。与 ESP 平台一样,统一平台可以执行自定义业务逻辑和分析功能,如 ML 推断和规则。不过,统一平台还具有 ESP 平台所不具备的功能,特别是支持同步、请求式和非请求式数据处理。
统一实时数据平台的构成
统一实时数据平台提供了对运动中的数据和静止中的数据的数据处理和分析能力,且具有极低的延迟。这使得平台的架构面临一系列技术要求。通过信用卡欺诈检测的例子,我们可以更深入地了解这些要求。
信用卡欺诈检测工作流程
假设一个纽约居民在洛杉矶的加油站使用信用卡支付。要确定这笔交易是否欺诈,我们不仅需要了解这笔交易的情况,还需要了解这张卡的其他使用情况。比如,如果此人最近在LAX租车或使用同一张卡购买飞往洛杉矶的机票,那么这笔交易可能是正常的。但如果两小时前他们在纽约支付了一顿饭的费用,那么就可能存在问题。因此,为了判断一笔信用卡交易的真实性,我们需要查看较早的交易记录或历史参数。
在欺诈防范的角度,标记或批准信用卡交易的关键步骤包括:
处理交易流: 从销售点系统获取交易流数据。
确定历史交易: 确定需要查看哪些历史交易。
查询数据存储: 通过查询数据存储来提取历史交易记录。
执行AI/ML模型: 使用当前(运动中的数据)和历史(静止中的数据)交易作为输入执行人工智能/机器学习模型。
决策执行: 确定执行的结果,并采取相应的操作,如阻止交易或进行进一步处理。
这一工作流程清晰地展示了统一实时数据平台如何在处理复杂的分析、流处理和事务性数据工作负载中发挥关键作用,实现超低延迟的性能。
通过以上例子,我们深入了解了统一实时数据平台的构成和在信用卡欺诈检测中的应用。这种平台不仅简化了数据架构,还为企业提供了处理各类数据工作负载的高效解决方案。