关于构建强大的提取、转换和加载(ETL)管道涉及到的挑战已经有很多文献讨论过,但让我们将其置于人工智能的背景中来看。
为什么人工智能需要数据移动?
在公共数据上训练的大型语言模型(LLMs)很棒,但还希望有更好的方案——AI 可以回答与我们、我们的公司和我们的用户特定相关的问题。比如,希望 ChatGPT 可以学习整个公司的 wiki,阅读我们所有的电子邮件、工作群消息、会议记录和转录,并连接到我的公司分析环境——在回答我的问题时能够使用上述所有来源。或者可以将 AI 集成到自己的产品中(类似于 Notion AI),希望自身应用程序的 AI 模型能够了解用户的所有信息。
而数据移动,正是实现这一切的前提条件。
无论你是在微调模型还是使用检索增强生成(RAG),都需要从数据存储中提取数据,将其转换为模型可以消化的格式,然后再将其加载到您的 AI 应用程序可以访问的数据存储中,以满足您的用例。
上面的图示说明了在使用 RAG 时的情况,但您可以想象,即使您不使用 RAG,基本步骤也不会有什么改变,你仍需数据的提取、转换和加载,也就是 ETL,从而构建充分了解自身及用例特定相关的非公开信息的 AI 模型。
>>> 继续阅读,了解更多
一个自带实时数据复制能力的数据即服务平台,以无代码方式快速连接企业的数据孤岛, 将数据实时集成到中央数据平台, 形成可复用的数据模型和 API, 为多个下游交互式应用提供始终新鲜的数据。内置 100+ 数据连接器,包括新一代数仓目标 BigQuery、ClickHouse 等,无论是数据库,SaaS 还是文件,都可以实现无代码连接。Tapdata 的核心优势包括亚秒级实时采集及传输,基于 MongoDB 的中央化缓存及流式数据处理及建模能力,能够满足企业绝大部分数据准备的场景,为 CIO、市场运营、开发者、数据工程师等。免费试用 >