Tapdata 技术博客
Tapdata 技术博客

2023 数据工程师年度关键词:现代数据堆栈

2023-11-19 21:39

这一年,“现代数据堆栈”显然是在数据工程领域被频繁提及的关键词。


长久以来,数据工程的发展节奏一直没有放缓。近几年,新的技术和概念出现得更是特别快。2023 又近年末,让我们慢下来思考下数据工程的现状,以及那个在新工具涌现的时代大家一直关心的问题——数据工程师的角色在未来会有怎样的变化,会不会逐渐消失?


下面我们就从数据工程师的历史谈起,看看这一角色的过去、现在、未来,以及那些正在改变现状的数据集成工具们。


过去:从 BI 工程师到大数据工程师


先来快速回顾一下在数据领域的相关技术发展史,以及数据工程的诞生。


早期,数据仓库等实践让数据开始真正具有价值。20世纪80年代,第一个商业数据仓库初步成形,SQL 也成为一种标准的数据库语言并沿用至今。

随着 MPP 数据库引入,数据仓库开启了可扩展分析的时代,这让处理过去无法想象的数据量成为可能。为了管理数据仓库,像 BI 工程师这样的工作职能应运而生。


21世纪初,网络泡沫破灭后,大浪淘沙之下的幸存者乘势发展壮大。科技巨头的空前增长之下,当时可用的单体数据库和数据仓库难以搞定新的工作负载,工程师们不得不寻找更复杂的解决方案来应对那些更苛刻的数据需求。


由此,Google 先后在 2003 和 2004 两年发布了著名的 Google File System 和 MapReduce 论文,分别描述了一种适用于大型分布式数据密集型应用的可扩展分布式文件系统,以及大型集群上的简化数据处理。2006年,雅虎开发人员发布 Hadoop 分布式文件系统。与此同时,像服务器和内存这样的硬件变得廉价且普遍。


上述种种创新,以及大小企业在数据层面 TB 级乃至 PB 级的累积,催生了我们所熟知的大数据——大数据工程师时代开始。这一时期的大数据工程师广泛使用开源框架 Apache Hadoop。因此需要具备辅助技能与相关技术经验,像是 Hive 和后来的 Spark。


Hadoop 前后,亚马逊决定通过 AWS 提供其内部技术,从而推出了第一个公有云。其他公共云供应商,如谷歌云和微软 Azure 也很快跟上。云的主要优势之一是,与购买自己的硬件相比,公司可以节省下相当大一笔前期固定成本。公有云彻底改变了软件和数据应用的构建和交付方式,成为这个时代最重要的技术之一。


之后,一些以数据为中心的技术涌现并崛起,例如第一个云原生 MPP 数据库 Amazon Redshift(之后还有 BigQuery,最近是 Snowflake)。

数据工具由此开始被广泛使用。伴随着云数据仓库,又新生了一批管理数据工作流程的工具,功能属性包括数据编排、数据转换等。所有这些数据产品催生了我们所说的现代数据堆栈。


现代数据堆栈产品极大简化了工程师的一部分工作,像是编写管道、调用 API 接口获取数据等。大数据工程师的叫法在某种程度上变得过时,我们开始习惯笼统地称为“数据工程师”。


现在:当代的「数据工程师」


新时代对数据工程师提出了更多的技能和发展适应性需求。


① 与发展变化相匹配的技能储备


由于数据工具的出现,数据人的职业发生了巨大转变,逐渐从过去的琐碎任务向战略任务转移。由于大数据框架的具体内容已被抽象化,当代数据工程师可能会更关注大局,越来越多地照顾到价值链上游的任务,如数据建模、质量、安全、管理、架构和编排。


同时,也要越来越多地采用软件工程的最佳实践,例如敏捷开发、代码测试和版本控制实践等。


除此之外,还有 Python 和前面提到的 SQL,都是当今数据工程师必须掌握的语言。


② 认知刷新:让数据使用者真正拥有数据


构建数据团队的方式也在改变。为了更好地满足数据消费者的需求,开始出现向分散的数据团队、自我服务的数据平台以及数据仓库以外的数据存储方式(比如数据湖、数据湖仓一体或是数据网格)的转变。


什么是最佳组织模式这个问题或许还有待讨论,但可以明显看到一种趋势,那就是让领域专家成为他们使用的数据的所有者。因此,许多数据工程师现在属于一个中央平台团队,负责优化数据栈的不同方面,而不是拥有数据。


上述架构和组织转换的关键挑战是保持对数据的共同理解。这就是为什么我们会采用语义层(Semantic Layer)这样的概念,因为它可以将复杂的数据映射成数据使用者所熟悉的商业术语,以提供跨系统的统一、综合的数据视图。


② 擅用工具,积极适应角色转变


关于今天的数据工程角色定义,可以引用《数据工程基础(Fundamentals of Data Engineering)》一书中的描述——“数据工程是对系统和流程的开发、实施和维护,这些系统和流程接收原始数据并产生高质量、一致的信息,支持下游用例,如数据分析和机器学习。数据工程是数据安全、数据管理、DataOps、数据架构、数据编排和软件工程的交叉点”。


数据工程生命周期


今天的数据工程师负责监督整个数据工程过程,从收集各种来源的数据,到保障下游使用,这个角色需要熟悉数据工程生命周期的多个阶段,并善于从易用性、灵活性、价格等多个指标着手,进行数据工具评估、选型以及应用,大体包含以下几类:

  • 数据集成服务,例如:Fivetran、DataX、Tapdata

  • 现代数仓,例如:Snowflake、BigQuery、SelectDB Cloud 等

  • 数据转换工具,典型代表 dbt

  • BI 层,例如:Metabase、Looker、Mode 等

未来:数据工程师将何去何从?


我们先来看四点趋势总结:

  • 数据工具的复杂性将继续降低,同时增加更多的功能和特性。

  • 专业化程度将提高,在数据工程中产生新的角色。

  • 数据生产者和消费者之间的差距将缩小。

  • 由于采用 DataOps,数据管理得到改善。

一直以来,数据工程师都习惯投入精力在管道建立,以及数据源与目标连接的维护上。在此基础之上,数据工具得以获得很大的发展空间,如前盘点,以 Tapdata 等为代表的操作更加简洁、数据连接器更丰富的工具值得大家关注。


简化的工具允许任何数据从业人员,包括数据分析师等,在几分钟内完成数据管道的搭建,自助式分析在未来将继续赋能下游数据消费者。


反过来看,伴随着工具优化所带来的能力升级,企业将获取并积累更多数据,越来越多的利益相关者将参与到数据的整个生命周期中来,因此,数据质量和数据管理问题也将成为重中之重。数据可靠性工程师这一角色的产生背后,就有数据质量要求的推动。


除此此外,数据领域有望出现更多新的职能角色。这或许能解答“未来数据工程师是否会消失的问题”,在我看来是不会,被替代的不是数据工程师这个角色,而是“数据工程师”这种说法,会逐渐采用细分领域更专业、更具体的头衔表述。


未来的数据工程师将负责设计灵活的数据架构,以适应不断变化的需求,包括选择能为组织提供最大价值的工具。


SEO尾巴.jpeg

Tapdata Live Data Platform 实时数据集成和数据服务平台

一个自带实时数据复制能力的数据即服务平台,以无代码方式快速连接企业的数据孤岛, 将数据实时集成到中央数据平台, 形成可复用的数据模型和API, 为多个下游交互式应用提供始终新鲜的数据。内置 100+ 数据连接器,包括新一代数仓目标 BigQuery、ClickHouse 等,无论是数据库,SaaS 还是文件,都可以实现无代码连接。Tapdata 的核心优势包括亚秒级实时采集及传输,基于 MongoDB 的中央化缓存及流式数据处理及建模能力,能够满足企业绝大部分数据准备的场景,为 CIO、市场运营、开发者、数据工程师等。免费试用 >


Tapdata 工作机制





推荐阅读