一文详解大厂数据中台架构

作者:finedatalink

发布时间:2024.8.21

阅读次数:267 次浏览

在大数据发展的黄金期,几乎所有的高科技企业都在思考一个问题:

海量数据作为大多数企业发展不可避免的一个趋势之后,企业该怎么去应用这部分数据资产,会对其商业产生什么影响,如何使数据对企业产生正面的推动而不是成为企业的负担。

作为国内的主要大数据玩家,阿里在2015年提出了“大中台、小前台”的战略,奠定了其内部发展数据中台的基础。2018 年因为“腾讯数据中台论”,中台再度成为了人们谈论的焦点。至此,关于“数据中台”的讨论从未停歇,大概没有什么大数据概念像数据中台一样,这般具有争议争议吧!那么数据中台究竟是“新瓶装旧酒”,还是真正可以助力企业的“大杀器”?本文主要从数据中台的本质和价值,到典型企业的数据中台架构,再到企业究竟需要什么样子的数据中台,多个视角对数据中台进行解读。

一、数据中台是什么?

数据中台我总结它为数据服务工厂,核心功能是将原始数据转化为对企业有价值的、可复用的数据智能服务。

为了方便理解,我们对物理世界里工厂的概念,把数据中台的概念抽象和分解一下。

任何一个加工制造业的工厂,都会有原材料,对应的就是源数据。

  • 原材料(源数据):数据中台的原材料包括企业内部生成的数据和外部获取的数据。这些数据是数据中台进行加工和分析的基础。
  • 数据质量控制(数据湖):数据湖是存储大量原始数据的地方,类似于原材料仓库。在这里,数据需要经过清洗、转换和质量检查,以确保其可用性和准确性。
  • 生产厂房(数据管道):数据管道是数据流动和处理的通道,负责将数据从数据湖传输到需要它们的地方,进行进一步的加工和分析。
  • 半成品/产品仓库(数据集市):数据集市是数据产品和数据服务的存储地,类似于工厂的成品仓库。这里存放着经过加工的数据,可供企业内部不同部门或外部客户使用。
  • 智能创新实验室(数据产品和服务创新):智能创新实验室是数据中台进行新数据产品和新数据服务研发的地方,推动企业数据能力的持续创新和优化。
  • 治理和办公室(数据治理和服务治理):数据治理和服务治理确保数据中台的运作符合企业的标准和法规要求,提高数据的质量和安全性,减少浪费,提高效率。

二、大厂的数据中台架构

上图是阿里数据中台发展至今的一张全景图,大家应该在云栖大会等多个场合有看到过这张图。阿里数据中台的整体核心其实是位于中间的三层数据中心:垂直数据中心、公共数据中心和萃取数据中心。

  • 垂直数据中心:阿里通过将包括淘宝、天猫、聚划算、阿里妈妈广告、优酷土豆、高德等来自不同BU的数据进行采集,在清洗和结构化处理后形成垂直数据中心。
  • 公共数据中心:在垂直数据中心已采集数据作为原料的基础之上,采用维度建模的方式,以业务过程作为粒度切分,处理成不因业务特别是组织架构变动而轻易推翻的数据中间层,由DWD明细层和DWS汇总层共同构成。
  • 萃取数据中心:更进一步以客观业务实体(如人、货、场、企业等)为对象,围绕其建立起以统计指标、标签、关系等数据为主的数据体系,作为直接面向业务的萃取数据中心。

仅从这三层数据中心构成的数据资产体系来看,阿里的架构似乎并无太多先进之处,除萃取数据中心外,垂直数据中心和公共数据中心都能在数仓建模中找到其对应的架构,即便是萃取数据中心,在一些企业的商业智能或者大数据平台层面也能找到相应的雏形。所以,阿里数据中台的核心竞争力究竟是什么呢?

答案就是——产品+技术+方法论

历经阿里生态内各种实战历练后,云上数据中台从业务视角而非纯技术视角出发,智能化构建数据、管理数据资产,并提供数椐调用、数据监控、数据分析与数据展现等多种服务。

承技术启业务,是建设智能数据和催生数据智能的引擎。在OneData、OneEntity、OneService三大体系,特别是其方法论的指导下,云上数据中台本身的内核能力在不断积累和沉淀。在阿里巴巴,几乎所有人都知道云上数据中台的三大体系。

OneData致力干统一数据标准,让数据成为资产而非成本,其中包括OneModel,用于指导数据采集、数据建模、数据开发的规范性;OneEntity致力于统一实体,让数据融通而以非孤岛存在;OneService致力于统一数据服务,让数据复用而非复制,用于指导如何提供数据服务,包括质量安全、资产管理、数据交换、组织协作等流程的规范性。

这三大体系不仅有方法论,还有深刻的技术沉淀和不断优化的产品沉淀,从而形成了阿里巴巴云上数据中台内核能力框架体系。

有了这套核心框架,对于阿里来讲,无论对其自身数据中台建设,还是对外输出解决方案,都提供了非常大的助力。

除了阿里,无论是华为、OPPO为代表的高科技制造行业,还是网易、滴滴为代表的互联网行业,都纷纷在自建或者提出了数据中台的解决方案,但是我们又发现,每一家企业似乎对数据中台都有自己不同的理解,这点从四家企业的数据中台架构图就可以看出。

可以解答最初的问题了,数据中台究竟是什么,或者说企业想要的数据中台究竟是什么样子的。数据中台不是技术体系,也不是一个具象的产品工具,它没有标准化的架构,但是一个成功的数据中台必然有其核心要素:

  1. 数据中台不是纯粹的技术定义,应是管理+技术+业务的混合输出
  2. 数据中台应该是数据资产的载体,提供基础的计算和存储平台,使数据可存可查可复用可共享可变现
  3. 数据中台存储的每一笔数据都理应有业务的价值,所以需要完善的数据治理体系对其进行规范和管理
  4. 数据中台应提供友好、自动化的工具来降低数据开发处理的门槛,让业务专注于业务
  5. 数据中台需要指导方向的方法论,其建设和实施上不能再只是满足建设起一套IT系统,搭建起指导方向和持续演进的方法论才能事半功倍

FineDataLink,它小到数据库对接、API对接、行列转换、参数设置,大到任务调度、运维监控、实时数据同步、数据服务API分享,应有尽有,功能很强大。最重要的是,因为这个工具,整个公司的数据架构都可以变得规范。而且它是java编写的,类流程图式的ETL开发模式,上手都很简单:数据对接、任务复用简直都是小case,大大降低了数据开发的门槛。在企业中被关注最多的任务运维,FineDataLink大运维平台,支持文件夹式开发模式,报错任务可一键直达修改,报错优化清晰易懂;通过权限控制,保障系统安全。

数据集成平台产品更多介绍:www.finedatalink.com

                         

上一篇: 下一篇: