作者:fr
发布时间:2023.7.28
阅读次数:12,003 次浏览
不知道你们有没有感觉到,传统的数据仓库模式,在快速发展的企业面前已然显得力不从心。
数据湖,是可以容纳大量的原始数据的存储库和处理系统,已经成为企业应用大数据的重要工具。数据湖可以更好地加速从数据到价值的过程,打造相应业务能力。
而有效的数据治理才是数据资产形成的必要条件,同时数据治理是一个持续性过程,也是数据湖逐步实现数据价值的过程。未来在多方技术趋于融合,落地场景将不断创新,数据湖、数据治理或将成为新的技术热点。
今天就以一个30多人团队数据架构师和CIO的视角,来谈谈数据湖这个风口。
在数字经济时代,应用程序在不断地产生并储存大量数据,而这些数据却无法及时被其他程序使用,导致“数据孤岛”产生。数据湖的诞生,不仅解决了“数据孤岛”的问题,还使企业获得更强的数据使用能力。
数据仓库模式导致的烟囱式建设与数据需跨业务线广泛连接之间的挑战
传统数据库不能应对数据的增长,数据ETL、数据建模工作的响应速度与数据反哺业务迭代创新之间的挑战
数据赋能与业务场景探索脱节的挑战
数据湖是一种数据存储理念——即在系统或存储库中以自然格式存储数据的方法。
目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。数据湖到底是什么?业内并没有达成共识定义
图1.数据湖存储数据类型
数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。
图2.未经处理和包装的原生状态“水库”
从1960年开始,数据管理经历了数据收集、数据库、数据仓库的阶段,2001年后随着互联网的迅速发展,大数据时代来临,对数据管理技术提出了全新的要求,未来朝着数据湖的方向演进。
图3.数据库、数据仓库到数据湖发展历程
数据库的数据有对齐的要求,数据库是面向应用的,每个应用可能需要一个数据库。如果一个公司有几十个应用,就会有几十个数据库。几十个数据库之间怎么去连接分析、统一分析?是没有办法的。
随后就由数据库发展成了一个数据仓库,数据仓库不面向任何应用。但是,它对接到数据库,如果需要每天定时有些 ETL 的批处理的任务,将不同应用和数据汇总起来,按照一些范式模型去做连接分析,得到一定时间段的总体数据视图。这个前提是很多数据库要给数仓供应数据。
在这种需求的推动下,数据湖的理念便开始成形,其可以把数据保存在原始状态,以便于企业从多个维度进行更多分析。数据可以很轻松进入数据湖,用户也可以延迟数据的采集、数据清洗、规范化的处理,可以把这些延迟到业务需求来了之后再进行处理。
传统的数仓,因为模型范式的要求,业务不能随便的变迁,变迁涉及到底层数据的各种变化。相对来说,数据湖就更加的灵活,能更快速的适应上层数据应用的变化。
数据、算法和算力三大因素正在全力推动数据湖应用快速发展。企业建立统一的数据湖平台,完成数据的采集、存储、处理、治理,提供数据集成共享服务、高性能计算能力和大数据分析算法模型,支撑经营管理数据分析应用的全面开展。为规模化数据应用赋能。
笔者认为,数据湖技术架构涉及了数据接入(转移)、数据存储、数据计算、数据应用、数据治理、元数据、数据质量、数据资源目录、数据安全及数据审计等10个方面领域:
图5.数据湖包含技术体系
就拿数据应用来说吧,数据应用是指通过对数据湖的数据进行统一的管理、加工和应用,对内支持业务运营、流程优化、营销推广、风险管理、渠道整合等活动,对外支持数据开放共享、数据服务等活动,从而提升数据在组织运营管理过程中的支撑辅助作用,同时实现数据价值的变现。
在基本的计算能力之上,数据湖需提供批量报表、即席查询、交互式分析、数据仓库、机器学习等上层应用,还需要提供自助式数据探索能力。
数据湖对一个企业的数字化转型和可持续发展起着至关重要的作用。构建开放、灵活、可扩展的企业级统一数据管理和分析平台, 将企业内、外部数据随需关联,打破了数据的系统界限。
1)利用数据湖智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满足企业各级数据分析应用需求。
2)深度挖掘数据价值,助力企业数字化转型落地。实现了数据的目录、模型、标准、认责、安全、可视化、共享等管理,实现数据集中存储、处理、分类与管理,实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估、落地管理流程。
数据湖本身是一个中心化的存储,能够存储任意规模的结构化与非结构化数据。数据湖的优势就是数据可以先作为资产存放起来,问题就在于如何把这些数据在业务中利用起来。当部署了数据湖之后,数据治理问题将会接踵而至,比如如何将数据进行分流、湖的数据如何进行整理等。
数据仓库里的数据是经过过整理、清晰易懂的。而数据湖的概念是不经处理直接进行堆砌,那么数据湖就有可能会变成“数据沼泽”,筛选难度会变大。
由于定义不正确、信息不完整、数据陈旧或无法找到所需信息,它需要更多的元数据来理解存储在数据湖中的数据资产,包括数据内容、数据资产图谱、数据敏感性、用户喜好、数据质量和数据价值等业务层面的理解。
另外这些系统和应用是技术人员开发的,由于技术人员和业务人员的思维和“语言”存在差异,这使得业务用户获取数据变得更加复杂和困难。
如何让数据湖的水保持清亮不会成为数据沼泽?“数据湖的数据不被有效使用就会成为大垃圾场。”中国有句谚语:“流水不腐,户枢不蠹”。数据只有流动起来,才可以不成为数据沼泽,湖泊只是暂存数据河流的基地。
数据流动就意味着所有的数据产生,最终要有它的耕种者和使用者。要让数据有效流动起来,就要建立有效的“数据河”(Data River)。
业界在数据湖的尝试上一般都会忽视数据治理的重要性,这是很危险的,由它导致的数据沼泽也是企业对数据湖持续观望的原因之一。
对数据治理的需求实际更强了。因为与“预建模”方式的数仓不同,湖中的数据更加分散、无序、不规则化等,需要通过治理工作达到数据“可用”状态,否则数据湖很可能会“腐化”成数据沼泽,浪费大量的IT资源。
平台化的数据湖架构能否驱动企业业务发展,数据治理至关重要,没有数据湖治理,企业可能失去有意义的商业智能。这也是对数据湖建设的最大挑战之一。
数据湖以数据治理为基础、建立一套自助服务为抓手的工具链来赋能业务发展。数据湖能给企业带来多种能力,例如,能实现数据的集中式管理,在此之上,企业能挖掘出很多之前所不具备的能力。
另外,数据湖结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。
图8.数据湖中数据全生命周期管理
当数据从采集点流入数据湖时,它的元数据被捕获,并根据其生命周期中的数据敏感度从数据可追溯性、数据全生命周期和数据安全等方面进行管理。
在数据大爆发的背景下,数据治理对数据湖起到关键作用,因为数据治理涉及组织中跨功能和跨业务的所有决策机制。
数据智能在提供数据支持和数据治理应用方面至关重要,因为它为企业提供了在最佳时间内将正确的数据交付给正确的对象所需的知识。数据智能也在帮助专业人士在工作中变得更高效、更有效,在可靠数据的支持下做出更好的数据驱动决策。
笔者认为,数据湖的数据治理体系包括元数据管控、数据资源目录、主数据管控、数据服务、数据全生命周期管理、数据质量提升及隐私与安全管理等内容。而这只是数据湖管理难题的一部分。
在数字经济时代里,从数据仓库到数据湖,不仅仅是数据存储架构的变革,更是大数据思维方式的升级。用好数据是企业数字化转型的关键、数据湖是数据分析智能商务的新趋势。
数据湖能给企业带来多种能力,数据湖结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力。数据湖将以数据治理为基础、依托一套自助服务为抓手的工具链来赋能业务发展。
数据集成平台产品更多介绍:www.finedatalink.com