作者:finedatalink
发布时间:2023.9.8
阅读次数:242 次浏览
数据湖和数据仓库有什么区别吗,以及想要建数据湖应该怎么做呢?
数据湖作为一个集中的存储库,可以在其中存储任意规模的所有结构化和非结构化数据。在数据湖中,可以存储数据,不需要对其进行结构化,就可以运行不同类型的分析。
那他和数据仓库有什么区别吗?形象的说,如果说数据仓库里是瓶装的水——是打包好的、方便取用的;数据湖里面就是原生态的水——它是未经处理的。数据湖中的水从源头流入湖中,各种用户都可以来湖里获取、蒸馏提纯这些水,也就是数据。
数据湖技术门槛较高,标准化水平却不高。总结下来有六大技术特点,包括(1)批流一体的数据处理(2)支持数据更新(3)支持事务(ACID)(4)可扩展的元数据(5)支持多种存储引擎(6)支持多种计算引擎等等。
可以补充下内容:
(1)批流一体的数据处理
批流一体的数据处理,可以解决离线数据处理更新问题和实时数据更新,满足多种场景的下的ETL数据处理场景,就比如FineDataLink数据集成平台,集流批数据处理于一体,从而提高数据获取的速度和质量。
(2)高效的并发更新能力
在数仓/数据湖中,经常需要对数据进行更新,需要支持对大批量离线数据做更新删除。
(3)支持事务(ACID)
数据湖需要兼具OLTP能力(事务能力)和OLAP能力(分析能力),那么其中事务的原子性、一致性、隔离性和持久性,无论是单机环境还是分布式环境,这4大要素都是就是需要兼备的,以保证OLTP能力的正常发挥
(4)统一可扩展的元数据和权限
湖仓一体时,需要元数据和权限统一的情况下也支持可扩展。
(5)提供高性能查询
数据湖能很好地优化数据分布,例如分布式数据库的行列存储、分布键,提供稳定高效的数据查询,从而很好的支撑业务的数据使用查询。
(6)支持多种高效的计算引擎
在数据进行了同步后,进一步还需要进行DW、DM层等的数据处理,例如MapReduce、spark、flink等。
对于大多数企业,如果要为这些技术去找特定应用场景,并不是很好找,不信你找找看,即使找到了,估计用到其中的1-2个技术能力就可以了,而满足1-2个条件的肯定有其他的替代品。
总之,“没有强大的数据处理能力就别用数据湖”,即使要采用数据湖,也要注意实施难度,因为数据湖为了达成那六种技术能力,需要用到一种存储中间件,对下统一对接各种存储,对上统一对接各种技术引擎,这实在是太折腾了。
所以要实现数据湖的话,可以先考虑好真正需要的是什么技术,精准实现,而不是下饺子不管三七二十一。
总而言之,在数字化时代下,大数据治理对企业数据建设的重要性不言而喻,然而实现的困难有时也让人望而却步,因此选择合适的技术和工具会达到事半功倍的效果。帆软FineDataLink——中国领先的低代码/高时效数据集成产品,能过为企业提供一站式的数据服务,通过快速连接、高时效融合多种数据,提供低代码Data API敏捷发布平台,帮助企业解决数据孤岛难题,有效提升企业数据价值。
数据集成平台产品更多介绍:www.finedatalink.com
上一篇: 两个方法实现实时数据同步,其中这个超简单下一篇: 三大ETL工具优缺点一文解读