作者:finedatalink
发布时间:2023.7.28
阅读次数:702 次浏览
公司内使用多个系统,业务数据来自多个异构数据源,会带来多源异构数据的处理问题。想要搞清什么是多源异构数据,我们从以下两个方面对它进行分解:
多源:指数据的来源具有多源性。多源异构数据来自多个异构数据源,包括不同数据库系统和不同设备在工作中采集的数据集。不同的数据源所在的操作系统、管理系统不同(例如OA、CRM、HR、MES、SCM),数据的存储模式和逻辑结构不同,数据的产生时间、使用场所、代码协议等也不同,这造成了数据“多源”的特征。
异构:指数据种类及形态具有复杂性,即异构性。多源异构数据包括结构化数据、半结构化数据和非结构化数据。
①结构化数据:指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP、财务系统。
②半结构化数据:指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、E-mail等;
③非结构化数据:指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。
不同类型的数据在形成过程中没有统一的标准,因此造成了数据“异构”的特征。遇到异构数据源问题,可以使用数据集成工具来处理。
总而言之,在数字化时代下,大数据治理对企业数据建设的重要性不言而喻,然而实现的困难有时也让人望而却步,因此选择合适的技术和工具会达到事半功倍的效果。帆软FineDataLink——中国领先的低代码/高时效数据集成产品,能过为企业提供一站式的数据服务,通过快速连接、高时效融合多种数据,提供低代码Data API敏捷发布平台,帮助企业解决数据孤岛难题,有效提升企业数据价值。
数据集成平台产品更多介绍:www.finedatalink.com
上一篇: 做数据工程师一定要掌握ETL的应用,3个实用ETL工具请收好!下一篇: 一文搞清结构化和非结构化数据,这款数据融合工具太好用了!