数据融合是否只能融合格式相同的数据？

作者：finedatalink

发布时间：2023.9.7

阅读次数：289 次浏览

当然不是。数据融合同构数据处理，一般来说在数据库内部就能完成，除了同构数据处理，当然还有异构数据处理。

一、多源异构数据

多源异构数据来自多个数据源，包括不同数据库系统和不同设备在工作中采集的数据集等。不同的数据源所在的操作系统、管理系统不同，数据的存储模式和逻辑结构不同，数据的产生时间、使用场所、代码协议等也不同，这造成了数据“多源”的特征。

二、多源异构数据分类

多源异构数据分为3种：结构化数据、半结构化数据和非结构化数据。

1、结构化数据：是指关系模型数据，即以关系数据库表形式管理的数据；

2、半结构化数据：是指非关系模型的、有基本固定结构模式的数据，例如日志文件、XML文档、JSON文档、E-mail等；

3、非结构化数据：是指没有固定模式的数据，比如说WORD、PDF、PPT、EXCEL及各种格式的图片、视频等。

不同类型的数据在形成过程中没有统一的标准，因此造成了数据“异构”的特征。

三、多元结构化数据融合

针对多元化的结构化数据融合，主要关注在数据的ETL处理以及时效性上：

1、表结构不同，需要做到不同类型的字段映射；

2、假如要新增表字段的时候，需要新增列；

3、若有表字段需要进行二次处理规范，需要支持字段转换，比如公式或其他；

4、新增表设计时，需要保证三大范式；

5、数据同步的时效性，例如半小时一次、或者一天一次、或者说是需要实时同步融合，这个要根据具体业务场景来确认。

四、半结构、非结构化数据融合

然而针对半结构、非结构化的数据的利用则没有那么好，因为数据分散，甚至没有统一的进行管理。目前有两种方式来处理半结构、非结构化数据：

1、提取半结构、非结构化数据种的关键信息到结构化数据中进行二次利用，比较好处理的是半结构化（json、xml）、excel、csv，因为这种数据的结构比较统一。

2、向word、PDF这种文件的关键信息提取，假如是单个文本的话，市面上可能有些工具可能实现，但假如是大批量的话，可能就需要通过程序，去自定义一些正则表达式，去进行关键信息的提取。这种一般来说，因为格式不一致，以及用途不一致，所以程序自定义的比较多。

针对这种的话，会综合考虑数据价值和投入产出比，因为这部分的数据处理较为复杂。

另外，如若这部分历史文件的需要做到备份的话，会通过FTP或者SFTP将文件进行备份存储到文件服务器，进行文件业务分类、文件名、路径的统一管理，提供统一入口，通过权限管理的方式给到大家下载使用。

FineDataLink可以支持结构化和半结构化数据的融合集成，面向ETL数据处理场景，让数据编排更加简单，提高数据的使用价值。

FineDataLink是一款低代码/高时效的数据集成平台，它不仅提供了数据清理和数据分析的功能，还能够将清理后的数据快速应用到其他应用程序中。FineDataLink的功能非常强大，可以轻松地连接多种数据源，包括数据库、文件、云存储等，而且支持大数据量。此外，FineDataLink还支持高级数据处理功能，例如数据转换、数据过滤、数据重构、数据集合等。使用FineDataLink可以显著提高团队协作效率，减少数据连接和输出的繁琐步骤，使整个数据处理流程更加高效和便捷。