- FineDataLink数据集成客户案例

大数据中结构化数据和现在的非结构化数据的区别在哪？其实理解了这两者的逻辑就能搞懂其间区别。

结构化数据、非结构化数据和半结构化数据

①结构化数据:结构化数据指关系模型数据，即以关系数据库表形式管理的数据，结合到典型场景中更容易理解，比如企业ERP、OA、HR里的数据。 ②非结构化数据:非结构化数据指数据结构不规则或不完整，没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。其实除了结构化数据和非结构化数据，还有一类是半结构化数据,那什么是半结构化数据? ③半结构化数据:半结构化数据指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、E-mail等。

要如何处理这三种异构数据?

1、针对多元结构化数据的融合，主要关注在数据的ETL处理以及时效性上: ①表结构不同，需要做到不同类型的字段映射 ②假如要新增表字段的时候，需要新增列 ③若有表字段需要进行二次处理规范，需要支持字段转换，比如公式或其他 ④新增表设计时，需要保证三大范式，这里就不展开讲了，可参考:数据库三大范式 ⑤数据同步的时效性,例如实时同步、半小时一次、或者一天一次、或者说是需要实时同步融合，这个要根据具体业务场景来确认。 2、针对半结构化、非结构化数据，因为数据分散，缺乏统一-管理,需要借用专业数据融合工具 目前有两种方式来处理半结构、非结构化数据: ①提取半结构、非结构化数据中的关键信息，到结构化数据中进行二次利用，比较好处理的是半结构化(json、xml)、excel、csv，因为这种数据的结构比较统一。②向word、PDF这种文件提取关键信息，假如是单个文本的话，市面上有些数据融合工具可能可以实现，但假如是大批量的话，可能就需要通过程序，去自定义一些正则表达式，去进行关键信息的提取。这种一般来说，因为格式不一致，以及用途不一致,所以程序自定义的比较多。针对这种的话，会综合考虑数据价值和投入产出比，因为这部分的数据处理较为复杂。若想提高投入产出比，可用例如FineDataLink这类专业数据融合工具，去支持结构化/半结构化数据的融合集成，面向ETL数据处理场景，也可以让数据编排更简单一些,提高数据的使用价值。另外，如若这部分历史文件需要做到备份的话，会通过FTP或者SFTP将文件进行备份存储到文件服务器,进行文件业务分类、文件名、路径的统一管理提供统一入口，通过权限管理的方式给到大家下载使用。总而言之，在数字化时代下，大数据治理对企业数据建设的重要性不言而喻，然而实现的困难有时也让人望而却步，因此选择合适的技术和工具会达到事半功倍的效果。帆软FineDataLink——中国领先的低代码/高时效数据集成产品，能过为企业提供一站式的数据服务，通过快速连接、高时效融合多种数据，提供低代码Data API敏捷发布平台，帮助企业解决数据孤岛难题，有效提升企业数据价值。

一文搞清结构化和非结构化数据，这款数据融合工具太好用了！

结构化数据、非结构化数据和半结构化数据

要如何处理这三种异构数据?

目录

相关案例

某电信工程局

安特威

惠科股份有限公司

用FineDataLink串联您的企业数据，数据成为生产力

和30000+企业共同开启大数据分析之旅