作者:finedatalink
发布时间:2023.8.7
阅读次数:569 次浏览
实践数据管理过程中,数据分类是一个重要的步骤。数据分类是将数据按照一定的规则和属性进行划分和组织,以便更好地理解、管理和利用数据。
在阅读《华为数据之道》时,我发现华为把业界的数据分类基础与自身多年的实践相结合,形成了完整的数据分类管理框架。其中,华为根据数据特性及治理方法的不同对数据进行了分类定义,如下图。接下来和大家分享一下我阅读后的思考。
华为数据分类管理框架
企业通过公共领域获取的数据,例如政府部门公开数据、社交媒体数据、市场研究数据等。外部数据是客观存在的,其产生和修改不受企业影响。
外部数据的特点包括:数据量大、异构性高、质量参差不齐、易受影响而波动不定。
企业需要在处理外部数据时注意以下难点:数据源的可靠性及其监管、数据质量的保障、异构性和格式转化、数据实时更新和动态监控。
为应对这些问题,企业可以采用数据挖掘、数据清洗、数据融合和数据建模等技术,以及建立数据质量评估体系、对数据源进行风险评估,以确保应用可靠、准确和有效。
在企业的业务流程中产生或在业务管理规定中定义的数据,受企业经营影响,如合同、项目等。
内部数据的特点包括:质量较高、结构化程度高、与业务关联度密切、受企业影响较大。
企业需要注意以下难点:数据安全管理、数据质量的监管、数据的整合和更新、数据的可视化和应用。
企业可以采用数据保护、访问控制、加密等技术,确保数据的安全性;同时,应建立数据质量度量和监控机制,对不符合规范要求的数据进行及时纠正。此外,结合具体业务需求,应建立适合业务管理和决策的数据应用系统,以提高数据的可视化和应用水平。
内部数据举例-合同
结构化数据是指按一定规则组织、格式化和存储的数据,用二维表结构来进行表达和实现。因其具有格式明确、易于管理和处理、可按序列存取等特点,广泛应用于企业的信息系统和数据库中。
基础数据、主数据、事务数据、报告数据、观测数据和规则数据都是结构化数据的典型例子,这些数据种类共同的特点是根据一定的信息架构进行管理,并建立了统一的数据资产目录、数据标准和数据模型。这种规范管理方式为企业提供了清晰的数据明细、便于数据管理和交换、准确的数据识别和应用等优势。接下来逐一进行介绍。
数据分类思维导图
(1)基础数据(Reference Data)
基础数据是指在整个企业中被广泛使用和共享的数据,如常用词汇、代码和合同数据等。
基础数据的特点包括:具有唯一性、稳定性、普遍性和规范性,而且通常有一个可选的范围。
企业需要注意以下难点:数据可靠性、数据一致性和数据更新与同步。
为应对这些问题,企业可以采用数据管理平台、数据管理流程和数据标准化等措施,确保数据的及时更新和正确使用。
(2)主数据(Master Data)
主数据是指企业的核心业务数据,可以在企业内跨流程、跨系统被重复调用,如客户、产品和人员基础配置等。
主数据的特点包括:具有业务较强的关联性、独立性(取值不受限于预先定义的数据范围)和可追溯性。
在主数据中进行合理分类、存储和管理可以提高业务流程的效率和准确性。
主数据举例-人员基础配置
(3)事务数据(Transactional)
事务数据是指记录企业经营过程中产生的业务事件,例如订单、交易和生产计划等。
事务数据的特点包括:具有易变性和时效性,无法脱离主数据独立存在。
企业需要注意以下难点:数据及时性、数据准确性、数据缺失和数据重复。
企业可以采用数据采集、数据清洗和数据标准化等技术,保证事务数据的正确性和完整性。
(4)观测数据(Observational Data)
观测数据是指实验或测试中记录的数据,例如运营日志、物联网数据等。
观测数据的特点包括:数据量较大、数据来源复杂、数据是过程性的。
企业需要注意以下难点:数据转换、数据融合和数据可视化。
为应对这些问题,企业可以采用例如FineDataLink的自助式数据管理工具,对观测数据进行监控、分析和转换。
FineDataLink的监控功能
(5)规则数据(Conditional Data)
规则数据是指基于数据特征进行分类、归纳和推理所形成的规则,例如员工住房补贴规则等。
规则数据的特点包括:数据量较大、数据质量较高、数据类型复杂。
企业需要注意以下难点:数据量大、规则数据可能包含敏感信息。
为应对这些问题,企业可以通过数据清洗、整合和转换等方式,提高数据的质量和准确性,并对规则数据进行分类和加密。
(6)报告数据(Report Data)
报告数据是指对数据进行处理加工后,用于业务决策依据的数据,例如企业的收入、成本等。这类数据通常被整合成报表或者仪表盘等形式,以便于数据接收者获取信息。
报告数据的特点包括:数据来源多样化、数据类型较为简单、数据质量较高。
企业需要注意以下难点:报表设计、数据标准化和数据可视化。
为应对这些问题,企业可以采用数据可视化工具对报告数据进行展现,例如FineReport和FineBI。同时要进行数据标准化,确保不同部门和人员获取到的数据保持一致。
FineReport数据展现
半结构化数据指的是可以使用标签、元素、属性等方式来描述数据的格式,如XML、JSON、HTML等。
半结构化数据通常需要通过特定的解析引擎对数据进行处理和分析。
非结构化数据是指缺乏格式和结构性的信息,如文本、音频和视频等。
非结构化数据的特点包括:数据量大、格式自由、无法用关系型数据库存储。
FineDataLink提供了强大的异构数据源处理技术,可以通过快速连接、高时效融合三十多种格式和结构的异构数据源。具体来说,FineDataLink支持对异构数据源进行数据关联、字段设置、行列转换、JSON解析、对比删除等功能,以以满足多种场景下的异构数据源处理需求,可以显着降低开发人员、数据分析师和研究人员的工作量,提高数据处理的效率和准确性,帮助企业更好地管理和分析数据。
FineDataLink异构数据源关联功能
元数据是指描述数据的数据,记录了数据本身的信息,如数据结构、业务信息等。元数据主要从数据特征、管理、使用、技术和业务等方面进行描述,可以帮助企业对数据进行准确、完整、一致性的管理,是企业数据资源管理的重要支撑。
元数据与直报系统联系图
数据字典是指系统或应用中使用到的各种数据对象的定义、属性和关系的说明文档。
数据字典通常由系统管理员或数据管理员维护,可以对数据的结构进行统一定义和规范化管理,使得数据的使用和管理更加规范、便捷和安全。
数据字典
以上就是我对基于数据特性的分类管理框架的思考,欢迎大家进行探讨。很显然在目前的信息时代,借助类似于FineDataLink的这些工具,可以让企业加速融入企业数据管理、集成和分析的趋势。它小到数据库对接、API对接、行列转换、参数设置,大到任务调度、运维监控、实时数据同步、数据服务API分享,应有尽有,功能很强大。最重要的是,因为这个工具,整个公司的数据架构都可以变得规范。
数据集成平台产品更多介绍:www.finedatalink.com
上一篇: 这些好用的数据清洗工具,你不知道太可惜了下一篇: 这些ETL计算引擎,让数据处理开挂!