作者:finedatalink
发布时间:2023.8.7
阅读次数:329 次浏览
数仓调度(Data Warehouse Scheduling)是指在数据仓库环境中,通过指定计划和规则来自动化执行数据处理和数据集成任务的过程。它涉及到调度程序或工具使用预定义的时间表来触发、协调和监控数据仓库中的各项任务,以确保数据的及时和准确性。
对于企业来说,数仓调度配置是必不可少的一环。通过数仓调度配置,可以实现数据的更新同步,从而让数据持续地应用在业务中。
比如,对于一家销售公司而言,其数据涉及多个部门,包括销售和财务等,这些数据分别存储在接口数据和业务系统对应的数据库中。
为了实现对数据仓库的有效管理,该公司需要进行一系列数据调度任务,包括:
· 将接口和数据库中的底层数据同步落地至指定数据库,形成数据仓库 ODS 层数据,并按照一定的时间(例如每周一次)定期更新数据;
· 将数据仓库 ODS 层数据定期同步更新到 DW 层,保证中间层数据的数据时效性和准确性;
· DW 层数据同步更新到 DM 层,供其他的可视化报表展示工使用。
通过这些数据调度任务的执行,企业可以保证数据的完整性和及时性,为业务决策提供更加可的数据支持。
实现数仓调度任务需要考虑多个方面。
首先,需要将各个业务系统的原始数据使用 FineDataLink 抽取至数据仓库 ODS 层。针对这一操作,我们选择使用「先清空目标表再写入数据」的写入方式,以确保在读取大量历史全量数据时,能够保证写入效率和性能的最佳。
其次,我们需要将 ODS 层数据表中新增部分,写入到 DW 层数据表。针对这种数据量较少的情况,我们选择「直接将数据写入目标表」的写入方式,以保证数据写入操作的高效性和稳定性。
最后,我们需要将 DW 层的数据进行汇总,集中至 DM 层数据表。注意,由于 DM 层的计算逻辑需要基于历史全量数据进行,这意味着数据量较大。因此,针对这种情况,我们会选择使用「指定比对字段,比对字段遇相同值,覆盖目标表数据」的更新方式,以保证数据更新的准确性和实时性,形成可供直接分析的结果数据。
需要注意的是,针对不同的数据写入和更新操作,FineDataLink提供了多种不同的方式和技术支持。用户可以根据实际数据情况选择合适的更新方式,以确保数据处理的高效性、稳定性和准确性。
FineDataLink中的数据处理过程,详情参见:https://demo.finedatalink.com/ 「场景案例>数据仓库场景」下的「01数据仓库调度示例一」文件夹。
任务设计效果如下图所示:
任务层级如下图所示:
实现数仓调度任务需要配置多个不同的任务,包括数据仓库ODS层任务、数据仓库DW层任务和数据仓库DM层任务等。以下是具体的操作步骤:
1. 设置数据仓库ODS层任务: 首先,需要将来自接口数据的「财务数据」和存储在固定数据库的「销售数据」通过 FineDataLink 落库至指定数据库。针对这个任务,我们可以使用参数和调度任务,在指定的时间间隔内,进行数据仓库ODS 层定时任务更新,并且可以通过发送消息通知等方式进行任务管理和监控。
2. 设置数据仓库DW层任务:DW 层任务可以将 ODS 层数据中更新的部分数据同步至 DW 层数据中,保证 DW 层的数据时效性和准确性。在进行任务设置时,需要注意,如果已有的 DW 层数据中最新更新时间(比如最新的销售时间)晚于 ODS 层数据中的时间,即 ODS 层有新数据生成,需要将其同步至 DW 层中,并记录更新的开始时间和结束时间。通过发送消息通知等方式,可以进行任务管理和监控。
3. 设置数据仓库DM层任务:DM 层任务需要将 DW层的销售数据和财务数据进行关联,合并成宽表并输出至指定数据库,为其他报表等可视化工具提供数据源。针对这个任务,我们可以使用合适的更新方式(例如指定比对字段、覆盖目标表数据等),保证数据处理的高效性和准确性。
4. 设置总调度任务:在进行以上三个任务设置之后,可以将 ODS、DW、DM 层的数据调度任务组合在一个总调度任务中。通过调用任务的形式,可以方便地进行任务管理和监控,确保数据处理的高效性和稳定性。
需要注意的是,如果希望可以执行数仓调度的定时任务,可以使用定时任务调度配置进行操作。可以设置不同的时间间隔、并行执行数量、任务优先级等调度参数,以及对任务执行结果进行监控和报告等管理操作。
设置好以上任务后,即可运行任务「调度总任务」,消息通知任务运行情况:
任务执行日志中将出现任务运行的相关记录,如下图所示:
很显然在目前的信息时代,借助类似于FineDataLink的这些工具,可以让企业加速融入企业数据管理、集成和分析的趋势。它小到数据库对接、API对接、行列转换、参数设置,大到任务调度、运维监控、实时数据同步、数据服务API分享,应有尽有,功能很强大。最重要的是,因为这个工具,整个公司的数据架构都可以变得规范。
数据集成平台产品更多介绍:www.finedatalink.com
上一篇: 这些ETL计算引擎,让数据处理开挂!下一篇: 数据调度稳定性不达标?这两种方法一步到位