1、业务数据库数据是否所有字段均为有效字段,是否需要全表所有字段抽取?
2、如没有明显的分区字段,比如时间。可采用全量抽取
3、如有明显的分区字段,可对接相关数据库开发管理员了解增量字段的选择,除此之外,如遇到状态字段,也需结合判断
4、确定建立分区,就要考虑增量抽数量级或者时间范围,因实时业务变动大,可能会存在补数行为,一般是热数据会出现这种情况。这样会导致数仓采集层数据比业务数据库数少。可传入一个时间参数,或者传入一个时间范围段。判断增量抽取热数据,稳不稳定,尽量确保其稳定性
5、判断是否是冷数据。如果是,且是补充历史数据,且量级大,则需要考虑是否采用压缩表。其中,要考虑两种情况,第一种,历史数据使用频次低,那么可采用直接压缩存储gzip;另一种,历史数据使用仍频繁,那么就需要采用可进行分区操作的压缩方式。
6、增加一个当前日期字段,以便判断调度是否有效执行
7、重复调度同一个时间范围作业时,考虑重复抽取时采用的是覆盖还是递增?