问题描述:下面左边是大表,右边是小表。现在要从小表中check是否每行都在大表中对应一样的出现过。假设大表数据很多(十万条,6列),小表700多条。可以采用本文提及的方法进行配对筛选。
这里主要分成两步,先把大表中与小表ID一样的行找出来放进一个table里面,这样的目的是大大减少冗余行数进行下一步的匹配。流程图如下所示。
这里稍微提及一下Join这个功能,其余的在前面的第4节提及过,注意一点就是匹配的字段是要加“”的。如下图所示。
再看看Sequence里面的内容,主要是把CHECK表提出来。
接下来的部分是循环匹配的过程,与上一节的方法基本相同。
这里补充一下现实情境中的使用情况,和图7不一样的是放了三个if语句如图8所示。
最后是结果图,下图所示。在C列中标出在大表中匹配得上的行。
本节的重点在于利用Join去缩小表,再进行匹配优化流程提高效率节省匹配空间。