暑期带了几个学生做自动排课系统。系统以高校为假想服务对象,要求安排好一所高校一学期的课表,包括公共必修课、专业必修课、公共选修课、专业选修课。系统要求在满足教室、老师、学生各自不存在冲突、教室资源符合课程需要等基本前提(硬约束)下,尽量满足一系列优化条件,比如:学生的选修课冲突课时数、老师所带的课程是否是他经常带的课程、老师个人的要求,比如星期几不上课等等。
解决这种优化问题,常用的是遗传算法。关于遗传算法,网上有很多介绍。我这里就简述一下这个算法在自动排课系统中的应用。
编码
应用遗传算法解决实际问题,第一步当然是选择一个合理的编码方案。我们希望能够把整个课表表示为一个二进制串,同时,我们也能够把一个二进制串解码成一个课表。
我们以“课程班级”为基准进行编码。所谓“课程班级”就是指某个班上的某个课。比如19级软件工程1班上的《高等数学》,这就是一个“课程班级”的概念。显然,每个课程班级需要分配一个老师、单双周、每周的上课时间与教室,开始上课的周编号。
---- 我们可以给老师10个二进制位,这最多可以表示1024个老师,已经不少了。然而,这样对老师编码是不科学的。比方说,这个学校虽然有1024个老师,但是具体到《高等数学》这门课,可以带的老师数量就非常有限了。对于任一课程,我们都有一个可以带这门课的老师列表,并给这个列表的老师从0开始编号。我估计,这样编码的话,5个二进制位足够了。这种编码的好处是,任意随机生成的老师一定是符合条件的。
---- 有些课程分单双周,有些课程不分。这些应该不需要编码,而是直接从输入文件中提取的。但是,如果区分单双周,我们需要设定究竟是单周还是双周上课。因此我们用1位二进制来表示这个信息。比如0表示单周上课,1表示双周上课。而如果某个课程班级不区分单双周,则解码时无视这个信息
---- 我们假设每个星期上五天课,每天5节大课(每节大课实际上代表2个课时)。这样,每节课的时间用5位二进制来表示
---- 我们可以假设教室也是10个二进制位,这最多可以表示1024个教室,也不少了。然而,与老师的编码一样,这样粗糙地对教室进行编码也是不科学的。任何一门课程都有基本的教学资源需求(比如投影仪、试验设备等等),对于任何一门课程,都有一个可用教室列表,我们按这个列表来编码更科学。其优点是,任意随机生成的教室一定是符合这门课程要求的。这种编码方案下,我们也可以用10个二进制来表示教室,当然具体数值需要根据实际问题而定。
---- 一节大课于是就是15位二进制,前5位代表时间、后面10位代表教室。每个课程班级周学时是固定的。比如每周2个学时的话,就是15位二进制表示每周的课;4个学时的话,就是30位二进制表示每周的课,等等。
---- 绝大多数课程以第一周开始上课,有些课程以春夏学期的夏学期或秋冬学期的冬学期开始上课,区分单双周的课程还可能从第2周或者夏冬学期的第2周开始上课。
这样我们一个课程班级就编码完成了。而把所有的课程班级的基因放在一起就是一个完整的课表。虽然每个课程班级的基因段长短不一,但是,最终整个个体的基因长度是一样的。
有了上面的分析,编码、解码都不是问题了。接下来就是初始化了。
初始化
遗传算法中基因的初始化常常是随机初始化。比如一个课表总长是1000个二进制位,我们随机设定这1000个二进制位(0或1)。这样做可能很多时候这个基因并不满足基本的硬约束要求。这种不合格的个体我们直接予以放弃。我们通常需要随机生成1000个乃至更多个个体,这就是第一代种群。
当然,如果实际问题中,某个资源比较紧张(比如老师数量少,或者教室少,这样极容易出现冲突而不满足基本硬约束),我们这种方案可能要经历比较长的时间才能以随机的方式找到一个合格的个体。极端情况下,资源紧张到理论上只存在一两个可能的合法解,这种情形下就完全不可以使用我们这里的遗传算法方案了。
实际问题中,如果某个资源比较紧张,我们还可以采取一些“改良”的策略。一个基本的策略就是减少资源争夺。比如《高等数学》的老师非常少,那么如果某个老师既可以带《高等数学》也可以带《概率与统计》,那么我们可以限定他只带《高等数学》,以避免资源的争夺。另一种策略是使用其他算法,比如贪心算法,先解决好存在冲突的资源。当然,这种情况下,程序又要复杂很多了。
打分
我们需要对每一个个体进行打分。这个打分通常需要考虑到需求方的要求。比如需求方更倾向于老师带自己熟悉的课,那么我们就需要提高相应分值的权重。打分的要求是每个个体的分值差异不应该太大。比如有些个体1000分,有些个体1分,这样的分值分布非常不合理。我们不希望见到极端大或者极端小的情形。因为我们接下来需要将分值进行归一。
所谓归一,就是说每个个体的最终归一得分就是它的原始得分除以种群所有个体原始得分的总和。这样,最终,所有个体的得分之和是1。
选择、交叉与变异
有了得分之后,我们就可以进行选择。采用轮盘赌的方案来随机选择两个个体。所谓轮盘赌,是指你随机从0到1生成一个数字,遍历个体,每个个体的得分依次相加,总得分第一次大于刚才生成的随机数时,就选择当前这个个体。轮盘赌的选择算法能够确保个体被选中的概率大小由它的得分高低决定,得分越高的个体被选中的概率越大。
我们采用这种方法选择两个不同的个体,然后将个体的基因进行交叉、变异操作,生成两个新的个体,也就是子代。如果子代个体不满足基本约束条件,那么予以放弃。我们用这样的算法生成1000个子代个体。
我们还可以把上一代的最优个体直接放入下一代,确保当前的最优基因不会丢失。这有助于加快算法的收敛。
重复这样的步骤,直到算法不能再产生更优的个体为止。