决策不是基于数据或直觉,
而是基于数据和直觉。
~ 艾维.罗斯 ~
2022年11月OpenAI公司发布ChatGPT-3,它能理解问题并以通顺的语句回答,使用起来比百度、谷歌等搜索引擎更方便,人与机器间的沟通更自然。一时间AI风潮席卷全球,提供AI算力的芯片公司nVIDIA辉达执行长黄仁勋更称2023为AI元年。
这股AI风潮自然也吹向教育界。
以人为本AI
美国国家工程院、医学院、文理学院院士,斯坦福大学教授李飞飞在她的最新著作《AI科学家李飞飞的视界之旅》中提出以人为本AI的理念,这是她从建立ImageNet开始一连串AI研究后所总结出来的重要观点,她说:“AI作为工具十分强大,它跟我们过去发明的所有工具一样,对人类而言是一把双刃剑——用得好,便能改善我们的生活和工作;用得不好,便会带来有意或无意的伤害。关键在于人。”
以人为本AI理念对于教学上应用人工智能有着非常重要的指导作用。
Artificial Intelligence(AI)一词源于1955年达特茅斯大学助理教授约翰.麦卡锡(John McCarthy)等人向洛克菲勒基金会申请发起达特茅斯会议的计划书上,在近70年的发展过程中,不同技术路线带领人工智能经历上下起伏。人工神经网络(artificial neural network)是目前的技术主力,它是“受到生物学所启发,将一系列相连的决策单元采阶层式的排列”,最早出现于上世纪40年代,到了60年代末由于没有太多突破而逐渐沉寂下来。1975年反向传播算法(Backpropagation)的问世使它再次复兴,但没多久由于数据的缺乏而又沉寂了下去,“到了2010年代,神经网络技术早就像是布满灰尘的文物。”
神经网络技术植基于数据、算法和算力。李飞飞通过网络众筹方式创建了1400万张包含人工标注的图片数据集ImageNet,提供AI研究人员开发图片识别算法之用。在ImageNet每年一度的大规模视觉辨识挑战赛中,2012年AlexNet团队的卷积神经网络(convolutional neural network)技术取得重大突破,较第二名团队的辨识错误率低了10个百分点,奠定了日后以多阶层神经网络为基础的深度学习AI技术路线。
为什么要不厌其烦地介绍神经网络技术的发展呢?因为唯有我们理解它,才知道怎么用,如何用好它。
深度学习采用各种不同算法在深层神经网络进行运算,算法是大量的数学计算,需要多颗高速运算芯片同时工作来“生成”结果。要让AI能够生成结果,事先必须使用大量数据对多达数百层,每层包含成千上万个连接点(也被称为神经元)的神经网络进行训练(这是深度学习这个名称的由来),而要能正确生成结果就需要有高质量的训练数据(这也是ImageNet那1400万张经过人工标注图片数据集具有里程碑价值所在)。比如说,如果将图片中的“猫”标记成“狗”丢进神经网络训练,最终可能使AI将图片中的猫辨识成狗,对AI来说是正确的,但对人则是错误的。换句话说,训练AI模型是“垃圾进、垃圾出”(garbage in, garbage out)。
至于AI是如何辨识图片(包括生成文字等),如同李飞飞所说:“虽然我们能用某种理论、超然的角度来讨论神经网络,但神经网络内部究竟在每次调用时发生了什么事,却完全不透明。”换言之,神经网络就像个黑盒子,没有人能清楚说明AI认识、分辨和取得结果的过程。
正因如此,使用ChatGPT等生成式人工智能才会时不时地发现它会“一本正经的胡说八道”。
带着对人工智能的认识,再来看看教学场景中的AI应用。
教学中常见的AI应用
ChatGPT使用语言模型技术,属于生成式人工智能。在它爆火之后,各种大型语言模型(Large Language Model)如雨后春笋般冒出头来。我们其实不知道这些大语言模型是不是做了足够的人工标记训练而成,但这却是风险所在!
课堂上让学生在计算机、平板等设备上使用生成式人工智能的前提是,学生要懂得分辨AI生成结果是否是可信赖的,而这需要足够的知识储备和判断能力,否则“尽信书不如无书”。教师必须在教学中让学生充分体会和理解人与机器一起工作的方法,习得人机协作的技能,这比通过AI获得问题解答更重要。
对教师来说,生成式人工智能固然可以自动生成一份教学活动设计,但全盘照收恐怕不见得合适,因为教学实际上是非常个性化的,每个班级的学生组成不同,教学起点和课堂反应可能天差地别,直接引用AI教学设计很难适合不同班级的学生需求。当然教师也可以先提出清晰、明确的要求(也称为AI提示语),让AI生成一份初始教学设计,再依据学情自己动手修改、优化。
如果请AI协助设计特定的课堂环节,则通常会得到不错的效果。比如课堂上想让学生练习后上台表演,并让全班同学给予评价,但一时想不出比较全面、有效的评价标准,这时就可以请AI来帮忙想想办法:
教师:
请提供一个评价五年级学生在英语课堂上表演的评价标准,至多5项,5项的总分为9分。每项标准若占分超过1分,请说明如何的表现得1分,如何得2分等。
ChatGPT:
当评价五年级学生在英语课堂上的表现时,以下是至多5项,总分为9分的简化标准:
口语表达 (2分):
1分:表达含糊,发音和语法错误颇多,难以理解。
2分:表达相对清晰,有些许发音或语法小错误,但不影响基本理解。
语言运用 (2分):
1分:词汇和句型使用不当,语言表达能力有待提高。
2分:语言使用基本正确,能恰当运用词汇和句型。
沟通能力 (2分):
1分:沟通效果不佳,缺乏与观众建立联系的能力,可能缺乏肢体语言和表情。
2分:能有效传达信息,与观众建立一定联系,使用了适当的肢体语言和表情。
表演技巧 (2分):
1分:表演技巧不足,生硬呆板,缺乏生动感,声音、表情和动作不够丰富。
2分:能够较生动自然地表演,利用了声音、表情和动作,但还有进步的空间。
准备与自信 (1分):
1分:准备还算充分,表现时有些紧张,但展现出一些自信的态度。
这样的标准可以依照学生的实际表现,对每项标准进行评分。得分可以在每个标准的描述中找到相对应的表现特点。
ChatGPT的这份评价标准基本上已经能直接在课堂上使用,当然也可以进一步优化它,让它更符合预设的教学目标。
与AI教学决策助理协作
除了课前利用生成式人工智能助力教学设计外,课中与“AI教学决策助理”协作也能提高教学效率和学习成效。
“AI教学决策助理”用于课堂上教师提问学生答题后,教师根据反馈数据决定接下来的教学活动安排。教师执行教学策略后,学生的答对率提高,可以视为这是一个质量较佳的决策,答对率提高越多表示决策的效果越好。例如下图中教师提问后学生答对率是仅略高于一半的52%,此时教师可以采取不同的教学策略,包括①自己把正确的解答和解题方法讲一遍;②选择不同答案的学生把自己的答案和理由说给全班同学听,由同学自己思考判断;③采用同侪教学法,组织学生开展小组研讨,轮流把自己的答案和想法说给小组同伴听,再一起交流研讨。图中这段课堂记录显示老师采用的是③:倒计时3分钟的同侪教学,再进行二次作答。从结果可以看到正确率由52%提高到95%,效果非常好。
“AI教学决策助理”和生成式AI不同,它不生成文字、语音或绘图,而是提供教学步骤建议。它的训练是从课堂教学行为大数据中筛选出优质的决策数据,经过人工标记后,采用深度学习技术训练而成。为什么需要人工标记呢?因为教学决策除了单纯从数据的角度审视外,还须同时思考与认知科学和教学法的结合。
训练好的“AI教学决策助理”好似具有吸星大法一般,把许许多多具备高效优质决策经验的教师吸纳在一起,在适当时候提供决策建议。至于AI建议的教学步骤是否采纳,或只部分采纳,要由教师在现场参酌学情来决定。
即使课堂上未采用AI建议,课后也可以从课堂记录中再次查看AI提供的教学步骤,对比并反思自己当时的决策与AI建议的差异,从中积累更多更好的决策经验,提高未来教学决策质量。
诺贝尔奖得主丹尼尔.卡尼曼在他的新作《噪声》中指出人总是自信地作出决策,但研究显示“自信并不能保证准确,而且很多自信的预测结果都是错误的。”而“好的决策必须以客观、准确的预测性判断作为基础,完全不受希望和恐惧的影响,或是受偏好和价值观左右。”AI助理能提供客观判断的决策建议,通过人机协作模式,结合数据和经验,提高教学决策的准确性和成效,打造AI时代教学的新样态。