人工智能语言大模型赋能教学测评方法的改进研究

来源:专题范文时间:2024-10-26 16:00:03

张艳超，赵杰，徐昊宇，王家栋

（1.丽水学院，浙江丽水 323000；
2.丽水碧湖中学，浙江丽水 323000）

当前，基于核心素养、新三维目标、素养本位评价的新课程改革正如火如荼地进行，传统的教学测评显然已不能很好地满足21世纪信息时代的教育要求。随着人工智能技术的快速发展，文心一言、讯飞星火等生成式人工智能语言大模型日益成熟，可以对不同领域和场景的问题进行高质量、灵活性、创新性输出。通过翁英相[1]、高宇[2]、洒进明[3]、李锋[4]等学者关于人工智能在教育教学方面应用的研究成果，可知人工智能已经成为一种重要的辅助教学手段，探究基于人工智能语言大模型的教学测评模式正在成为教学实践领域的研究热点。

（一）人工智能语言大模型

根据中国互联网络信息中心（CNNIC）在京发布第52 次《中国互联网络发展状况统计报告》显示，截至2023 年6 月，我国网民规模达10.79 亿人。ChatGPT、文心一言、讯飞星火、通义千问等易于使用的生成式人工智能语言大模型的横空出世，标志着人工智能技术已经进入到弱人工智能的高级发展阶段，人工智能语言大模型（Artificial Intelligence Language Large Model）是指那些在大规模文本语料上训练、包含百亿级别（或更多）参数的语言模型[5]，这些模型通常采用Transformer 架构和预训练目标（如语言建模），并利用大量的计算资源进行优化。大语言模型特点是能够在效果显著提升的同时，展示出许多小模型不具备的特殊能力（如上下文学习能力、指令遵循能力、逐步推理能力等）。这些能力也被称为语言大模型的“涌现能力”。袁毓林主张要以审慎乐观的心态去对待语言大模型，其具有巨大的潜力和能力，可以采取多学科合作共同推动其发展[6]。

（二）教学测评方法

目前，教学测评的重点主要集中在“测”与“评”两部分。其中“测”指的是通过一定的方法和工具，对教学过程和成果进行测量，主要包括两个方面：一方面是教师对自己教学内容的测验即教学目标的设定、教学内容的选择、教学重点和难点的把握等内容，主要通过学生学情分析、教学目标要求、阅读相关书籍等方式来实现；
另一方面是教师对学生的学习过程和结果的测验，包括学生的学习态度、知识掌握程度、技能提升水平、思维能力发展等方面，主要通过日常观察、课堂互动、作业考试等方式来实现。教学测评的“评”含义是评价教学成效，即考核教学成效也就是考察教学目标的完成情况，检测学生内在的能力与品格等的形成状况。“评”的目的是准确把握教学目标的完成情况，以进一步修订教学内容，改进教学方法，提高教学效果。从我国当前教育改革研究的进展来看，绝大多数学者都认为核心素养与双基存在紧密联系，教师常用的教学测评方法还是以教学测验为主，主要是通过考试测验、作业评价的方式对学生进行评价。

（三）基于语言大模型的教学测评方兴未艾

生成式语言大模型的应用已经成为开展教学测评的重要辅助工具，发挥着不可或缺的中介作用。首先，借助语言大模型技术辅助教学测评可以提高测评的多样性和实效性。例如，通过自然语言处理和机器学习等技术，语言大模型技术可以帮助教师缩短教学交互响应的时间、提供丰富的测评资源类型、个性推荐等，从而提升教学效果。语言大模型可以帮助学生实现自主学习，例如自动翻译、智能问答，从而进行查漏补缺，更好地掌握知识。智能化测评可以实现自动化地批改作业、考试和课堂观察等任务，并进行分析和报告，这可以极大减轻教师的工作负担，提高教学测评的效率和准确性。其次，教学测评方法也可以利用语言大模型进行评估，通过语言大模型的输出结果，教师可以判断学生的学习效果从而调整教学策略，同时语言大模型的输出结果也可以作为学生的学习档案，记录学生的学习过程和进步情况。再次，通过收集和分析学生的学习行为、学习曲线、答题记录等数据，语言大模型可以评估学生的学习状态、擅长和薄弱领域等方面的信息，进而为教师提供有针对性的教学建议和改进方案，可以帮助教师更好地了解每个学生的学习进度和难点，有针对性地为每个学生提供辅导和支持，提升学生的学习效果。

据调查显示有92.23%的教师感到目前的工作负担过重，只有7.77%的教师认为当前的工作负担程度适中或较轻[7]。教师需要一个能够帮助他们了解学生的学习状况和问题的教学测评，而不是仅仅依赖于自己的主观判断；
一个能够指导他们调整教学方法和策略的教学测评平台，而不是只重复同样的教学内容；
一个能够促进他们与学生、家长和同事的沟通和合作的教学测评平台，而不是只孤立于自己的课堂。基于语言大模型的教学测评有助于教师在不增加太多的精力与时间的条件下实现上述工作。当然，不可置否的是人工智能语言大模型也是一把双刃剑，在使用的过程中也要注意数据隐私和安全问题、技术可靠性和有效性问题、学生自主学习探究能力弱化等方面的问题。将人工智能语言大模型引入教学测评时，不能忽视纸笔测验、课堂互动等传统的测评方式。只有这样才能更好地发挥教学测评的效果，人工智能引入教学测评时必须遵循一定的原则。

计算机辅助评分理论是一种基于自然语言处理和机器学习的理论，它利用人工智能技术对学生的开放式作答进行自动或半自动的评分，从而减轻教师的评分负担，提高评分的客观性和一致性。目前，基于全连接的卷积神经网络（convolutional neural networks）的图像文档版面分析理解和文字识别技术核心算法，使得计算机智能辅助评分系统已经形成了一套完整的从图片输入端到文字输出端的识别处理方案，对语文、英语、数学、物理、文史等学科中所用字符、公式等的识别率能够达到与人工识别结果相当的水平[8]。本文以此为基础，充分考虑教师开展教学测评的可操作性、方便性、易用性原则，设计了基于人工智能语言大模型的“1＋（1＋X＋Y）”的教学测评模式，如图1所示。该模式是对传统教学测评——纸质化作业、终结性评价模式的二次重构，拓展了21世纪信息时代教学测评模式的内涵，即括号外面的1 表示一个人工智能语言大模型平台，括号里的1＋X＋Y 表示1 个教师主体或教学团队、X名学生、Y种测评。

图1 基于人工智能语言大模型的教学测评模式

（一）“1＋（1＋X＋Y）”的教学测评模式内涵

括号外面的1 表示“1 个平台”，即人工智能语言大模型平台。人工智能语言大模型的种类繁多，但是由于成本、可用性等因素的限制，本文主要采用文心一言（https://yiyan.baidu.com/）和讯飞星火（https://xinghuo.xfyun.cn/）两个模型进行分析和比较。文心一言是一款基于GPT-3 技术的中文自然语言生成模型，可以根据用户的输入生成各种类型的文本。讯飞星火是一款基于BERT 技术的中文自然语言理解模型，可以对用户的输入进行语义分析和理解。这些模型在执行各种自然语言处理任务时展现出了超强能力，甚至可以生成新颖的文本内容，强大的插件功能可以精准帮助人们解决不同的需求。语言大模型可以为教育领域提供高质量的内容生产和服务，成为教师和学生的智能助手，提供个性化学习资源和指导。括号里面的1 表示“1 个教师主体或教学团队”，即从事教育教学活动的主要参与者和实践者，具有自主性、创造性和责任感，在学生的学习和生活扮演着重要的角色和意义。教师作为知识的传授者和引导者，有着无可比拟的环境、设施、社会关注和网络资源优势。教师在人工智能语言大模型教学测评的模式中，要做主动者为学生提供个性化的指导和支持，促进学生的成长和发展。X 表示“X 名学生”，即班级全体学生成员。学生是学习和测评的主体，而人工智能语言大模型的服务对象是学生，更是多方位提升学生的学习质量和效率的关键环节，是推动学生精准查漏补缺，提升核心素养，减少重复学习时间的重要途径。同时，基于语言大模型测评的教育信息化平台，一方面学生可以将自己学习过程中存在的问题及时整理汇总，进行大数据留存，便于老师对整体学生情况进行了解，更好地开展教育教学工作；
另一方面，学生可以积极整合自己的已有知识，互帮互助，互相学习。Y表示“Y种测评”，是指在班级内进行多次测验与评价。测评在整个“语言大模型的教学测评”模式中是一个非常重要的环节，既是学生学习的工具，又是教师掌握学情的依托，它主要用于评估和衡量学生、教师以及语言模型在特定领域中的表现，帮助教师了解教学效果不断调整教学策略与方式，帮助学生了解自己在学习过程中的优势与短板，不断调整学习策略与方法，测评结果还可以作为语言模型开发者改进模型的依据，提高其性能和在教育教学领域的应用效果。

（二）“1＋（1＋X＋Y）”的教学测评模式应用

人工智能赋能教学测评模式的设计，语言大模型与教学测评整合是关键。遵循可操作、高效率、共获益的建设原则，以文心一言和讯飞星火大模型两个生成式人工智能为切入口，同时聚焦问卷星的部分功能，搭建面向教师的智能化教学测评新模式，促进人工智能和教学测评的深度融合，如图2所示。

图2 基于人工智能语言大模型的教学测评模型

不论是新手教师还是专家型教师，其手中现有的题库资源是相当丰富的，但对于与时事相结合的情境性问题的创设、跨学科题目的编制，对于教师来说是相当棘手的问题，需耗费大量的时间与精力。借助讯飞星火、文心一言等人工智能语言大模型便可以很好解决这一问题。教师在和人工智能语言大模型交流对话过程中，通过提供命题的提示词语、参考范例和具体要求，人工智能语言大模型便可以快速地生成符合测试要求的试题。教师可以选择线上或者线下两种不同的方式对学生开展测评。线上答题可以借助问卷星平台来实现，教师将语言大模型生成的试题直接导入问卷星进行简单的编辑后，生成测试链接，学生只需点开链接就可以完成在线测验，同时还可以及时查看自己答题得分、对错以及答案解析，教师后台也可以及时准确的看到学生对每一道题目的掌握情况以及整体的排名情况；
线下答题教师需要将生成的题目拷贝到Word文档，打印后形成纸质版作业对学生进行测验。测试完成后，通过极课大数据等智能分析平台，实现扫描读取试卷、批阅试卷及分析试卷，能看到错误学生姓名、各学生选项、错误选项比例等等详细信息，指导教师下一步的教学改进。

本文主要以地理学科为例，根据教师的提示词和具体要求，对文心一言和讯飞星火两个人工智能语言大模型动态生成试题的结果进行比较分析，测试时间为2023年10月。

（一）关于地理图形结合类问题

图形结合是地理学科中的一种常见题型，它主要通过考生观察和分析地图、图表等图形资料，结合所学知识，解决实际问题，旨在考查学生的综合分析能力和应用能力。对于图形结合问题文心一言和讯飞星火仅支持对图片进行描述的功能并不可以根据问题进行作答，如表1 所示。如果将图形结合的问题直接以图片形式发送，文心一言可以生成答案和解析，但是准确性不高，需要人工识别并改正。如果整理成Word 文档，文心一言识别不出问题不可以进行分析作答。讯飞星火不能直接通过图片识别问题和生成答案及解析，如果整理成Word文档，虽然可以对问题进行作答但是答案正确率较低。因此，目前对于图形结合类题目教师还需自己亲自解答编写。

表1 语言大模型关于图片类题目的生成分析

（二）情境问题——乡土类问题

情境问题指教师有目的、有意识地创设各种情境，促使学生去质疑问难，将家乡的地理环境、风土人情等特色融入题目中不仅可以学习到学科知识，还可以培养学生的乡土情怀，让学生更加珍视家乡的文化和传统，认识到家乡的独特之处，增强对家乡的自豪感和归属感。对于情境问题—乡土类问题，文心一言和讯飞星火的回答结果如表2所示。可见，文心一言和讯飞星火对于此类问题的编写已经游刃有余。

表2 语言大模型关于情境问题（乡土类）题目的生成分析

（三）情境问题——传统文化类问题

传统文化承载着丰富的历史信息、人文关怀，通过学习传统文化，可以增强学生的历史意识和文化自信。而将传统文化知识渗入地理题目正是体现了跨学科教学的思想，在解决地理问题时还能学习中华优秀传统文化。对于此类问题文心一言与讯飞星火均可以根据指令作出相应回答，编写问题的质量也较高，输出结果如表3所示。

表3 语言大模型关于情境问题（传统文化类）题目的生成分析

（四）情境问题——时政热点类问题

教育的基本要求传道授业解惑，更重要的是从小培养学生“家事国事天下事事事关心”的社会责任感与爱国情怀。潜移默化地影响至关重要，将时政热点渗入学科问题中，既培养了学生的学科技能，还可以拓宽学生的国际视野，从小厚植爱国情怀。对于时政新题，文心一言和讯飞星火的材料逻辑相对比较完整，但问题是答案对于学科知识的整合度不足，有些偏题，如表4所示。

表4 语言大模型关于情景问题（时政热点类）题目的生成分析

基于上述四类题目的测试结果可以发现，人工智能语言大模型在设计情景化问题时，通过教师一步一步下达指令或者提示词，对话指引语言大模型朝预设方向前进，无论是文心一言和讯飞星火，都可以在一定程度上准确理解下达的指令并生成所需答案，帮助教师更好地实现跨学科教学的融合，在发展学生学科知识素养的同时还可以加强思政教育，培养学生的高阶思维能力。但是基于情境创设和问题生成文心一言和讯飞星火各有千秋，教师可以根据实际情况自行选择使用，当然也可以将二者进行融合使用。因此，教师在使用过程中不能用单纯的“拿来主义”对待问题，人工智能的加入可以拓宽教师的思维和视野，但是对于问题与答案的合理性仍需教师去仔细评判，让“创造主义”得以实现是21世纪教师借助人工智能语言大模型赋能最重要的导向。

（一）建立教学测评交流互动平台

首先，教师建立钉钉班级群，学生和家长通过钉钉客户端加入班级群，在钉钉群组里，每个人都可以随时随地发送任何图片、文档、问题进行讨论分析，建立起家校课后的紧密联系。教师可以通过该群发送用于测评的调查问卷、电子化作业的链接或者二维码，供学生作答。数字化教学测评实施流程如图3所示。

图3 数字化教学测评实施流程

（二）制作教学所需的测评问卷

教师根据教学内容使用人工智能语言大模型进行辅助出题，建议在试卷内容方面多增加一些情境化问题，试题及参考答案修改、完善、定稿后，借助问卷星“创建问卷”的功能进一步根据需求选择所需“考试”“测评”等子菜单进行编制出题，创建新问卷只需将人工智能语言大模型出的题目“复制、粘贴”，问卷星便可自动识别（切记要先清除左面对话框中试题的格式，也不能使用Word 编辑器的自动编号功能，否则容易造成试题编写混乱的现象）。接下来教师可以根据实际需要二次编辑生成的题目，如自定义每道题目的分值等操作，最后完成编辑。下一步教师的重要任务就是先进行题目自测，确保试题没有纰漏，再将生成的问卷或电子作业通过链接或者二维码的形式发送到班级群。此外，教师还可以将人工智能语言大模型所提供的题目整理成Word 文档进行打印，以纸质版的形式下发。

（三）测评问卷作答与回收分析

学生作答完毕后，可以及时得到信息反馈。借助问卷星发送的作业可以实现学生在完成作业的同时便可知道自己题目完成的正确率以及答案解析，这时学生可以在家完成作业的复盘，还可以借助人工智能语言大模型进行自主探究学习。同时，教师在问卷星后台可以清楚地看到每个学生做题所用的时间，题目的正确率，还可以看到全班同学关于一道题目的正确率。通过问卷星，教师不仅可以更加直观地看到每一道题目的做题情况，还可以对电子化作业或问卷进行交叉、对比分析，对学生成绩进行排名。这样，可以让教师清晰地看到哪些同学在这次测试中成绩有些不理想，教师随即调出该同学的答题所用时间进行分析，通过对该学生的做题进行整体把握，找到学生薄弱知识点，由此可以开展针对性教学，因材施教的教育原则可以很好地落到实处。

（四）教学改进与学生精准辅导

通过对测试问卷学生作答情况的统计分析，有助于教师在上课时把握重难点，查看学生的薄弱项目，对错误比较多的题目进行集中讲解。此外，教师还可以把测验成绩不理想的学生组织起来，个别题目进行有针对性地讲解，这样可以节省教师的时间，减轻教师的压力。教师还可以通过设置作业截止时间，更好地督促学生做好学习规划，在什么时间该做什么事情，养成良好的学习习惯。而对于纸质版作业，教师可以选择手动批阅或者借助极课大数据等智能分析平台，进行智能批改，可以极大地减轻教师负担。以评促学，使学生、家长、教师通过钉钉平台建立起紧密的联系。

人工智能语言大模型赋能教学测评的实施，不仅实现了技术创新、优化了评价体系，提高了教学效果和效率，还为学生的个性化发展和教师的专业成长提供了有力支持。当前，基于人工智能语言大模型的教学测评模式尚处于探索阶段，作为传统教学测评方法一种有益的补充，其还面临很多障碍和不利的因素：隐私安全问题、非精准化回答、教师缺乏深层思考、总体上学生的自控力有待提高，学生接触电子产品时间过长可能会出现沉迷手机等方面的问题。这些弊端并不是不可避免的，可以预见，随着教师数字素养的不断提升，人工智能语言大模型的不断进化，数字化教学测评方法将在教学改革中发挥越来越大的作用。

猜你喜欢文心星火题目背着《星火》去厂旅行打卡照星火(2021年2期)2021-03-03《星火》梦之队星火(2021年2期)2021-03-03唐朝“高考”的诗歌题目文苑(2020年7期)2020-08-12第二届星火学年星火(2020年2期)2020-03-04关于题目的要求宁夏医学杂志(2020年3期)2020-02-27本期练习类题目参考答案及提示中学生数理化·八年级数学人教版(2019年11期)2019-09-10冬天来啦学苑创造·A版(2018年12期)2018-03-04文心杂记时代人物(新教育家)(2017年10期)2017-12-18请不断修炼你的“文心”中国篆刻(2017年5期)2017-07-18雨学苑创造·A版(2017年6期)2017-06-23

上一篇：皖南国际旅游示范区旅游文化外宣文本翻译研究
下一篇：科技创新何以赋能福州夜间经济高质量发展——基于三坊七巷的案例分析

扩展阅读文章

推荐阅读文章