中青报刊文:大模型成为“考试明星” 意味着什么

zhq 2025-07-06 阅读:40 评论:0
得益于深度思考和多模态能力的提升,大模型面对未经训练的全新题目测试,已经达到人类优秀考生的水平。AI大模型豆包尝试着做了今年的山东高考卷,得了690分左右,排名在前80位左右,甚至有望考上清华、北大。这只不过是大模型成为“考试明星”的最新一...

得益于深度思考和多模态能力的提升,大模型面对未经训练的全新题目测试,已经达到人类优秀考生的水平。

AI大模型豆包尝试着做了今年的山东高考卷,得了690分左右,排名在前80位左右,甚至有望考上清华、北大。这只不过是大模型成为“考试明星”的最新一例。根据多份报告,人工智能系统已展现出通过大学入学考试及其他学术评估的能力。例如,ChatGPT通过了美国法学院和商学院的考试;同时,GPT-4模型能够通过大多数STEM学科的评估,并在回答问题时实现高准确率。

人工智能通过这些考试的能力,引发了对教育的未来以及如何更好地培养学生掌握那些仍具有人类特质的技能的思考。

大模型的考试成绩意味着什么

首先,这可以理解为规模化的模式识别的成功。大模型在识别和再现语言、推理和问题解决方面表现卓越。纵观大模型通过的考试,通常结构清晰,格式固定,答案可以通过文本线索得出——而这正是大模型接受训练的强项。

其次,大模型拥有广泛的训练数据来源,这使得它容易在考试中脱颖而出。许多考试题目与教材、辅导材料或历年试题中的内容高度相似,可能出现在模型的训练语料中,或在结构上与之类似。

再次,大模型实现了任务无关的通用性。通过这些考试的能力表明,大模型是通用型语言处理器——它们无须重新训练就能在法律、医学、STEM等领域间切换,这在系统设计层面非常了不起。

尽管成就不俗,我们也不必夸大大模型对人类考生的威胁。因为,考过并不等于“理解”,大模型的“成功”多是统计上的匹配,而非概念性的掌握——它们并不“知道”答案为何正确。

大模型还缺乏真实的推理基础。如USMLE(美国医生执照考试)默认考生具备现实世界的经验积累和伦理判断能力。大模型即使答对了题,也缺乏具身认知或临床直觉。

我们还需认识到,大模型不存在原生的学习过程。它们并不会像人类那样通过学习获得知识——机器人不会因误解而苦恼,也不会主动反思,更不会随着时间内化意义。

多元智能理论与大模型的考试表现

教育心理学家霍华德·加德纳认为,智力是多元的,不能仅用传统智商或考试成绩来衡量。根据加德纳的智能类型,我们会发现,大模型的能力展现参差不齐:

在语言智能,即使用语言进行阅读、写作方面,大模型表现优秀。

在逻辑-数学智能,即抽象推理、问题解决、模式识别能力方面,大模型表现良好,对于数学题、逻辑题等结构化问题的解答能力十分强劲,尽管在复杂推理中仍有不稳定性。

在视觉-空间智能,即在头脑当中想象和操控物体的能力方面,大模型功能有限:纯文本模型本身不具备视觉-空间推理能力,多模态模型(拥有视觉能力)正试图在一定程度上对此加以改善。

在身体-动觉智能,即控制身体动作、保持身体协调能力方面,非常遗憾,大模型付之阙如——它本身没有身体,也无法展开物理体验或动作。

在音乐-节奏智能,即对音高、节奏、旋律的敏感度和创作能力方面,大模型可以模仿歌曲或分析音乐理论,但缺乏真正的听觉体验与音乐直觉。

在人际智能,即理解他人情感、动机、关系的能力方面,大模型能模拟同理心,但没有真正的社会意识、情感或动机。

在自我认知智能,即自我觉察、情绪反思和自我理解的能力方面,大模型没有自我,并不像某些人声称的那样获得了自我意识、目标或主观经验。

最后,在自然观察智能,即识别自然界模式、给出生物分类的能力方面,大模型可以检索事实,但缺乏对自然环境的直观感知与互动能力。

经由这些对比,我们可以发现,大模型在语言和逻辑智能方面表现卓越,但加德纳强调具身性、情感性和经验性的广泛智能,这是大模型在结构上无法胜任的。

另一方面,从模拟与体验的关系来看,大模型可以模拟某些智能(如共情或音乐创作),但缺乏真实的经验基础,而加德纳的智能理论强调智力的发展与现实世界的互动密不可分。

教育上的反思:过度依赖大模型的害处

从教育评估的角度看,人工智能不断提升的考试能力,引发了对学术诚信和潜在滥用的担忧,促使教育工作者不得不重新思考传统评估方法。

不过,我们也可以看到,尽管人工智能可以通过识别模式并生成正确答案来通过考试,却并不一定意味着其对考试内容的理解与人类相同。人工智能在语言处理以及需要“常识”或主观解读的问题上仍面临挑战。今天,我们可以心存侥幸的是,人工智能还难以应对需要深入理解、批判性思维或个人反思的复杂或微妙问题。

这表明,理解意义是人类独有的能力,而目前的人工智能系统仍缺乏这种能力。“高考出色”的机器人其实与一些学生非常相似,他们吸收知识,然后照本宣科,根本不理解其中的含义。所以,机器人超越这类学生毫不足奇。

多元智能理论主张因材施教、发展多种能力。如果学校在教育中过度依赖大模型完成写作或数学等任务,可能会忽视身体性、人际交往和情感成长这些对人类发展至关重要的领域。

所以,必须思考一种新型的教育。如果大模型都能通过为人类设计的考试,教育工作者就迫切需要重新思考考试的目标——不应只评估机械记忆或格式化的解题能力,还应涵盖创造力、判断力与情感智能。

与其惊叹于高级的人工智能水平,不如说“机器人考生”揭示了考试本身的结构与局限性。我们的确打造了强大的工具,但它们终究只是工具。这些模型可以成为强大的教学助手,但若将它们完全替代医学、法律等领域的专业人员,可能带来伦理和安全隐患。

大模型能通过各种考试,是工程复杂性的里程碑,但并不是与人类认知能力等价的标志。人类未来将如何与人工智能共存,是我们必须基于确凿证据认真思考的问题。同时,我们要尽快思考,因为时间不多了。

(作者系北京大学新闻与传播学院教授)

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

发表评论
热门文章
  • 遇见小面闯关港股:单店日均销售额下滑,屡因食品安全被点名

    遇见小面闯关港股:单店日均销售额下滑,屡因食品安全被点名
    记者|赵阳戈 一家“接地气”的公司将要亮相联交所。近日,广州遇见小面餐饮股份有限公司(以下简称遇见小面)披露招股说明书,拟登陆联交所,招银国际为独家保荐人。 来源:联交所遇见小面成立已11年,开店增至380家,2024年卖出了11亿元的营业额。盈利方面,虽说在2022年因疫情录得亏损,但2023年实现扭亏,2024年有逾6000万元的净利润。 据了解,遇见小面还将继续扩张,2025年、2026年及2027年,计划在中国内地、中国香港及海外分別新开设约...
  • “免签圈”扩容,旅游平台:今年以来巴西等国入境游订单显著增加

    “免签圈”扩容,旅游平台:今年以来巴西等国入境游订单显著增加
    据新华社报道,外交部发言人林剑5月15日在例行记者会上说,为进一步便利中外人员往来,中方决定扩大免签国家范围,自2025年6月1日起至2026年5月31日,对巴西、阿根廷、智利、秘鲁、乌拉圭持普通护照人员试行免签政策。上述5国持普通护照人员来华经商、旅游观光、探亲访友、交流访问、过境不超过30天,可免办签证入境。“免签圈”扩容将进一步促进中国入境旅游的利好发展。当天,携程数据显示,今年以来,该平台上入境游订单量比去年增长接近翻倍。新增的五国入境游潜力巨大,今年以来阿根廷入境游...
  • 长城基金梁福睿:解码创新药的DeepSeek时刻

    长城基金梁福睿:解码创新药的DeepSeek时刻
      今年以来,医药板块尤其是创新药领域迎来一波强劲复苏,但在近期市场调整中也出现了波动。不过,创新药板块的长期投资价值依然显著。长城医药产业精选基金经理梁福睿认为,类似于DeepSeek,未来市场会更加认知到中国创新药从追赶到超越的实力。   在“515”全国投资者保护宣传日来临之际,基金经理...
  • 外交部:国际社会广泛理解和支持中方不同意台参加世卫大会的决定

    外交部:国际社会广泛理解和支持中方不同意台参加世卫大会的决定
    5月15日,外交部发言人林剑主持例行记者会。有记者提问,据了解,第78届世界卫生大会将于5月19日开幕,台湾地区方面迄今没有收到与会邀请。中国政府对此有何评论?林剑表示,在中国台湾地区参与国际组包括世界卫生组织问题上,中方的立场是一贯明确的,即必须按照一个中国原则来处理,这也是联合国大会第2758号决议和世界卫生大会25.1号决议确认的根本原则。中国台湾地区在未经中央政府同意的前提下,没有任何根据理由或权利参加世卫大会。台民进党当局顽固坚持“台独”分裂立场,导致台湾地区参加世...
  • 美联储主席鲍威尔:美国可能进入更频繁、更持久的 “供应冲击” 时期

    美联储主席鲍威尔:美国可能进入更频繁、更持久的 “供应冲击” 时期
      美联储主席杰罗姆・鲍威尔周四表示,美国可能进入供应冲击更频繁、通胀更不稳定的时期,这需要央行采取更透明的沟通方式。   鲍威尔在启动对央行货币政策框架五年一次的评估时发表了上述言论。   “关键问题在于如何让公众更广泛地理解经济普遍面临的不确定性,” 鲍威尔在华盛顿的演讲中表示,并预测 “...
标签列表