大型语言模型的推理能力常常被高估

自然科学作者 / 花爷 / 2025-03-16 09:06
"
      麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员最近通过放大镜研究法学硕士在不同任务中的表现,揭示了

  

  MIT researchers examined how LLMs fare with variations of different tasks, putting their memorization and reaso<em></em>ning skills to the test. The result: Their reaso<em></em>ning abilities are often overestimated.

  麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员最近通过放大镜研究法学硕士在不同任务中的表现,揭示了记忆和推理技能之间相互作用的有趣见解。事实证明,他们的推理能力往往被高估了。

  该研究比较了“默认任务”和“反事实情景”,前者是模型训练和测试的常见任务,后者是偏离默认条件的假设情况,而GPT-4和Claude等模型通常可以应付这些情况。研究人员通过调整现有任务而不是创建全新的任务,在模型的舒适区之外开发了一些测试。他们使用了各种各样的数据集和基准,专门针对模型能力的不同方面,如算术、国际象棋、评估代码、回答逻辑问题等。

  当用户与语言模型交互时,任何算术通常都是以10为基数的,这是模型所熟悉的基数。但观察到他们在基数为10的情况下做得很好,可能会给我们一个错误的印象,即他们有很强的能力。从逻辑上讲,如果它们真的拥有良好的加法技能,你就会期望它们在所有基数上都有可靠的高性能,类似于计算器或计算机。事实上,研究表明,这些模型并不像许多人最初认为的那样可靠。他们的高性能仅限于常见的任务变体,并且在不熟悉的反事实场景中遭受持续和严重的性能下降,表明缺乏泛化加法能力。这种模式适用于许多其他任务,如和弦指法、空间推理,甚至是棋子的起始位置略有改变的国际象棋问题。虽然人类棋手仍然能够在改变的情况下(给予足够的时间)确定移动的合法性,但这些模型表现不佳,无法比随机猜测表现得更好,这意味着它们在不熟悉的情况下泛化的能力有限。他们在标准任务上的大部分表现可能不是由于一般任务能力,而是过度拟合或直接记忆他们在训练数据中看到的内容。“我们发现了大型语言模型的一个迷人的方面:它们在熟悉的场景中表现出色,就像一条老路,但当地形变得陌生时,它们就会挣扎。这种洞察力是至关重要的,因为我们努力提高这些模型的适应性,拓宽它们的应用视野,”麻省理工学院电子工程和计算机科学博士生、CSAIL附属机构、一篇关于这项研究的新论文的主要作者吴兆峰说。“随着人工智能在我们的社会中变得越来越普遍,它必须可靠地处理各种场景,无论熟悉与否。我们希望这些见解有一天能够为未来llm的设计提供更好的鲁棒性。”尽管获得了深刻的见解,但当然也存在局限性。这项研究的重点是特定的任务和设置,并没有捕捉到模型在实际应用中可能遇到的所有挑战,这表明需要更多样化的测试环境。未来的工作可能包括扩大任务范围和反事实条件,以发现更多潜在的弱点。这可能意味着要研究更复杂和不太常见的场景。该团队还希望通过创建方法来更好地理解模型决策过程背后的基本原理,从而提高可解释性。伊利诺伊大学厄巴纳-香槟分校(University of Illinois at Urbana-Champaign)助理教授郝鹏(Hao Peng)表示:“随着语言模型规模的扩大,即使对开放模型来说,理解它们的训练数据也变得越来越具有挑战性,更不用说专有模型了。”“社区仍然困惑于这些模型是否真的可以推广到看不见的任务,或者通过记忆训练数据似乎成功了。本文在解决这个问题方面取得了重要进展。它构建了一套精心设计的反事实评估,为最先进的法学硕士的能力提供了新的见解。这表明,他们解决看不见的任务的能力可能比许多人预期的要有限得多。它有可能启发未来的研究,以确定当今模型的失效模式,并开发更好的模型。”

  作者:瑞秋·戈登

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读