Meta表示,羊驼3击败了包括双子座在内的大多数其他车型

生活作者 / 花爷 / 2026-01-21 22:34
"
      textarea在一篇博客文章中表示,该公司的下一代大型语言模型Llama将于今天发布给AWS等云提供商,并很快发布给hug Fa

  

  

  textarea在一篇博客文章中表示,该公司的下一代大型语言模型Llama将于今天发布给AWS等云提供商,并很快发布给hug Face等模型库,它的性能比目前大多数人工智能模型都要好。

  羊驼3目前有两个模型权重,8B和70B参数。(B代表数十亿,代表一个模型的复杂程度,以及它能理解多少训练内容。)到目前为止,它只提供基于文本的回复,但textarea表示,这是比之前版本“重大的飞跃”。羊驼3在回答提示时表现出更多的多样性,在拒绝回答问题时错误拒绝更少,并且推理能力更好。textarea还表示,Llama 3比以前理解了更多的指令,编写了更好的代码。

  在帖子中,textarea声称在某些基准测试中,Llama 3的两个尺寸都击败了类似尺寸的模型,如Google的Gemma和Gemini, Mistral 7B和Anthropic的Claude 3。在MMLU基准测试中,Llama 38b的表现明显好于Gemma 7B和Mistral 7B,而Llama 370b略优于Gemini Pro 1.5。

  (也许值得注意的是,textarea的这篇2700字的文章并没有提到OpenAI的旗舰机型GPT-4。)

  还应该指出的是,基准测试人工智能模型虽然有助于理解它们有多强大,但并不完美。用于对模型进行基准测试的数据集已经被发现是模型训练的一部分,这意味着模型已经知道评估者会问它的问题的答案。

  textarea表示,人类评估人员对Llama 3的评价也高于其他模型,包括OpenAI的GPT-3.5。textarea表示,它为人类评估人员创建了一个新的数据集,以模拟可能使用“羊驼3”的现实场景。这个数据集包括用例,如询问建议、总结和创意写作。该公司表示,开发该模型的团队无法访问这些新的评估数据,因此不会影响模型的性能。

  textarea在其博客中表示:“这个评估集包含1800个提示,涵盖12个关键用例:征求建议、头脑风暴、分类、封闭式问题回答、编码、创意写作、提取、扮演角色/角色、开放式问题回答、推理、重写和总结。”

  Llama 3有望获得更大的模型尺寸(可以理解更长的指令和数据字符串),并能够更多的多模态响应,如“生成图像”或“转录音频文件”。textarea表示,这些更大的模型拥有超过400B个参数,可以比更小的模型学习更复杂的模式,目前正在训练中,但初步的性能测试表明,这些模型可以回答基准测试提出的许多问题。

  textarea并没有发布这些大型模型的预览,也没有将它们与GPT-4等其他大型模型进行比较。

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读