Meta表示，羊驼3击败了包括双子座在内的大多数其他车型

生活作者 / 花爷 / 2026-01-21 22:34

　　　　　　textarea在一篇博客文章中表示，该公司的下一代大型语言模型Llama将于今天发布给AWS等云提供商，并很快发布给hug Fa

　　textarea在一篇博客文章中表示，该公司的下一代大型语言模型Llama将于今天发布给AWS等云提供商，并很快发布给hug Face等模型库，它的性能比目前大多数人工智能模型都要好。

　　羊驼3目前有两个模型权重，8B和70B参数。(B代表数十亿，代表一个模型的复杂程度，以及它能理解多少训练内容。)到目前为止，它只提供基于文本的回复，但textarea表示，这是比之前版本“重大的飞跃”。羊驼3在回答提示时表现出更多的多样性，在拒绝回答问题时错误拒绝更少，并且推理能力更好。textarea还表示，Llama 3比以前理解了更多的指令，编写了更好的代码。

　　在帖子中，textarea声称在某些基准测试中，Llama 3的两个尺寸都击败了类似尺寸的模型，如Google的Gemma和Gemini, Mistral 7B和Anthropic的Claude 3。在MMLU基准测试中，Llama 38b的表现明显好于Gemma 7B和Mistral 7B，而Llama 370b略优于Gemini Pro 1.5。

　　(也许值得注意的是，textarea的这篇2700字的文章并没有提到OpenAI的旗舰机型GPT-4。)

　　还应该指出的是，基准测试人工智能模型虽然有助于理解它们有多强大，但并不完美。用于对模型进行基准测试的数据集已经被发现是模型训练的一部分，这意味着模型已经知道评估者会问它的问题的答案。

　　textarea表示，人类评估人员对Llama 3的评价也高于其他模型，包括OpenAI的GPT-3.5。textarea表示，它为人类评估人员创建了一个新的数据集，以模拟可能使用“羊驼3”的现实场景。这个数据集包括用例，如询问建议、总结和创意写作。该公司表示，开发该模型的团队无法访问这些新的评估数据，因此不会影响模型的性能。

　　textarea在其博客中表示:“这个评估集包含1800个提示，涵盖12个关键用例:征求建议、头脑风暴、分类、封闭式问题回答、编码、创意写作、提取、扮演角色/角色、开放式问题回答、推理、重写和总结。”

　　Llama 3有望获得更大的模型尺寸(可以理解更长的指令和数据字符串)，并能够更多的多模态响应，如“生成图像”或“转录音频文件”。textarea表示，这些更大的模型拥有超过400B个参数，可以比更小的模型学习更复杂的模式，目前正在训练中，但初步的性能测试表明，这些模型可以回答基准测试提出的许多问题。

　　textarea并没有发布这些大型模型的预览，也没有将它们与GPT-4等其他大型模型进行比较。

分享到

声明：本文为用户投稿或编译自英文资料，不代表本站观点和立场，转载时请务必注明文章作者和来源，不尊重原创的行为将受到本站的追责；转载稿件或作者投稿可能会经编辑修改或者补充，有异议可投诉至本站。

Meta表示，羊驼3击败了包括双子座在内的大多数其他车型

最新文章

热文导读