

textarea在一篇博客文章中表示,该公司的下一代大型语言模型Llama将于今天发布给AWS等云提供商,并很快发布给hug Face等模型库,它的性能比目前大多数人工智能模型都要好。
羊驼3目前有两个模型权重,8B和70B参数。(B代表数十亿,代表一个模型的复杂程度,以及它能理解多少训练内容。)到目前为止,它只提供基于文本的回复,但textarea表示,这是比之前版本“重大的飞跃”。羊驼3在回答提示时表现出更多的多样性,在拒绝回答问题时错误拒绝更少,并且推理能力更好。textarea还表示,Llama 3比以前理解了更多的指令,编写了更好的代码。
在帖子中,textarea声称在某些基准测试中,Llama 3的两个尺寸都击败了类似尺寸的模型,如Google的Gemma和Gemini, Mistral 7B和Anthropic的Claude 3。在MMLU基准测试中,Llama 38b的表现明显好于Gemma 7B和Mistral 7B,而Llama 370b略优于Gemini Pro 1.5。
(也许值得注意的是,textarea的这篇2700字的文章并没有提到OpenAI的旗舰机型GPT-4。)
还应该指出的是,基准测试人工智能模型虽然有助于理解它们有多强大,但并不完美。用于对模型进行基准测试的数据集已经被发现是模型训练的一部分,这意味着模型已经知道评估者会问它的问题的答案。
textarea表示,人类评估人员对Llama 3的评价也高于其他模型,包括OpenAI的GPT-3.5。textarea表示,它为人类评估人员创建了一个新的数据集,以模拟可能使用“羊驼3”的现实场景。这个数据集包括用例,如询问建议、总结和创意写作。该公司表示,开发该模型的团队无法访问这些新的评估数据,因此不会影响模型的性能。
textarea在其博客中表示:“这个评估集包含1800个提示,涵盖12个关键用例:征求建议、头脑风暴、分类、封闭式问题回答、编码、创意写作、提取、扮演角色/角色、开放式问题回答、推理、重写和总结。”
Llama 3有望获得更大的模型尺寸(可以理解更长的指令和数据字符串),并能够更多的多模态响应,如“生成图像”或“转录音频文件”。textarea表示,这些更大的模型拥有超过400B个参数,可以比更小的模型学习更复杂的模式,目前正在训练中,但初步的性能测试表明,这些模型可以回答基准测试提出的许多问题。
textarea并没有发布这些大型模型的预览,也没有将它们与GPT-4等其他大型模型进行比较。