

随着生成式人工智能继续渗透到文化的各个方面,管理维基百科的人在如何最好地进行下去的问题上存在分歧。
在最近的一次社区电话会议中,很明显,在是否使用大型语言模型生成内容的问题上,社区存在分歧。虽然有些人表示,像Open AI的ChatGPT这样的工具可以帮助生成和总结文章,但其他人仍持谨慎态度。
人们担心的是,机器生成的内容必须与大量的人工审查相平衡,并且会用糟糕的内容淹没不太知名的wiki。虽然AI生成器对于编写可信的、类似人类的文本很有用,但它们也容易包含错误信息,甚至引用不存在的来源和学术论文。这通常会导致看似准确的文本摘要,但仔细检查就会发现完全是捏造的。
Amy Bruckman是佐治亚理工学院互动计算学院的董事教授和高级副主席,著有《你应该相信维基百科吗?》:网络社区与知识建构。她说,就像社会建构知识的人一样,大型语言模型的好坏取决于他们辨别事实和虚构的能力。
Bruckman告诉Motherboard:“我们唯一的办法是使用[大型语言模型],但要对其进行编辑,并请人检查来源。”
没过多久,研究人员就发现OpenAI的ChatGPT是一个可怕的编造者,这往往会让那些只依靠聊天机器人写论文的学生们完蛋。有时它会发明文章和作者。其他时候,它会将知名度较低的学者的名字与更多产的学者的名字拼接在一起,但会以最大的信心这样做。OpenAI甚至表示,该模型在编造事实时产生了“幻觉”——一些人工智能专家批评这一术语,认为这是人工智能公司逃避对其工具传播错误信息的责任的一种方式。
“维基百科是人们面临的风险可以降低质量的东西他们还没有检查,“Bruckman补充道。“我不认为把它作为初稿有什么错,但每一点都必须经过验证。”
该网站背后的非营利组织维基媒体基金会(Wikimedia Foundation)正在研究开发工具,使志愿者更容易识别机器人生成的内容。与此同时,维基百科正在起草一项政策,规定志愿者使用大型语言模型创建内容的限制。
目前的政策草案指出,任何不熟悉大型语言模型风险的人都应该避免使用它们来创建维基百科内容,因为它可能会使维基媒体基金会面临诽谤诉讼和版权侵犯——这两种情况都是非营利组织受到保护的,但维基百科志愿者却没有。这些大型语言模型还包含隐性偏见,这通常会导致内容偏向边缘化和代表性不足的群体。
对于是否应该允许大型语言模型在维基百科内容上进行训练,社区也存在分歧。虽然开放获取是维基百科设计原则的基石,但一些人担心,无限制地抓取互联网数据会让OpenAI等人工智能公司利用开放网络,为他们的模型创建封闭的商业数据集。如果维基百科内容本身是人工智能生成的,如果不加以检查,就会形成一个潜在偏见信息的反馈循环,这就尤其是个问题。
维基百科邮件列表上的一个建议引起了人们对使用BLOOM的注意,BLOOM是去年在新的负责任的人工智能许可证(RAIL)下发布的一个大型语言模型,它“将开放获取的许可方法与旨在强制执行负责任的人工智能使用愿景的行为限制相结合”。与一些版本的知识共享许可类似,RAIL许可允许灵活使用人工智能模型,同时也施加了一些限制,例如,要求任何衍生模型明确披露其输出是人工智能生成的,并且基于它们构建的任何东西都遵守相同的规则。
Mariana Fossatti,谁知道?一个致力于跨越地理位置和语言在互联网上获取知识的全球运动说,大型语言模型和维基百科处于一个反馈循环中,这会引入更多的偏见。
“我们拥有300多种语言的庞大知识体系,”福萨蒂告诉Motherboard。“当然,这300种不同的语言也非常不平等。英文维基百科的内容比其他语言丰富得多,我们正在为人工智能系统提供这些知识体系。”
人工智能对维基百科来说并不新鲜——自动化系统长期以来一直被用于执行机器翻译和清除破坏行为等任务。但也有一些长期志愿者对在平台上扩大人工智能应用的想法不太开放。
在维基媒体基金会的一份声明中,这家非营利组织表示,人工智能代表了一个帮助扩大维基百科和维基媒体项目志愿者工作的机会。
维基媒体基金会的一位发言人在一份声明中告诉Motherboard:“根据志愿者的反馈,我们正在研究这些模型如何能够帮助缩小知识差距,增加知识的获取和参与。”“然而,人类参与仍然是维基媒体知识生态系统最重要的组成部分。在我们的项目中,人工智能最适合作为人类工作的补充。”
在撰写本文时,该政策草案明确指出,对于人工智能生成的内容,文本归因是必要的。Bruckman并不认为大型语言模型带来的一些问题与蓄意和恶意编辑维基百科页面有什么不同。
“我不认为这和打击破坏公物有什么不同,”Bruckman补充道。“我们有应对这种情况的策略。我认为未经审查的人工智能生成的内容是一种破坏行为,我们可以使用与维基百科上的破坏行为相同的技术来对抗来自人工智能的垃圾。”
在最近一封发给维基媒体基金会的邮件中,该组织的首席产品和技术官Selena Deckelmann指出,围绕未完成的技术迁移,志愿者和基金会工作人员之间存在复杂的问题,这些问题影响了志愿者的社区决策。
Deckelmann在Motherboard获得的电子邮件中说:“为了完成这些大项目,我们必须能够选择优先考虑的维护和技术迁移领域,然后接受不做其他方面的工作。”
但在那之前,Bruckman说编辑和志愿者保持警惕是很重要的。
“内容的可靠性取决于有多少人通过强有力的引用实践来验证它,”Bruckman说。“是的,生成式人工智能没有很强的引用偏好,所以我们必须检查它。我不认为我们可以告诉人们'不要使用它',因为它不会发生。我是说,如果你允许,我可以把精灵放回瓶子里。但鉴于这是不可能的,我们所能做的就是检查一下。”