

生成式人工智能工具很流行基于使用大量co的模型从网上刮来的内容。
OpenAI和Anthropic公开表示,他们尊重robots.txt,并阻止他们的网络爬虫。
然而,BI了解到,这两家公司都忽略或绕过了这些障碍。
据《商业内幕》报道,全球最大的两家人工智能初创公司无视媒体出版商的要求,即停止从它们的网络内容中抓取免费模型训练数据。
OpenAI和Anthropic被发现要么忽视要么规避了一项名为robots.txt的既定网络规则,该规则旨在防止自动抓取网站信息。
TollBit是一家旨在中介出版商和人工智能公司之间付费许可协议的初创公司,该公司发现几家人工智能公司正在以这种方式行事,并在周五的一封信中通知了某些大型出版商,路透社早些时候报道了这一消息。这封信没有包括任何被指控规避规则的人工智能公司的名字。
本文仅对Business Insider订阅者开放。成为业内人士,现在就开始阅读。有账户吗?.
OpenAI和Anthropic已经公开声明,他们尊重robots.txt,并阻止他们特定的网络爬虫,GPTBot和ClaudeBot。
然而,根据TollBit的调查结果,这些封锁并没有像声称的那样得到尊重。包括OpenAI和Anthropic在内的人工智能公司只是选择“绕过”robots.txt,以便从给定的网站或页面中检索或抓取所有内容。
有关的故事
OpenAI的一位女发言人拒绝发表评论,只是让BI参考了5月份的一篇公司博客文章,该公司在文章中表示,“每次我们训练一个新模型时”,都会考虑网络爬虫的权限。Anthropic的发言人没有回复寻求置评的电子邮件。
Robots.txt是一段代码,从20世纪90年代末开始,网站就用它来告诉机器人爬虫他们不希望自己的数据被抓取和收集。它被广泛接受为支持网络的非官方规则之一。
随着生成式人工智能的兴起,初创公司和科技公司正在竞相构建最强大的人工智能模型。一个关键因素是高质量的数据。对此类训练数据的渴求破坏了robots.txt和支持使用该代码的非官方协议。
OpenAI是流行聊天机器人ChatGPT的幕后推手。该公司最大的投资者是微软。Anthropic是另一个相对流行的聊天机器人Claude的幕后推手。它最大的投资者是亚马逊。
这两个聊天机器人都以人类的语气回答用户的问题。这样的答案之所以成为可能,是因为它们所基于的人工智能模型包括大量从网络上抓取的书面文本和数据,其中大部分是有版权的,或者由创作者以其他方式拥有。
去年,几家科技公司向美国版权局(US Copyright Office)辩称,在涉及人工智能训练数据时,网络上的任何内容都不应被视为受版权保护。
OpenAI已经与一些出版商达成了内容访问协议,其中包括拥有BI的Axel Springer。美国版权局将在今年晚些时候更新其关于人工智能和版权的指导意见。