OpenAI和Anthropic忽视了防止机器人抓取在线内容的既定规则

星座作者 / 花爷 / 2025-07-25 22:50
"
      生成式人工智能工具很流行基于使用大量co的模型从网上刮来的内容。  OpenAI和Anthropic公开表示,他们尊重robots.

  

  

  生成式人工智能工具很流行基于使用大量co的模型从网上刮来的内容。

  OpenAI和Anthropic公开表示,他们尊重robots.txt,并阻止他们的网络爬虫。

  然而,BI了解到,这两家公司都忽略或绕过了这些障碍。

  据《商业内幕》报道,全球最大的两家人工智能初创公司无视媒体出版商的要求,即停止从它们的网络内容中抓取免费模型训练数据。

  OpenAI和Anthropic被发现要么忽视要么规避了一项名为robots.txt的既定网络规则,该规则旨在防止自动抓取网站信息。

  TollBit是一家旨在中介出版商和人工智能公司之间付费许可协议的初创公司,该公司发现几家人工智能公司正在以这种方式行事,并在周五的一封信中通知了某些大型出版商,路透社早些时候报道了这一消息。这封信没有包括任何被指控规避规则的人工智能公司的名字。

  本文仅对Business Insider订阅者开放。成为业内人士,现在就开始阅读。有账户吗?.

  OpenAI和Anthropic已经公开声明,他们尊重robots.txt,并阻止他们特定的网络爬虫,GPTBot和ClaudeBot。

  然而,根据TollBit的调查结果,这些封锁并没有像声称的那样得到尊重。包括OpenAI和Anthropic在内的人工智能公司只是选择“绕过”robots.txt,以便从给定的网站或页面中检索或抓取所有内容。

  有关的故事

  OpenAI的一位女发言人拒绝发表评论,只是让BI参考了5月份的一篇公司博客文章,该公司在文章中表示,“每次我们训练一个新模型时”,都会考虑网络爬虫的权限。Anthropic的发言人没有回复寻求置评的电子邮件。

  Robots.txt是一段代码,从20世纪90年代末开始,网站就用它来告诉机器人爬虫他们不希望自己的数据被抓取和收集。它被广泛接受为支持网络的非官方规则之一。

  随着生成式人工智能的兴起,初创公司和科技公司正在竞相构建最强大的人工智能模型。一个关键因素是高质量的数据。对此类训练数据的渴求破坏了robots.txt和支持使用该代码的非官方协议。

  OpenAI是流行聊天机器人ChatGPT的幕后推手。该公司最大的投资者是微软。Anthropic是另一个相对流行的聊天机器人Claude的幕后推手。它最大的投资者是亚马逊。

  这两个聊天机器人都以人类的语气回答用户的问题。这样的答案之所以成为可能,是因为它们所基于的人工智能模型包括大量从网络上抓取的书面文本和数据,其中大部分是有版权的,或者由创作者以其他方式拥有。

  去年,几家科技公司向美国版权局(US Copyright Office)辩称,在涉及人工智能训练数据时,网络上的任何内容都不应被视为受版权保护。

  OpenAI已经与一些出版商达成了内容访问协议,其中包括拥有BI的Axel Springer。美国版权局将在今年晚些时候更新其关于人工智能和版权的指导意见。

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读