

在人工智能经济中,数据即使不是核心角色,也扮演着核心角色。数据是模型的重要力量,无论是基本功能还是质量;人工智能系统需要训练的自然数据(如人造数据)越多,系统就会变得越好。
然而,对人工智能公司来说不幸的是,事实证明自然数据是一种有限的资源,如果这种资源枯竭,研究人员警告说,他们可能会面临严重的后果。
正如澳大利亚麦考瑞大学(Macquarie University)信息技术法学教授丽塔?马图里尼特(Rita Matulionyte)在一篇文章中所指出的那样,人工智能研究人员近一年来一直在敲响数据供应减少的警钟。人工智能预测机构Epoch AI的研究人员去年进行的一项研究估计,人工智能公司最早可能在2026年耗尽高质量的文本训练数据,而低质量的文本和图像数据井可能在2030年至2060年之间的任何时候枯竭。
考虑到人工智能系统需要运行和改进的数据量,这对人工智能公司来说是一个不稳定的局面。随着开发人员投入越来越多的数据,人工智能模型已经取得了巨大的进步。如果数据供应停滞,模型也会停滞——或许整个行业也会停滞。
尽管Matulionyte提供使用合成数据(或人工智能模型生成的数据)来训练新模型,作为对数据饥渴的人工智能公司的一种可能的缓解技术,但这可能也不是一个可行的解决方案。事实上,使用合成内容可能会完全破坏一个给定的模型;有一些研究表明,在人工智能生成的内容上训练人工智能模型会产生明显的近亲繁殖效应,数据集中缺乏方差会导致混乱、不可思议的输出。(也就是说,正如Matulionyte所指出的,一些公司已经在试验合成训练集了。)
就目前而言,这个迫在眉睫的问题的最实际解决方案——除了大规模人类内容农场的出现,我们这些低碳生物咔嗒咔嗒地满足我们机器人统治者对数据的无尽渴求——实际上可能是通过数据合作。基本上,一家拥有大量高质量数据的公司或机构与一家人工智能公司达成协议,交出这些数据,可能是为了换取现金。
硅谷领先的人工智能公司OpenAI最近在一篇博客文章中写道:“现代人工智能技术通过理解训练数据来学习我们世界的技能和方面——人、动机、互动和沟通方式。”OpenAI上周刚刚推出了一项新的数据合作伙伴关系。“数据伙伴关系旨在使更多的组织能够帮助引导人工智能的未来,”博客继续说道,“并通过包括他们关心的内容,从对他们更有用的模型中受益。”
考虑到目前用于训练人工智能系统的大多数人工智能数据集都是由最初由在线创建的互联网抓取数据制成的,数据合作伙伴关系可能并不是最糟糕的方式。但随着数据变得越来越有价值,看看有多少人工智能公司能真正竞争数据集,当然会很有趣——更不用说有多少机构,甚至个人,愿意首先把他们的数据交给人工智能真空。
但即便如此,也不能保证数据井不会枯竭。尽管互联网看似无穷无尽,但实际上没有什么东西是无穷无尽的。