谷歌的双子座人工智能令人印象深刻,但病毒式传播的演示并不完全真实

体育作者 / 花爷 / 2025-02-15 04:22
"
    博士TL;  谷歌最近推出并展示了其最新的大型语言模型Gemini。  然而,谷歌的Gemini演示并不是实时的,并且在几个演

  

  博士TL;

  谷歌最近推出并展示了其最新的大型语言模型Gemini。

  然而,谷歌的Gemini演示并不是实时的,并且在几个演示序列中采取了一些自由。

  Google Gemini实时处理静态图像和书面文本,并输出书面文本。

  谷歌最近向公众推出了其最新的大型语言模型Gemini。Gemini将与OpenAI的GPT-4等竞争,并将在未来几年为谷歌的大部分人工智能提供动力。谷歌有一个非常棒的实际演示来展示Gemini的能力,令人印象深刻的是,人工智能模型看起来是多么无缝。然而,这只是故事的一部分,因为现在发现演示并不是双子座的实时演示。

  首先,让我们来看看谷歌的双子座实践视频:

  相当令人印象深刻,对吧?双子座可以毫不费力、无缝地理解口语和图像,即使图像动态变化(比如鸭子被涂上颜色)。Gemini的反应非常灵敏,让人感觉演示并不像是人工智能互动;它可能是一个人!

  事实证明,部分视频是假的。人工智能的互动并没有像谷歌展示的那样发生。正如彭博社指出的那样,YouTube对该视频的描述有以下免责声明:

  虽然这表明人工智能模型需要更长的时间才能做出反应,但彭博社指出,演示既不是实时进行的,也不是用语音进行的。谷歌的一位发言人表示,这是通过“使用视频中的静止图像帧,并通过文本提示”制作的。

  事实证明,Gemini的工作方式比演示中展示的更像人工智能。谷歌的研究副总裁和Gemini的联合负责人展示了Gemini的实际工作原理。

  第二个视频展示了Gemini如何有一个初始指令集,将其注意力吸引到图像中对象的顺序上。然后,将静止图像与文本输入一起馈送给Gemini。当模型运行时,Gemini大约需要4到5秒的时间来输出一条短信。

  该公司从未提到这是一个现场演示,甚至有一个免责声明的地方延迟和简短。但很明显,谷歌在演示中发挥了创造性的自由。

  公司比你想象的更频繁地编辑他们的演示,现场观众演示是你唯一应该接受的表面价值。但有人可能会说,谷歌对双子座的演示有点太有创意了,并没有准确地描述双子座的工作原理。

  这与手机oem厂商在舞台上展示相机样品和“拍摄”照片和视频非常相似,而事实是,获得这些结果需要额外的设备和人才。普通用户得到的结果会大不相同,我们大多数人已经学会忽略相机样本,尤其是公司提供的样本。

  评论

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读