
博士TL;
谷歌最近推出并展示了其最新的大型语言模型Gemini。
然而,谷歌的Gemini演示并不是实时的,并且在几个演示序列中采取了一些自由。
Google Gemini实时处理静态图像和书面文本,并输出书面文本。
谷歌最近向公众推出了其最新的大型语言模型Gemini。Gemini将与OpenAI的GPT-4等竞争,并将在未来几年为谷歌的大部分人工智能提供动力。谷歌有一个非常棒的实际演示来展示Gemini的能力,令人印象深刻的是,人工智能模型看起来是多么无缝。然而,这只是故事的一部分,因为现在发现演示并不是双子座的实时演示。
首先,让我们来看看谷歌的双子座实践视频:
相当令人印象深刻,对吧?双子座可以毫不费力、无缝地理解口语和图像,即使图像动态变化(比如鸭子被涂上颜色)。Gemini的反应非常灵敏,让人感觉演示并不像是人工智能互动;它可能是一个人!
事实证明,部分视频是假的。人工智能的互动并没有像谷歌展示的那样发生。正如彭博社指出的那样,YouTube对该视频的描述有以下免责声明:
虽然这表明人工智能模型需要更长的时间才能做出反应,但彭博社指出,演示既不是实时进行的,也不是用语音进行的。谷歌的一位发言人表示,这是通过“使用视频中的静止图像帧,并通过文本提示”制作的。
事实证明,Gemini的工作方式比演示中展示的更像人工智能。谷歌的研究副总裁和Gemini的联合负责人展示了Gemini的实际工作原理。
第二个视频展示了Gemini如何有一个初始指令集,将其注意力吸引到图像中对象的顺序上。然后,将静止图像与文本输入一起馈送给Gemini。当模型运行时,Gemini大约需要4到5秒的时间来输出一条短信。
该公司从未提到这是一个现场演示,甚至有一个免责声明的地方延迟和简短。但很明显,谷歌在演示中发挥了创造性的自由。
公司比你想象的更频繁地编辑他们的演示,现场观众演示是你唯一应该接受的表面价值。但有人可能会说,谷歌对双子座的演示有点太有创意了,并没有准确地描述双子座的工作原理。
这与手机oem厂商在舞台上展示相机样品和“拍摄”照片和视频非常相似,而事实是,获得这些结果需要额外的设备和人才。普通用户得到的结果会大不相同,我们大多数人已经学会忽略相机样本,尤其是公司提供的样本。
评论