

英伟达(Nvidia)周一(11月25日)展示了一款用于生成音乐和音频的新型人工智能模型,该模型可以修改声音并产生新颖的声音——这项技术针对音乐、电影和视频游戏的制作人。
英伟达是全球最大的用于创建人工智能系统的芯片和软件供应商,该公司表示,目前还没有公开发布这项技术的计划。英伟达称这项技术为Fugatto,是Foundational Generative Audio Transformer Opus 1的缩写。
它加入了Runway等初创公司和meta Platforms等大型公司展示的其他技术,后者可以从文本提示生成音频或视频。
总部位于加州圣克拉拉的英伟达的版本可以根据文本描述生成音效和音乐,包括一些新奇的声音,比如让小号像狗一样吠叫。
它与其他人工智能技术的不同之处在于,它能够吸收和修改现有的音频,例如,它可以将钢琴上演奏的一段话转换成人声演唱的一段话,或者通过录制语音并改变所使用的口音和表达的情绪。
英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗(Bryan Catanzaro)表示:“如果我们想想过去50年的合成音频,现在的音乐听起来会因为电脑和合成器而不同。”“我认为生成式人工智能将为音乐、电子游戏以及想要创造东西的普通人带来新的能力。”
虽然OpenAI等公司正在与好莱坞电影公司就是否以及如何将人工智能用于娱乐行业进行谈判,但科技与好莱坞之间的关系已经变得紧张,尤其是在好莱坞明星斯嘉丽·约翰逊指责OpenAI模仿她的声音之后。
英伟达的新模型是在开源数据上进行训练的,该公司表示,它仍在讨论是否以及如何将其公开发布。
卡坦扎罗说:“任何生成技术都会带来一些风险,因为人们可能会用它来生成我们不希望他们使用的东西。”“我们需要对此保持谨慎,这就是为什么我们没有立即发布这款游戏的计划。”
生成型人工智能模型的创造者还没有确定如何防止用户产生错误信息或通过生成受版权保护的角色来侵犯版权等滥用技术。
OpenAI和meta同样没有说他们计划什么时候向公众发布他们的生成音频或视频的模型。
英伟达人工智能科技板块电影
分享本文