据FOREXBNB报道,英伟达(NVDA.US)最近发布了一款新型的人工智能(AI)模型,专门用于音乐和音频的生成,目标用户群体是那些创作音乐、电影和视频游戏的专业人士。

英伟达透露,这款名为Fugatto(Foundational Generative Audio Transformer Opus)的模型,能够利用任何文本和音频资料来创造或调整音乐和声音。

例如,该模型能够根据文本提示生成音乐片段,从已有歌曲中移除或增加乐器,改变声音中的口音或情感,甚至产生前所未有的声音。

英伟达的应用音频研究经理、同时也是管弦乐队指挥和作曲家的Rafael Valle指出:“我们的目标是开发一个能够像人类一样理解和创造声音的模型。”

英伟达提到,广告公司可以利用Fugatto迅速定位并调整多地区现有广告的配音,加入不同的口音和情感。同时,视频游戏开发者可以利用这个AI模型来调整游戏中的预录音频,以适应玩家在游戏中不断变化的动作。

Fugatto甚至可以让小号发出狗叫声或萨克斯风发出猫叫声。英伟达还补充说,通过微调和少量的歌唱数据,研究人员发现该模型能够处理未经预训练的任务,例如从文本中生成高质量的歌唱声音。

英伟达宣布,Fugatto的完整版采用了25亿个参数,并在配备了32个Nvidia H100 Tensor Core GPU的Nvidia DGX系统上进行了训练。整个模型的开发和训练过程耗时超过一年。

Fugatto可能会面临来自Runway等初创公司以及Meta Platforms(META.US)等大公司的类似技术的竞争。今年10月,Meta 推出了名为Movie Gen的AI模型,该模型能够根据用户的提示创建逼真的视频和音频剪辑。

今年2月,ChatGPT的制造商OpenAI推出了Sora,它能够根据文本指令创建逼真且富有想象力的场景。这家由微软(MSFT.US)支持的公司尚未公开发布其文本转视频模型。