英伟达(NVDA.US)推出新AI模型Fugatto，可修改并生成新声音

2024-11-26 12:01

据FOREXBNB报道，英伟达(NVDA.US)发布了一款新型AI模型Fugatto，旨在辅助音乐、电影和视频游戏创作者生成音乐和音频。

据FOREXBNB报道，英伟达(NVDA.US)最近发布了一款新型的人工智能(AI)模型，专门用于音乐和音频的生成，目标用户群体是那些创作音乐、电影和视频游戏的专业人士。

英伟达透露，这款名为Fugatto(Foundational Generative Audio Transformer Opus)的模型，能够利用任何文本和音频资料来创造或调整音乐和声音。

例如，该模型能够根据文本提示生成音乐片段，从已有歌曲中移除或增加乐器，改变声音中的口音或情感，甚至产生前所未有的声音。

英伟达的应用音频研究经理、同时也是管弦乐队指挥和作曲家的Rafael Valle指出：“我们的目标是开发一个能够像人类一样理解和创造声音的模型。”

英伟达提到，广告公司可以利用Fugatto迅速定位并调整多地区现有广告的配音，加入不同的口音和情感。同时，视频游戏开发者可以利用这个AI模型来调整游戏中的预录音频，以适应玩家在游戏中不断变化的动作。

Fugatto甚至可以让小号发出狗叫声或萨克斯风发出猫叫声。英伟达还补充说，通过微调和少量的歌唱数据，研究人员发现该模型能够处理未经预训练的任务，例如从文本中生成高质量的歌唱声音。

英伟达宣布，Fugatto的完整版采用了25亿个参数，并在配备了32个Nvidia H100 Tensor Core GPU的Nvidia DGX系统上进行了训练。整个模型的开发和训练过程耗时超过一年。

Fugatto可能会面临来自Runway等初创公司以及Meta Platforms(META.US)等大公司的类似技术的竞争。今年10月，Meta 推出了名为Movie Gen的AI模型，该模型能够根据用户的提示创建逼真的视频和音频剪辑。

今年2月，ChatGPT的制造商OpenAI推出了Sora，它能够根据文本指令创建逼真且富有想象力的场景。这家由微软(MSFT.US)支持的公司尚未公开发布其文本转视频模型。

上一篇：英国石油(BP.US)CEO“期待”特朗普重回白宫预测全球石油需求继续上升

下一篇：芯片巨头合并交易泡汤？传高通(QCOM.US)收购英特尔(INTC.US)的兴趣降温

免责声明：本文观点来自原作者，不代表ForexBNB的观点和立场。文章内容仅供参考、交流、学习，不构成投资建议。如涉及版权问题，请联系我们删除。