英偉達(NVDA.US)推出新AI模型Fugatto，可修改並產生新聲音

2024-11-26 12:01

據FOREXBNB報道，英偉達(NVDA.US)發布了一款新型AI模型Fugatto，旨在輔助音樂、電影和視頻遊戲創作者生成音樂和音頻。

據FOREXBNB報道，英偉達(NVDA.US)最近發布了一款新型的人工智慧(AI)模型，專門用於音樂和音訊的生成，目標用戶群是那些創作音樂、電影和電玩的專業人士。

英偉達透露，這款名為Fugatto(Foundational Generative Audio Transformer Opus)的模型，能夠利用任何文字和音訊資料來創造或調整音樂和聲音。

例如，該模型能夠根據文字提示生成音樂片段，從已有歌曲中移除或增加樂器，改變聲音中的口音或情感，甚至產生前所未有的聲音。

英偉達的應用音訊研究經理、同時也是管弦樂指揮和作曲家的Rafael Valle指出：“我們的目標是開發一個能夠像人類一樣理解和創造聲音的模型。”

英偉達提到，廣告公司可以利用Fugatto迅速定位並調整多地區現有廣告的配音，加入不同的口音和情感。同時，電玩遊戲開發者可以利用這個AI模型來調整遊戲中的預錄音頻，以適應玩家在遊戲中不斷變化的動作。

Fugatto甚至可以讓小號發出狗叫聲或薩克斯風發出貓叫聲。英偉達也補充說，透過微調和少量的歌唱數據，研究人員發現該模型能夠處理未經預先訓練的任務，例如從文本中生成高品質的歌唱聲音。

英偉達宣布，Fugatto的完整版採用了25億個參數，並在配備了32個Nvidia H100 Tensor Core GPU的Nvidia DGX系統上進行了訓練。整個模型的开发和训练过程耗时超过一年。

Fugatto可能會面臨來自Runway等新創公司以及Meta Platforms(META.US)等大公司的類似技術的競爭。今年10月，Meta 推出了名為Movie Gen的AI模型，該模型能夠根據用戶的提示創建逼真的視訊和音訊剪輯。

今年2月，ChatGPT的製造商OpenAI推出了Sora，它能夠根據文字指令創建逼真且富有想像力的場景。這家由微軟(MSFT.US)支援的公司尚未公開發布其文字轉視訊模型。

上一篇：英國石油(BP.US)CEO“期待”川普重返白宮預測全球石油需求持續上升

下一篇：晶片巨擘合併交易泡湯？傳高通(QCOM.US)收購英特爾(INTC.US)的興趣降溫

免責聲明：本文觀點來自原作者，不代表ForexBNB的觀點與立場。文章內容僅供參考、交流、學習，不構成投資建議。如涉及版權問題，請聯絡我們刪除。