據FOREXBNB報道,英偉達(NVDA.US)最近發布了一款新型的人工智慧(AI)模型,專門用於音樂和音訊的生成,目標用戶群是那些創作音樂、電影和電玩的專業人士。
英偉達透露,這款名為Fugatto(Foundational Generative Audio Transformer Opus)的模型,能夠利用任何文字和音訊資料來創造或調整音樂和聲音。
例如,該模型能夠根據文字提示生成音樂片段,從已有歌曲中移除或增加樂器,改變聲音中的口音或情感,甚至產生前所未有的聲音。
英偉達的應用音訊研究經理、同時也是管弦樂指揮和作曲家的Rafael Valle指出:“我們的目標是開發一個能夠像人類一樣理解和創造聲音的模型。”
英偉達提到,廣告公司可以利用Fugatto迅速定位並調整多地區現有廣告的配音,加入不同的口音和情感。同時,電玩遊戲開發者可以利用這個AI模型來調整遊戲中的預錄音頻,以適應玩家在遊戲中不斷變化的動作。
Fugatto甚至可以讓小號發出狗叫聲或薩克斯風發出貓叫聲。英偉達也補充說,透過微調和少量的歌唱數據,研究人員發現該模型能夠處理未經預先訓練的任務,例如從文本中生成高品質的歌唱聲音。
英偉達宣布,Fugatto的完整版採用了25億個參數,並在配備了32個Nvidia H100 Tensor Core GPU的Nvidia DGX系統上進行了訓練。整個模型的开发和训练过程耗时超过一年。
Fugatto可能會面臨來自Runway等新創公司以及Meta Platforms(META.US)等大公司的類似技術的競爭。今年10月,Meta 推出了名為Movie Gen的AI模型,該模型能夠根據用戶的提示創建逼真的視訊和音訊剪輯。
今年2月,ChatGPT的製造商OpenAI推出了Sora,它能夠根據文字指令創建逼真且富有想像力的場景。這家由微軟(MSFT.US)支援的公司尚未公開發布其文字轉視訊模型。