英偉達展示新型人工智能模型:可修改聲音和生成新聲音

鞭牛士報道,11月26日消息,據路透社報道,英偉達週一展示了一種用於生成音樂和音頻的新型人工智能模型,該模型可以修改聲音並生成新的聲音——該技術針對的是音樂、電影和視頻遊戲製作者。

英偉達是全球最大的人工智能系統芯片和軟件供應商,該公司表示,目前還沒有公開發布這項技術的計劃,該技術被稱爲 Fugatto,是 Foundational Generative Audio Transformer Opus 1 的縮寫。

它加入了 Runway 等初創公司和 Meta Platforms等大型公司所展示的其他技術,可以根據文本提示生成音頻或視頻,包括像狗叫一樣吹響喇叭等新奇的聲音。

它與其他人工智能技術的不同之處在於,它能夠接收和修改現有音頻,例如,將鋼琴彈奏的一段歌詞轉換成人聲唱出的歌詞,或者將口語錄音改變所使用的口音和表達的情緒。

英偉達應用深度學習研究副總裁 Bryan Catanzaro 表示:如果我們回顧過去 50 年的合成音頻,就會發現現在的音樂聽起來已經不同了,因爲有了計算機和合成器。我認爲生成式人工智能將爲音樂、視頻遊戲和想要創造事物的普通人帶來新的功能。

雖然 OpenAI 等公司正在與好萊塢電影公司就是否以及如何將人工智能應用於娛樂行業進行談判,但科技界和好萊塢之間的關係變得緊張,特別是在好萊塢明星斯嘉麗約翰遜指責 OpenAI 模仿她的聲音之後。

英偉達的新模型是在開源數據上進行訓練的,該公司表示仍在討論是否以及如何公開發布它。

「任何生成技術都存在一定的風險,因爲人們可能會利用它生成我們不希望他們生成的東西。」卡坦扎羅說。「我們需要對此保持謹慎,這就是爲什麼我們暫時沒有發佈這項技術的計劃。」

生成式人工智能模型的創建者尚未確定如何防止濫用該技術,例如用戶生成錯誤信息或通過生成受版權保護的角色來侵犯版權。

OpenAI 和 Meta 也沒有透露何時計劃向公衆發佈能夠生成音頻或視頻的模型。