近日,美國人工智能研究公司openai在其官方網站上首次公開了一款名為“voice engine”(語音引擎)的新技術。這項技術可以通過輸入文本和15秒音頻樣本,生成一個與音頻中說話者非常相似的自然語音。這一技術的推出,無疑將進一步推動人工智能在語音合成領域的發展,但同時也引發了關於其可能被濫用的擔憂。
openai表示,這款語音引擎在2022年底就已經開始研發,目前已經被用作一些其他功能的預設語音。然而,由於合成語音可能會被濫用,openai隻在小範圍內與開發人員分享了該模型,未來可能不會廣泛推出這一功能。這一決定充分體現了openai對於人工智能技術應用的責任感和謹慎態度。
在實際應用中,兒童教育技術公司age of learning已經開始使用這個模型來生成一些預先編寫好的內容,並且還結合gpt-4 創建實時的響應來與學生互動。此外,數字人視頻生成初創公司heygen也采用了這項技術,可以根據內容創建定製的數字人化身,而voice engine可以將樣本的聲音轉換成多種其他語言,來幫助產品營銷到銷售演示。
在轉換語言時,voice engine會保留原始說話者的母語口音,例如樣本中的人使用的是法語,那麽生成的英語將帶有法國口音。這一特性無疑將為跨語言的交流提供更多的可能性。然而,這也引發了一個問題:如果這項技術被用於製造假新聞或者進行欺詐活動,後果將不堪設想。
openai顯然也意識到了這一點,他們在新聞稿中寫道:“我們認識到,生成聲音的功能存在嚴重風險,這一點在大選年尤為突出。我們正在與來自政府、媒體、娛樂、教育等領域的國際合作夥伴合作,以確保我們在建設過程中吸收他們的反饋。”
openai產品負責人jeff harris在接受媒體采訪時也表示:“如果你能正確地設置音頻,基本上就能生成人類口徑的聲音,這是一種相當令人印象深刻的技術。”但harris也提到,準確模仿人類語音的能力確實存在安全隱患。
今年1月,美國就出現了“ai拜登”事件,由ai生成的“假拜登”在電話中用逼真的聲音鼓勵可能支持民主黨的5000位選民在新罕布什爾州初選中不要投票。這一事件引發了對於ai語音模仿技術可能帶來的風險的廣泛關注。本月早些時候,拜登呼籲國會通過立法來監管ai,包括禁止“ai語音模仿”等。
在測試計劃中,openai要求其合作夥伴遵守其製定的使用政策:在使用語音樣本之前要征得聲音主人的同意,並明確告訴聽眾聲音是ai生成的。該公司還在安裝一種聽不見的音頻水印,以區分音頻是否是由其工具創建的。
openai寫道:“無論我們最終是否會廣泛部署這項技術,讓全球各地的人們了解這個發展方向都是非常重要的。”這一表態充分體現了openai對於人工智能技術的開放態度和對於社會責任的承擔。
總的來說,openai推出的“語音引擎”技術無疑為人工智能在語音合成領域的發展打開了新的可能,但同時也帶來了新的挑戰。如何在推動技術發展的同時,有效防止其被濫用,將是openai以及整個人工智能行業需要麵對的重要問題。
openai表示,這款語音引擎在2022年底就已經開始研發,目前已經被用作一些其他功能的預設語音。然而,由於合成語音可能會被濫用,openai隻在小範圍內與開發人員分享了該模型,未來可能不會廣泛推出這一功能。這一決定充分體現了openai對於人工智能技術應用的責任感和謹慎態度。
在實際應用中,兒童教育技術公司age of learning已經開始使用這個模型來生成一些預先編寫好的內容,並且還結合gpt-4 創建實時的響應來與學生互動。此外,數字人視頻生成初創公司heygen也采用了這項技術,可以根據內容創建定製的數字人化身,而voice engine可以將樣本的聲音轉換成多種其他語言,來幫助產品營銷到銷售演示。
在轉換語言時,voice engine會保留原始說話者的母語口音,例如樣本中的人使用的是法語,那麽生成的英語將帶有法國口音。這一特性無疑將為跨語言的交流提供更多的可能性。然而,這也引發了一個問題:如果這項技術被用於製造假新聞或者進行欺詐活動,後果將不堪設想。
openai顯然也意識到了這一點,他們在新聞稿中寫道:“我們認識到,生成聲音的功能存在嚴重風險,這一點在大選年尤為突出。我們正在與來自政府、媒體、娛樂、教育等領域的國際合作夥伴合作,以確保我們在建設過程中吸收他們的反饋。”
openai產品負責人jeff harris在接受媒體采訪時也表示:“如果你能正確地設置音頻,基本上就能生成人類口徑的聲音,這是一種相當令人印象深刻的技術。”但harris也提到,準確模仿人類語音的能力確實存在安全隱患。
今年1月,美國就出現了“ai拜登”事件,由ai生成的“假拜登”在電話中用逼真的聲音鼓勵可能支持民主黨的5000位選民在新罕布什爾州初選中不要投票。這一事件引發了對於ai語音模仿技術可能帶來的風險的廣泛關注。本月早些時候,拜登呼籲國會通過立法來監管ai,包括禁止“ai語音模仿”等。
在測試計劃中,openai要求其合作夥伴遵守其製定的使用政策:在使用語音樣本之前要征得聲音主人的同意,並明確告訴聽眾聲音是ai生成的。該公司還在安裝一種聽不見的音頻水印,以區分音頻是否是由其工具創建的。
openai寫道:“無論我們最終是否會廣泛部署這項技術,讓全球各地的人們了解這個發展方向都是非常重要的。”這一表態充分體現了openai對於人工智能技術的開放態度和對於社會責任的承擔。
總的來說,openai推出的“語音引擎”技術無疑為人工智能在語音合成領域的發展打開了新的可能,但同時也帶來了新的挑戰。如何在推動技術發展的同時,有效防止其被濫用,將是openai以及整個人工智能行業需要麵對的重要問題。