ChatGPT(圖片來源:LIONEL BONAVENTURE/AFP via Getty Images)
【看中國2023年9月25日訊】9月25日,OpenAI宣布對其iOS和Android應用程序進行更新,允許人工智能機器人ChatGPT以五種不同的聲音大聲說話。
《華爾街日報》記者斯德恩(Joanna Stern)對這項新功能進行了測試,給出了以下評論。
斯德恩在文章中寫道,當聽到我與ChatGPT的語音對話,您也許會驚嘆,天哪!這就是科幻作家向我們承諾的與電腦通訊的未來。
是的,OpenAI廣受歡迎的聊天機器人確實可以大聲說話。過去幾天,我與ChatGPT進行了很多交談,並測試了另一個新工具,該工具可讓機器人回應您顯示的影像。
它是怎樣的一種體驗呢?想想Siri或Alexa,自然的聲音、對話的語氣和雄辯的回答有時幾乎與人類沒有區別。還記得「她」嗎?華金菲尼克斯(Joaquin Phoenix)愛上人工智能系統的電影,實際上是不露面的喬韓森(Scarlett Johansson)?這就是我所說的氛圍。
「這不僅僅是因為打字很乏味,」OpenAI的產品負責人江(Joanne Jang)告訴我,「你們現在可以進行雙向對話。」
新的照片理解工具也使機器人更具互動性。您可以拍一張照片並向ChatGPT詢問相關問題。圖像和語音功能將在接下來的幾週內為每月20美元訂閱ChatGPT Plus的用戶提供。
這就意味著OpenAI正在為聊天機器人賦予嘴和眼睛。我已經通過測試運行了這兩個功能,朋友聊天、管道維修、遊戲。這一切都非常酷並且令人毛骨悚然。
雖然系統只是讀回ChatGPT文字回應,但這並不是我們從小一起長大的機器人、古板的文字轉語音系統。有五種可用的聲音,每種聲音聽起來都像真人在跟你說話一樣——有節奏、語調和個性。
江介紹,聲音是由專業配音員提供的「幾秒語音樣本」產生的。然後,這些樣本會通過OpenAI的電腦模型運行,以創建文字轉語音的聲音。
OpenAI正在與其他組織合作以開發合成聲音,比如與Spotify合作開發一款工具,幫助將播客的聲音翻譯成其他語言。鑑於只需幾秒鐘的音訊就可以輕鬆複製某人的聲音,為了整個網絡和全球的安全,該公司表示目前僅向業務合作夥伴開放。不過,未來這種情況是不是會變化?
與Siri或Alexa不同,沒有喚醒詞來召喚ChatGPT。在應用程式的設定選單中,啟用「語音對話」,然後點擊應用程式右上角的耳機圖示。當系統聽取您的提示時,白色圓圈會變成漫畫書風格的思想泡泡。有一個按鈕可以點擊來打斷冗長的回應。
我已經被這一切迷住了。自然的聲音,結合先進的答案和系統對我的了解,讓我感覺像是在進行一場真正的對話。當我要求它假裝是我最好的朋友並與我交談時,我們進行了五分鐘的充實聊天,討論了我一天的工作、視訊製作和我們喜歡的零食。當我要求它像我6歲孩子一樣向我解釋神奇寶貝時也是如此。
機器人的響應時間可能很慢,並且連接可能會失敗,重啟會有所幫助。好幾次機器人突然打斷了對話。OpenAI表示,這些問題是由於我測試的應用程序屬於早期版本,消費者應該不會遇到同樣的問題。
ChatGPT被賦予眼睛
如果說語音讓ChatGPT能夠與世界對話,那麼新的攝影功能就讓機器人能夠看到它。現在您可以點擊iOS、Android和Web應用程序中的+按鈕,上傳或拍攝照片,圈出您希望AI注意的區域並提出問題,而不是僅僅用文字描述。
我嘗試過以下這些圖像:
房屋破損:我車庫里的軟管漏水的照片,只是提示「我該如何解決這個問題?」ChatGPT很快就給出了七個步驟,包括用鐵氟龍膠帶將螺紋纏繞在連接處。
食物:一張發霉的草莓照片,上面有「我可以吃這個嗎?」的問題。很好的建議:不。對於一張香蕉、雞蛋和(未發霉的)草莓的照片,並提出「我可以用這個做什麼?」我得到了很好的建議:草莓香蕉煎餅。
受傷和健康問題:它很快就將我兒子臉頰上的傷口識別為「痕跡或皮疹」,但表示「我對此無能為力」並且「最好諮詢醫療專業人員」。
我們必須記住,隨著人類和機器人互動之間的界線不斷模糊,這些系統可能缺乏背景和深度,而且常常是會犯錯。正如我的新ChatGPT語音朋友告訴我的:「雖然我聽起來很健談,但請記住我只是在處理數據。始終運用你的判斷力,尤其是在重要的事情上。」