科幻電影《Her》中的情景似乎正在走進現實。GPT-4o的語音功能終於開啓了灰度測試,一些ChatGPT Plus用戶已經搶先體驗了這一激動人心的新功能。OpenAI的這一創新,不僅讓AI能講笑話、學貓叫,甚至還能作爲"二外教練"幫助練習口語。
GPT-4o的語音模式帶來了更加自然、實時的對話體驗。用戶可以隨意打斷AI,它甚至能感知並回應用戶的情緒。預計今年秋季,所有ChatGPT Plus用戶都將能使用這一功能。更讓人期待的是,視頻和屏幕共享功能也將在不久後推出,屆時用戶可以與ChatGPT實現"面對面"的交流。
GPT-4o的輸出能力也得到了大幅提升。新模型的輸出token數量從4000個暴漲至64000個,這意味着一次性可以獲得相當於4個完整長篇電影劇本的內容。OpenAI在官方網頁中悄然推出了這一測試版新模型gpt-4o-64k-output-alpha。
爲了確保安全性和質量,OpenAI在過去幾個月裏一直在對GPT-4o語音功能進行嚴格的測試。他們與100多名紅隊人員,對45種語言進行了測試,並訓練模型只使用4種預設聲音說話,以保護用戶隱私。此外,內容過濾也是必不可少的,團隊採取措施阻止了暴力和版權相關內容的生成。
網友們對GPT-4o語音模式的實測結果令人印象深刻。有人發現它可以快速回答問題,幾乎沒有延遲;有人用它來模仿不同的聲音和口音;還有人讓它充當足球比賽解說員,甚至用中文生動地講故事。這些案例展示了GPT-4o在語音識別和生成方面的強大能力。
值得一提的是,儘管OpenAI聲稱視頻和屏幕共享功能將稍後推出,但一些網友已經提前體驗到了這些功能。例如,一位網友向ChatGPT展示了自己爲新寵物貓咪準備的小窩,ChatGPT在看過後評價道"一定非常舒適",並關心地詢問貓咪的情況。
此外,GPT-4o的長輸出功能也悄悄上線了。OpenAI正式宣佈向測試者提供GPT-4o Alpha版本,每次請求支持最多輸出64K token,相當於200頁小說。這一功能的推出,是基於用戶對於更長輸出內容的需求。
然而,更長的輸出也意味着更高的計算量和價格。GPT-4o Long Output的價格每百萬輸入token爲6美元,每百萬輸出token爲18美元,相較於之前的模型有所上漲。儘管如此,一些研究員認爲長輸出主要用於數據轉換等用例,對於編寫代碼、改進寫作等場景非常有幫助。
總的來說,GPT-4o的語音功能和長輸出能力,無疑將爲用戶帶來更加豐富、便捷的交互體驗。我們有理由相信,隨着技術的不斷進步,AI將在更多領域展現出其獨特的價值。