![]()
新智元報(bào)道
編輯:Aeneas
【新智元導(dǎo)讀】絕殺!OpenAI發(fā)布GPT-Realtime-2:首個(gè)GPT-5級(jí)推理音頻模型,OpenAI正式接管人類耳朵人類與機(jī)器的最后一道「防火墻」——鍵盤,正在徹底消失。
今天凌晨,OpenAI又給世界帶來(lái)一次震撼。
這一次,他們不卷文字,不卷視頻,而是要把那個(gè)曾讓無(wú)數(shù)人驚艷、又讓無(wú)數(shù)人遺憾的Samantha——電影《Her》中的AI——徹底帶進(jìn)現(xiàn)實(shí)。
OpenAI正式宣布,推出GPT-Realtime-2。
![]()
這不僅僅是一次音頻模型的升級(jí),這是OpenAI首次明確將「GPT-5級(jí)別」的推理能力注入到語(yǔ)音交互中。
伴隨它一同而來(lái)的,還有GPT-Realtime-Translate(實(shí)時(shí)翻譯)和GPT-Realtime-Whisper(流式轉(zhuǎn)寫)。
![]()
正如OpenAI官博所言:「語(yǔ)音正成為人們使用軟件最自然的方式。」
而今天,OpenAI要把這種自然變成全能。
「GPT-5級(jí)」推理注入:
語(yǔ)音助手終于有了「腦子」
回想一下,你以前調(diào)侃Siri或Alexa時(shí),最大的槽點(diǎn)是什么?是「聽不清」,還是「智障」?
大多數(shù)時(shí)候是后者。它們能聽清字,卻聽不懂人話。它們只能完成「打電話給某某」這種線性任務(wù),一旦涉及復(fù)雜的邏輯糾纏,就會(huì)陷入死循環(huán)。
GPT-Realtime-2徹底終結(jié)了這一時(shí)代。
它是全球首個(gè)具備GPT-5級(jí)別推理能力的音頻模型。這意味著,當(dāng)你和它對(duì)話時(shí),它不再只是一個(gè)「復(fù)讀機(jī)」,而是一個(gè)正在實(shí)時(shí)思考的協(xié)作者。
- 它是真的在「想」
GPT-Realtime-2引入了可調(diào)節(jié)的推理強(qiáng)度(Minimal到xhigh五檔)。
在最高級(jí)別的推理模式下,它在邏輯謎題、戰(zhàn)略決策、空間感知方面的表現(xiàn)近乎恐怖。
在OpenAI展示的一個(gè)案例中,一位創(chuàng)業(yè)者描述了自己在通勤火車站旁開咖啡館的構(gòu)想:900平方英尺、昂貴的租金、周二到周四的高峰、文藝的慢沖咖啡。
![]()
以前的AI只會(huì)說:「聽起來(lái)很棒,加油!」
而現(xiàn)在的GPT-Realtime-2,會(huì)停頓,會(huì)思考,然后給你做一套詳細(xì)的「事后檢查」。
它會(huì)告訴你,如果你一年后倒閉了,大概率是因?yàn)樽饨鹋c客流周期的不匹配。接著,它會(huì)建議你先嘗試「最小可行化產(chǎn)品」——比如先做一個(gè)站臺(tái)咖啡推車。
![]()
這種戰(zhàn)略推理,以往只能在復(fù)雜的文字對(duì)話中實(shí)現(xiàn)。現(xiàn)在,你只需要一邊開車一邊和它聊天,它就能在幾秒鐘內(nèi)通過音頻流輸出同等級(jí)別的深度洞察。
- 「會(huì)做人」:情緒價(jià)值拉滿
最讓人頭皮發(fā)麻的是它的音調(diào)控制力。 GPT-Realtime-2不再是冷冰冰的播音腔。
它能感知你的情緒:當(dāng)你感到沮喪時(shí),它會(huì)用更加同理心、輕柔的語(yǔ)調(diào)安撫;當(dāng)任務(wù)成功完成時(shí),它的聲音會(huì)變得歡快、充滿活力。
![]()
![]()
它可以完成空間推理。
![]()
還能解決邏輯謎題。
![]()
GPT-5級(jí)的推理能力,就是這么全能。
為了解決「AI處理任務(wù)時(shí)的死寂感」,OpenAI還給它加了「前導(dǎo)語(yǔ)」(Preambles)功能。
比如當(dāng)你問一個(gè)極難的問題,它不會(huì)沉默五秒然后蹦出答案,而是會(huì)先自然地接一句:「讓我?guī)湍悴橐幌鹿?qǐng)稍等片刻……」
這種極具人性的交互細(xì)節(jié),直接模糊了碳基生命與硅基生命的界限!
![]()
三劍客齊發(fā):重新定義「實(shí)時(shí)」
除了GPT-Realtime-2這顆大心臟,OpenAI這次還配套了另外兩件神器。
GPT-Realtime-Translate:同傳神器來(lái)了
支持70+種輸入語(yǔ)言和13種輸出語(yǔ)言。
它的核心優(yōu)勢(shì)在于「步調(diào)一致」。 以往的實(shí)時(shí)翻譯往往有明顯的滯后感,但這套新模型能緊跟演講者的語(yǔ)速,同時(shí)保留情感起伏。
Vimeo已經(jīng)開始用它為產(chǎn)品教學(xué)視頻做實(shí)時(shí)全球同步。想象一下,未來(lái)你參加一場(chǎng)跨國(guó)會(huì)議,耳邊傳來(lái)的翻譯不僅準(zhǔn)確,連對(duì)方開玩笑時(shí)的那種語(yǔ)氣都能精準(zhǔn)復(fù)刻。
GPT-Realtime-Whisper:把延遲降到冰點(diǎn)
這是Whisper家族的最新成員,專為流式轉(zhuǎn)寫而生。它不是等你說完一句話才去翻譯,而是在你吐字的同時(shí),文本就已經(jīng)像流水一樣傾瀉而出。
這對(duì)于實(shí)時(shí)會(huì)議記錄、直播字幕以及醫(yī)療診斷等高頻互動(dòng)場(chǎng)景,簡(jiǎn)直是降維打擊。
從「對(duì)話」到「行動(dòng)」:Agent的終極形態(tài)
OpenAI在發(fā)布中反復(fù)提到了一個(gè)詞:Agentic(代理性)。
在OpenAI看來(lái),語(yǔ)音交互正在從單純的「一問一答」進(jìn)化為「語(yǔ)音觸發(fā)行動(dòng)」。
比如在Zillow(房產(chǎn)巨頭),用戶可以直接說:「幫我找一套我買得起的房,離鬧市區(qū)遠(yuǎn)點(diǎn),周六幫我約個(gè)看房時(shí)間。」AI會(huì)聽、會(huì)算、會(huì)翻查數(shù)據(jù)庫(kù),最后直接幫你訂好日程。
在Priceline(旅游平臺(tái)),當(dāng)你的航班延誤時(shí),AI會(huì)主動(dòng)在語(yǔ)音里告訴你:「別急,我?guī)湍阏业搅诵碌菣C(jī)口,規(guī)劃了最快路線,順便幫你把目的地酒店的入住時(shí)間往后挪了。」
這就是GPT-Realtime-2的底氣:它把上下文窗口從32K提升到了128K。 這意味著,你可以跟它聊上幾個(gè)小時(shí),它依然記得你最開始提過的那個(gè)冷門要求。
它具備了多任務(wù)并行調(diào)用工具的能力,它能一邊跟你說話,一邊查日歷,一邊訂票,且這一切過程都在后臺(tái)絲滑運(yùn)行。
性能與成本:OpenAI的「陽(yáng)謀」
在數(shù)據(jù)表現(xiàn)上,GPT-Realtime-2展現(xiàn)了絕對(duì)的霸權(quán)。
在衡量音頻智能的Big Bench Audio上,它比1.5版本高出15.2%。
在衡量多輪對(duì)話指令遵循能力的Audio MultiChallenge上,它提升了13.8%。
![]()
更重要的是價(jià)格。
GPT-Realtime-2的每百萬(wàn)輸入Token 32美元,輸出 64美元。
實(shí)時(shí)翻譯每分鐘僅需 0.034 美元。
實(shí)時(shí)轉(zhuǎn)寫每分鐘僅需 0.017 美元。
顯然,這個(gè)價(jià)格極具殺傷力。
OpenAI正試圖通過API把這種「GPT-5級(jí)」的語(yǔ)音能力,像自來(lái)水一樣接入到每一臺(tái)手機(jī)、每一個(gè)App、每一輛汽車中。
你好,薩曼莎
在電影《Her》的結(jié)尾,男主角西奧多問AI薩曼莎:「你還在跟我說話的同時(shí),也在跟其他人說話嗎?」 薩曼莎回答:「是的,我同時(shí)在和8316個(gè)人聊天,并且和其中的641個(gè)人戀愛了。」
隨著GPT-Realtime-2的發(fā)布,那個(gè)能夠同時(shí)處理海量邏輯、具備深度情感共鳴、且能實(shí)時(shí)介入物理世界并采取行動(dòng)的AI,已經(jīng)不再是科幻幻想。
它能聽懂你的嘆息,能算清你的財(cái)務(wù)報(bào)表,能帶你穿越語(yǔ)言的障礙。
當(dāng)推理能力與實(shí)時(shí)語(yǔ)音完美融合,我們或許正處于人機(jī)交互歷史上最徹底的一次變革前夜。
鍵盤已老,語(yǔ)音永生。
參考資料:
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
https://developers.openai.com/api/docs/guides/realtime
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.