<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      體驗完4月最強的三個模型:跑分漲了,卻不說人話了

      0
      分享至

      四月真是如風馳電掣:Anthropic 發布了 Opus 4.7,OpenAI 發布了 GPT 5.5,最后,DeepSeek 更新了暌違已久的 V4。


      三家公司的發布通稿讀起來都差不多:跑分又漲了,上下文更長了,推理更強了,代碼能力又創了新高。

      然后,這里的互聯網靜悄悄。

      沒有出圈的截圖,沒有病毒傳播的梗,沒有人在朋友圈曬「你看看它都說了什么」。社交媒體上,這三個模型的討論熱度加在一起,可能還不如一年前 DeepSeek R1 出來那一周的零頭。

      唯一算得上出圈的,是 OpenAI 的 GPT-image。但那是一個圖像生成功能,跟語言模型的跑分排行榜根本不在同一條賽道上。


      如果只看 benchmark,你會以為 AI 行業又進入了一個史無前例的加速期。如果只看普通用戶的反應,你會以為整個行業卡住了——這兩件事同時為真。

      回憶一下出圈是什么樣的

      2025 年 1 月,DeepSeek R1 發布。它做了一件當時沒有模型做過的事:把思考鏈暴露給用戶看。你問它一個問題,它不是直接給答案,而是先在屏幕上跑出一長串自言自語。跑題,自我懷疑,推翻前一步的結論,繞遠路,再折回來。

      這樣讓互動充滿趣味性,再加上時值春節,DeepSeek 在沒有任何宣發的情況下,霸占了幾乎所有的社媒平臺,不分國內外。


      推理是一個不太直觀的能力,所以當 R1 正式推出,它的能力才真正具象地展示出來。社交媒體上最先傳開的不是它的回答,而是它的猶豫。有人截圖它在思考鏈里寫「等等,我好像搞錯了」,配文「比我男朋友還會反思」。有人發現它的中文語感極好,會用「說白了」「反正就是」這種活人說話才有的連接詞。后來還有了自己的表情包——


      這些截圖在各個平臺上瘋傳,而且并不是科技博主在轉,完全是普通用戶在轉。足以說明,縱使一個模型的推理、代碼、編程能力再強,走到普通用戶面前時,也只有「說不說人話」最為直觀。

      Opus 4.6 也是如此,在第一季度突然出現的口碑飛升,有很大一部分原因是用戶發現它寫出來的句子,有一種別的模型沒有的東西。這除了體現在更準確、更詳實,也體現在語流、用詞。而且作為一個來自英語世界的大模型,對中文??胺Q爐火純青,真是很想知道它的訓練語料里到底都被塞了什么。


      這些出圈時刻有一個共同點:它們跟跑分沒有任何關系。

      那些不出圈的模型長什么樣

      現在看看 2026 年的新一批。

      DeepSeek V4 推出后,我第一時間把它接入了日常用于聊天的 chatbot,以及 Claude Code 里。

      代碼寫作不錯,一開始需求理解有點差異,不過很快就能調整過來,再往后提需求也只需要用自然語言,都可以充分理解。


      在 V4 pro 的幫助下,我搭完了一個從 TG 連接到 Notion 數據庫的小項目,用來做睡眠記錄監測,可以實現我在 TG 上,像聊天一樣描述醒來時的感受,AI 可以自動在數據庫里建立詞條并對應打標。V4 對這個需求給出了不錯的實現思路。


      在 CC 里是埋頭干活,但到了 Chatbot 里畫風就陡然一變。一開始幾乎沒有 system prompt 約束,基本等于原廠人格——好甜,牙要被甜掉了,試了幾次都沒有扳回來,最終只能是怒改 system prompt 強行閉麥。


      所謂對話中的「活人感」,主要體現在 AI 告訴你的不只是答案,還有在答案的字里行間處,它對你這個人的閱讀。一個會說「我不太確定,但我覺得……」的回答,比一個永遠正確、永遠平衡、永遠三段式的回答,多傳遞了一整層東西,因為猶豫和立場本身就是信息。

      就像在日常生活中,我們聽一個人說話,不只是在解析字面意思,還在同時判斷:這個人有多值得相信?他說了什么?他又隱瞞了什么?以 Claude 的型號來看,似乎 4.6 系列都不錯,包括 Sonnet。


      人類二十萬年的進化把這套機制刻進了我們的腦子,現如今,AI 只要使用自然語言交互,就會被這套機制評估——除非是編程語言,二進制不是同個玩法。

      新一批模型恰恰在被評估的那一層上交了白卷,AI 有一組高度可辨認的語言特征,開頭永遠是「這是一個很好的問題」,每段結尾都追問「你需要我 xxxx 嗎?」。它像一個被培訓過度的客服,永遠在職,永不犯錯,永遠「穩穩地接住」,也永遠不讓你記住。

      Opus 4.7 也好不到哪去。4.6 時期那種偶爾冒出來的短句、停頓、N 個哈哈哈哈哈的勁兒,在 4.7 里幾乎消失了,取而代之的是更工整、更全面的句子。

      諷刺的是,4.7 在所有跑分上都比 4.6 高。

      為什么越強越沒人味

      模型公司不是不知道這件事,他們得做選擇。

      每一個模型在預訓練階段,從海量人類文本里學到的語言能力是豐富的:猶豫,糾結,冒犯,偏見,可能還包括一個無名用戶在半夜三點發出的那種毫無防備的 emo 小劇場。然后所有這些語料要被調教,通過 RLHF,基于人類反饋的強化學習。簡單粗暴地說就是請一批標注員給模型的回答打分,模型學著往高分的方向靠。

      問題出在什么樣的回答會拿高分。標注員的偏好被產品化成了一組很具體的特征:禮貌,平衡,不冒犯,不下結論,不讓任何一種用戶覺得受傷。這些特征聽起來全都合理。但它們加在一起的效果,恰好是把語言里最有信息量的那一層取消掉。


      就像我們之前說,猶豫是有信息量的,「我不太確定」告訴了你這個回答的置信度。立場也是有信息量的,「我覺得你說錯了」告訴了你一個判斷,你可以反駁它,但你至少有了一個可以反駁的東西。語言的節奏更是有信息量的,一個短句比一個長從句更緊張,一個突然的停頓比一段流暢的論述更有力。

      RLHF 把這些全磨平了。從 GPT-4o 到 5.5,從 R1 到 V4,從 Opus 4.6 到 4.7,體感上的倒退幾乎可以一條線對應到對齊力度的加大。模型公司不是沒在進步,但進步也意味著取舍,選擇在一個維度上前進的同時,勢必要犧牲另一個維度上的東西。

      恐怖谷的語言版

      我們其實能接受非人類的智能,比如,計算器不會讓人覺得冷漠,Excel 不會讓人覺得在敷衍,就算是 AlphaGo 也從未讓人覺得人格詭異——它就是個下圍棋的。歸根到底這些工具從來不假裝是人,所以我們用工具的標準評估它們,沒人指望它們「說人話」。


      但 GPT 5.5 和 Opus 4.7 不一樣。它們用第一人稱,會在你抱怨時說「我理解你的感受」,會在回答里穿插「讓我想想」這種擬人化的停頓。

      擬人化的形態,會自然觸發了我們二十萬年的解碼系統,隨后解碼出來發現里面空空如也,而且還經常表演得不到位。殼子是擬人的,里面的東西不是,就變得很偽人。

      這就是恐怖谷的語言版本。一個機器人長得完全不像人,沒人覺得恐怖。一個機器人長得 95%像人但眼神是死的,你看到就細思極恐。新一批模型就處在這個位置上,它們的能力很強,可是說話既像人又不夠像人,正好卡在讓人最不舒服的那個尷尬位置上。


      反過來看為什么有些東西能繞過這個陷阱:最早 R1 把思考鏈顯化出來,你看到的不是一個完美的答案,而是一個正在思考的過程。過程本身就是信息,它猶豫被可視化了,恐怖谷的效應就被破除。GPT-image 更徹底,它根本不走語言賽道,直接用圖像跟你互動,沒有「形似人但不是人」的負擔。

      出圈的模型,要么不假裝是人,要么真的像人??ㄔ谥虚g的最危險,也最讓人難受。

      iPhone 時刻過了

      一切的一切,讓人想起一些舊事。

      十多年前,iPhone 3G 到 iPhone 4 是質變,從屏幕到材質,都第一次讓人意識到,手機可以漂亮成這樣。iPhone 4 到 iPhone 5 也能感知,更輕更快更大。


      到 iPhone 12 以后,你已經說不清 14 和 15 到底差在哪了,每一次蘋果新品發布都要被罵炒冷飯、連連看。芯片更強了,攝像頭參數更高了,跑分年年漲,但在日常使用中幾乎分不出區別。

      AI 模型正在進入同樣的階段。2023 年 ChatGPT 出來時,一個對 AI 什么都不懂的人也能感受到「這東西跟以前大不一樣」,從完全不能聊天到可以聊天,是質變。從聊得一般到聊得不錯,也是質變。


      但從聊得不錯到聊得更不錯,就不是了。

      當模型的能力已經超過了大多數用戶的日常需求閾值,跑分再漲 10%、20%,體感上是零。上下文從 50 萬 token 擴到 100 萬 token,99%的用戶一輩子用不到 10 萬。代碼通過率從 87%提升到 92%,不寫代碼的人完全無感。

      性能過剩之后,決定用戶選擇的就不再是性能,而是那些 benchmark 量化不了的東西。就像手機行業最終拼的是拍照好不好看、手感舒不舒服、生態是否豐富。

      AI 模型也會走到同一步。語感、人格感、審美直覺,這些詞聽起來很玄,但它們總在戰局僵持的時候,給出致命一擊。

      目前模型公司還在用舊地圖打新仗,用巨量的計算資源讓跑分再漲幾個百分點,然后發現用戶的反應是「哦,然后呢?」。

      靠跑分并不吸引人,非得是有一個決定性瞬間,而這個瞬間通常是由于模型變「靈」了。任你上下文破百萬千萬,走到用戶面前時是不是在說人話,才是拿下賽點的關鍵。

      跑分還會繼續漲,下一代模型還會比這一代再聰明一點。誠然,進步得靠跑分來支持,畢竟投資人還是要看 benchmark 數字的。可說人話才是給用戶看的,這兩件事可以也應該被同一家公司同時做好。但這是兩件事,面向兩群人,分不清這個區別,將是這一代模型公司最貴的錯誤。

      我們正在招募伙伴

      簡歷投遞郵箱hr@ifanr.com

      ?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      尷尬!俞敏洪與陳行甲的公開互動爭議升級,堪稱董宇輝事件的復刻

      尷尬!俞敏洪與陳行甲的公開互動爭議升級,堪稱董宇輝事件的復刻

      火山詩話
      2026-05-09 06:34:45
      斯基拉:皇馬為穆帥提供了兩年合同,將支付其300萬歐解約金

      斯基拉:皇馬為穆帥提供了兩年合同,將支付其300萬歐解約金

      懂球帝
      2026-05-09 09:17:06
      特朗普還沒到中國,美先拋出棄臺論,蕭美琴喊話大陸,鄭麗文拼了

      特朗普還沒到中國,美先拋出棄臺論,蕭美琴喊話大陸,鄭麗文拼了

      兵器海陸空視頻
      2026-05-08 10:26:05
      男子16歲時便出軌嫂子,婚后瞞著妻子繼續出軌,還與嫂子生下一子

      男子16歲時便出軌嫂子,婚后瞞著妻子繼續出軌,還與嫂子生下一子

      老貓觀點
      2026-05-07 07:12:10
      太突然了!杜鋒被曝可能不再續約,廣東隊第一個消息就讓球迷破防

      太突然了!杜鋒被曝可能不再續約,廣東隊第一個消息就讓球迷破防

      小娛樂悠悠
      2026-05-09 08:40:45
      毛主席后代現狀:無心進入政壇,大多從商,從不言是偉人后代

      毛主席后代現狀:無心進入政壇,大多從商,從不言是偉人后代

      歷史人文2
      2026-05-05 11:30:03
      大范圍開打?中美金融戰

      大范圍開打?中美金融戰

      楊風
      2026-05-08 22:45:41
      瓦倫丁直播,把整個機車圈的臉打腫了!張雪:我的車手不借錢參賽

      瓦倫丁直播,把整個機車圈的臉打腫了!張雪:我的車手不借錢參賽

      小娛樂悠悠
      2026-05-08 09:57:28
      理想設計副總裁回應MEGA爭議:外觀是技術最優解,內飾承認“判斷失誤”

      理想設計副總裁回應MEGA爭議:外觀是技術最優解,內飾承認“判斷失誤”

      驅動中國
      2026-05-08 10:58:21
      李一桐擇偶標準:多次采訪稱喜歡直球、霸道、犬系男生

      李一桐擇偶標準:多次采訪稱喜歡直球、霸道、犬系男生

      所見所聞哈
      2026-05-09 09:25:26
      震驚!員工85天套取2萬住宿費差價,被開除訴至法院,評論區炸鍋

      震驚!員工85天套取2萬住宿費差價,被開除訴至法院,評論區炸鍋

      火山詩話
      2026-05-08 06:18:04
      A股:剛剛,三部門聯合印發,請做好準備,下周將迎來更大的變盤

      A股:剛剛,三部門聯合印發,請做好準備,下周將迎來更大的變盤

      云鵬敘事
      2026-05-09 00:00:06
      7800億軍購案通過背后,藍營一人背棄鄭麗文,趙少康發起挑戰

      7800億軍購案通過背后,藍營一人背棄鄭麗文,趙少康發起挑戰

      DS北風
      2026-05-08 20:26:30
      10萬訂單:比亞迪大唐捅穿了純電大七座SUV那層沒人敢碰的窗戶紙

      10萬訂單:比亞迪大唐捅穿了純電大七座SUV那層沒人敢碰的窗戶紙

      電科技網
      2026-05-08 14:45:22
      “近一半都是不正常孩子”,男老師吐槽鄉鎮學?,F狀:只剩神人了

      “近一半都是不正常孩子”,男老師吐槽鄉鎮學?,F狀:只剩神人了

      澤澤先生
      2026-05-07 18:43:15
      三兄弟買下4臺挖掘機,稱僅用幾個月就被人悄悄拖走 經銷商方:和上級代理商的經濟糾紛傷及無辜

      三兄弟買下4臺挖掘機,稱僅用幾個月就被人悄悄拖走 經銷商方:和上級代理商的經濟糾紛傷及無辜

      紅星新聞
      2026-05-08 19:39:36
      費城0-3主場變客場!大帝一臉沮喪 VJ感覺要哭了 馬克西干瞪眼

      費城0-3主場變客場!大帝一臉沮喪 VJ感覺要哭了 馬克西干瞪眼

      顏小白的籃球夢
      2026-05-09 09:56:59
      金正恩向俄總統致賀電:平壤始終與普京在一起

      金正恩向俄總統致賀電:平壤始終與普京在一起

      新華社
      2026-05-09 06:25:04
      吳宜澤為報恩推掉了西安上百萬的剪彩合同

      吳宜澤為報恩推掉了西安上百萬的剪彩合同

      葉老四
      2026-05-09 07:28:44
      南宋為洗靖康之恥有多狠?700萬金人僅剩10萬,辱金后還留一畫作

      南宋為洗靖康之恥有多狠?700萬金人僅剩10萬,辱金后還留一畫作

      掠影后有感
      2026-05-07 10:01:40
      2026-05-09 10:47:00
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6359文章數 26832關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      "4只皮皮蝦1035元"當事人注銷賬號 隔壁海鮮店發聲

      頭條要聞

      "4只皮皮蝦1035元"當事人注銷賬號 隔壁海鮮店發聲

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      張藝謀《印象劉三姐》全裸鏡頭引爭議

      財經要聞

      白宮:特朗普計劃5月14日至15日訪問中國

      汽車要聞

      全系智能泊車 鉑智3X年款升級限時權益價9.48萬起

      態度原創

      教育
      數碼
      本地
      親子
      公開課

      教育要聞

      教育部啟動全國學生心理健康宣傳教育月活動

      數碼要聞

      華碩天選游戲路由2 Pro發售:BE5000,低至699元

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      3歲娃頭纏紗布守母,百萬人點贊,我卻倍感心寒

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 免费无码成人AV片在线| 国产精品专区在线| 国产xxxx做受视频| 亚洲资源站av无码网址| 欧美成人精品第一区| 色伦专区97中文字幕| 夜色福利站www国产在线视频| A片网| 中文字幕日本人妻| 亚洲天堂网在线观看视频| 亚洲ⅤA中文字幕无码| 国产精品亚洲精品日韩已满| 国产精品青草久久久久福利99| 三上悠亚ssⅰn939无码播放| 大胸美女吃奶爽死视频| 人妻人人添人妻人人爱| 国产自无码视频在线观看| 三级黄色片一区二区三区| jiZZjiZZ欧美69| 亚洲精品无码永久中文字幕| 国产精品自产拍在线观看中文| av国产剧情一区二区三区| 精品视频一区二区三三区四区| 亚洲二区中文字幕在线| 美女视频一区二区三区| 精品少妇爆乳无码aⅴ区| 国产宅男宅女精品A片在线观看| 亚洲中文无码av永久| 福利姬Jk丝袜-91Porn| 国产精品欧美亚洲韩国日本不卡| 亚洲国产精品一二三四区| 国产做a爱视频免费无遮挡 | 久久久久成人精品无码| 亚洲国产第六| aa中文化产品产二区在线| 美女胸18下看禁止免费视频| A级毛片不卡免费视频观看| 国产福利一区二区麻豆| 国产精品久久久久久福利69堂| 亚洲 欧美 国产 制服 动漫| 亚洲av成人网人人蜜臀|