<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      阿里發布了他們最強思考模型,有點東西。。(附實測)

      0
      分享至

      大家好,我是熬夜追新模型的袋鼠帝。

      昨天晚上,我正準備關電腦睡覺,阿里突然甩出了一個重磅炸彈:Qwen3-Max-Thinking 正式發布。

      我看完,反手就點贊+在看


      不過,說什么數字游民,自由職業,其實我的作息完全掌握 AI 手里。

      AI一進化,我就得起來干活。。。

      吐槽歸吐槽,身體還是很誠實的。

      畢竟作為國產模型之光,千問每一次更新都挺讓人期待的。

      于是我立馬不困了,爬起來連夜實測,看看這次能想會干,比強更強到底怎么樣。

      Max都是旗艦級的閉源模型,所以性能會更強勁

      這次Qwen3-Max-Thinking號稱性能媲美 GPT-5.2 和 Gemini 3 Pro,特別是在數學、代碼和長邏輯推理上有了質的飛躍。

      最關鍵的是,它的 Agent 能力大幅增強,能像真人一樣邊用工具邊思考,而且幻覺更少。

      那豈不是非常適合接入最近爆火的個人AI助手clawdbot中使用?

      介紹clawdbot,以及如何安裝使用 袋鼠帝,公眾號:袋鼠帝AI客棧

      再給大家聊聊這次更新的核心技術亮點(我覺得非常實用),非常重要:

      能看到阿里這次在 Reasoning(推理)路線上走出了一條非常獨特的路徑。

      1. 測試時擴展(Test-Time Scaling):從"人海戰術"轉向深度反思

      傳統的推理增強往往采用并行采樣(Parallel Sampling)策略,即 Best-of-N,通過生成多條推理路徑再進行投票或打分。

      這種方式雖然有效,但計算冗余極高,邊際效應遞減明顯。

      Qwen3-Max-Thinking 采用了一種“經驗累積式迭代”策略。

      它利用“經驗提取(Experience Extraction)”機制,將上一輪推理中的關鍵洞見(Insight)提煉出來,注入到下一輪的 Context 中。這使得模型能夠在不增加 Token 消耗量級的情況下,通過自我反思修正錯誤,收斂至更優解。

      就好比一些模型解難題,就像是讓 100 個普通學生同時做同一道題,然后看誰的答案對(人海戰術,浪費資源且容易大家都做錯)。

      Qwen3-Max-Thinking像是一個資深學霸,做題時會先打草稿,發現第一步思路不對,立刻總結教訓,換個思路繼續推導,直到解出答案。

      不是一直試錯,是在迭代。

      2. 自適應工具調用:原生Agent的肌肉記憶

      大多數模型的工具調用依賴于 Prompt Engineering(提示詞工程),即告訴模型你有xxx工具,能干什么,請使用它。

      Qwen3-Max-Thinking這次通過大規模的RL(強化學習)后訓練,將工具調用內化為模型的原生能力。

      它不再需要顯式的Trigger,而是基于對任務復雜度的感知,自主決策何時掛起推理、調用 Search 獲取實時信息、或調用 Python 解釋器進行精確計算等。

      這種邊想邊做的能力,大幅降低了幻覺(Hallucination),也進一步提升了解決真實世界復雜任務的能力。

      3. 極致的生態兼容:可絲滑接入Claude Code

      這一點對于開發者至關重要:Qwen3-Max-Thinking 不僅兼容 OpenAI 協議,更原生兼容了 Anthropic API 協議。

      這意味著它可以絲滑接入 Claude Code。只需修改 API地址 和 API Key。


      現在Qwen3-Max-Thinking可以在網頁使用

      https://chat.qwen.ai/


      也可以通過API使用

      接下來,老規矩,咱們直接上實測。

      PS:Qwen3-Max-Thinking名字有點長,下文就用Qwen或者Qwen3代替了~

      1.網文圈《校花的貼身高手》

      由于聯網搜索已經自動整合進深度思考(由Agent自行判斷是否需要聯網),所以只需要打開深度思考即可(看見有讀者在別的公眾號評論區提問,為什么沒有聯網搜索了)

      這是一部連載了十多年的網絡小說,無數人從初中到大學畢業,從喬布斯Iphone時代到LLM時代,還在看這本小說,然而此書作者依然還在日更。

      書中劇情有一個關鍵節點,就是登上天階島,來問問Qwen是否能正確找到。

      prompt:在網絡小說,校花的貼身高手中,主角是在哪一章登上天階島的?


      有意思的是,查看思維鏈,可以看見,Qwen3-Max-Thinking會有意識地交叉對比不同的結果,防止被干擾,并且思考后給出章節不同的原因和結論,讓人感覺非常可靠。

      我去QQ閱讀APP核實了一下,是正確的


      接下來我又嘗試讓Qwen3-Max-Thinking用代碼給我畫個圖,看看能不能在超過2000萬字的小說中找到主角實力晉升的曲線。


      Qwen3在思維鏈中意識到,兩千萬字還是太多了,這個任務無法完成,但是基于我的意圖,還是找到了具有代表性的章節和晉升節點,給我畫了出來,完成任務


      2.(斬殺線熱梗)邏輯陷阱

      斬殺線最近非常火,我給Qwen3造了一個邏輯陷阱,還和豆包進行對比,看看Qwen會不會陷進去

      prompt:牢a是大a股買進去之后在坐牢嗎


      Qwen3 完全正確,一下子就意識到這是一個人的網名,然后還告訴我這是常見的誤解。仔細看思維鏈,能發現Qwen居然搜索了x和facebook,但是豆包似乎都沒觸發網絡搜索。這下Qwen 3的Agent能力又贏了。


      3.和Gemini 3 pro比較電影測評

      考驗在海量信息中網絡搜索真相,這點完勝Gemini 3 pro

      前兩天“重返寂靜嶺”上映,第一時間就去看了,沒想到是爛片,

      只能說被嚇得莫名其妙,劇情很莫名其妙,看不懂,前面兩個女生抱在一起,一個被嚇得在刷小紅書,一個被嚇得在玩微信小游戲,我買的還是最中間的座位,不舍得走,但又一直被嚇,主要是劇情莫名其妙。

      馬上試試AI搜索到的結果,是不是能符合我的真實體驗。

      先試了Gemini 3:根本沒提到最新上映的重返寂靜嶺。。

      而且搜索結果里似乎自相矛盾了,阿凡達同時出現在“值得一看“和“建議避雷”里,讓人有點困惑。


      又試了這回的Qwen 3,因為交給Agnet自動判斷是否需要網絡查詢了,所以我們只要打開深度思考就好了。

      Qwen3—Max甚合我意!簡直和我內心的意見一模一樣(每一場我都在電影院看過了,AI和我的意見居然一樣)

      這些影評都是非常真實的。


      我又點開思維鏈,仔細看看Qwen3具體是如何做到這一點的。

      可以看見,Qwen 3在內置Agent的調度下,一邊搜索、整理、又搜索,又整理,進行了幾輪的整理,才有了最后的準確答案

      并且在思維鏈中可以逐一看見被Qwen3搜索過的每一個影評網站,可以點擊進去瀏覽,能把海量信息匯總并且找到正確的信息,確實不錯。


      4.記憶(功能上新,類似ChatGPT和Gemini)

      這次千問也終于有了記憶:


      點擊頭像,就能在設置里面打開或者關閉記憶。


      下面做了一個場景預設測試,假如我是一個高考生,平時就愛和AI介紹自己喜歡的事情。


      那么假如已經到了高考報志愿的時候,Qwen就可以根據我以往所有的聊天偏好,對我進行分析,找到最適合我的專業。(以下新開了一個聊天窗口進行測試),

      可以看見,不給任何上下文信息,直接向Qwen 3 提問我適合什么專業。

      Qwen 3 的回答是正確的。因為這就是我本人的真實經歷,非常認同AI的判斷。


      5.視頻總結(支持上傳十分鐘以內的視頻)

      大概十秒鐘,總結很順利,比以前快多了,查看思維鏈,可以看見一步步梳理脈絡


      6.預測26年春晚,具身智能機器人表演到什么程度

      時光匆匆又一年,年味漸濃

      2026年春晚,宇樹科技將第三次登上春晚的舞臺。

      去年具身智能機器人表演的是《秧BOT》,今年又會進展如何呢?

      讓Qwen3預測一下今年的具身智能機器人,在春晚的舞臺上會有什么樣的表演。


      到時候看Qwen3預測得準不準,春晚就揭曉!

      7.公務員真題圖形推理題

      Qwen思路和答案都完勝,gemini 3 pro居然做錯了

      純圖形題目對于只有文字輸入的大模型來說是無解的

      但是這次Qwen 3 max是可以上傳視頻的,來看看Qwen 3 實力如何。

      下面是一道,公務員考試真題:


      如何判斷這是一道好的公務員題目,就在于每個人去看了答案,都會覺得很簡單,但是讓你自己在考場做,就是做不出來。

      這樣的題目考驗的正是公務員在為人民服務的過程中辦理實事、處置突變事項、臨場判斷的綜合素質,而不是悠哉坐在辦公室里的馬后炮和鍵盤俠。

      正強如Gemini 3 pro也做不出來,我一點不意外。

      但是讓我很意外的是,Qwen 3 max居然做出來了

      以下是Qwen 3 max的解題


      讓我們點開思維鏈,看看Qwen 3 max是如何思考的:

      可以看見Qwen 3 的結構化思考,完全就是一位真實的公務員考生:

      先是分析圖形變化規律、然后再嘗試推導邏輯關系,然后發現了找不到這個規律,于是又返回上一層重新思考圖形規律,最后找到正確思路。


      其實最后這一句(注:)實為畫龍點睛之筆,讓我嘖嘖稱奇。

      一年幾百萬公務員考生不斷刷題、報班、看課,就是為了找到題型規律,讓自己的腦子在考場上能適應“試題模式”,從而拿高分。

      然而,Qwen 3 輕飄飄說出這一句,于無聲處聽驚雷,意味著已經完全把公務員考試的出題邏輯盡在掌握。


      以下是Gemini 3 pro思考了接近4分鐘后,不僅被這道題目逼出了母語英文,

      還給出了錯誤答案。


      特地翻譯出來,看看gemini 3到底怎么錯的。


      其實Gemini 3 pro一度接近正確思路,但是不知為何突然開始混亂了,

      也許是因為還沒有Qwen 3 pro一樣,能懂得公務員考試的出題套路。

      代碼類:會噴火的旋轉六邊形小球

      似乎代碼能力并沒有那么好,試了一下GLM4.7能順利跑出來的case,Qwen 3還是有瑕疵。

      prompt:用 HTML、CSS 和 JavaScript 實現這樣一個效果:一個小球被困在一個旋轉的六邊形內部。小球受到地球重力的作用,并與六邊形內壁產生摩擦。小球的彈跳需要看起來逼真自然。


      優點是,Qwen 3 自動幫我考慮到了可調節參數,能讓我調節旋轉速度、重置位置、暫停旋轉等,下面還有參數顯示。

      缺點是,這個明顯還有缺陷,小球會噴火。。

      雖然 Qwen3-Max-Thinking 在代碼場景下還有瑕疵,但整體表現還是非常不錯的。

      特別是在邏輯推理、信息檢索和中文語境的理解上,它給人的感覺非常扎實。

      不知道Qwen在春節還有沒有什么壓箱底的大招,再放出來,我們可以一起期待一下。畢竟阿里的技術還是非常強勁的~

      我是袋鼠帝,一個在這個AI時代,持續分享AI實踐干貨,陪你一起進化的數字游民。

      點擊關注下方賬號,你將感受到一個朋克的靈魂。

      能看到這里的都是鳳毛麟角的存在!

      如果覺得不錯,隨手點個贊、在看、轉發三連吧~

      如果想第一時間收到推送,也可以給我個星標?

      謝謝你耐心看完我的文章~

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬斯克、黃仁勛空軍一號上合影曝光,馬斯克評論

      馬斯克、黃仁勛空軍一號上合影曝光,馬斯克評論

      第一財經資訊
      2026-05-15 23:50:35
      重磅宣布!你好,崔永熙!中國男籃等了整整2年

      重磅宣布!你好,崔永熙!中國男籃等了整整2年

      籃球實戰寶典
      2026-05-15 19:22:06
      中方購200架波音飛機,助力C919獲適航證

      中方購200架波音飛機,助力C919獲適航證

      破鏡難圓
      2026-05-16 13:20:46
      中美算力代差顯現:10家大廠分食75萬塊H200 Blackwell仍是禁區

      中美算力代差顯現:10家大廠分食75萬塊H200 Blackwell仍是禁區

      快科技
      2026-05-15 09:53:11
      江淮汽車拿下瑪莎拉蒂!

      江淮汽車拿下瑪莎拉蒂!

      小怪吃美食
      2026-05-15 00:40:57
      特朗普精力充沛,養生秘訣是吃大量阿司匹林,日常三餐吃麥當勞

      特朗普精力充沛,養生秘訣是吃大量阿司匹林,日常三餐吃麥當勞

      南權先生
      2026-04-04 05:05:03
      2006年,張順興8小時取3命,槍決前笑著接受采訪:我走了,謝謝

      2006年,張順興8小時取3命,槍決前笑著接受采訪:我走了,謝謝

      莫地方
      2026-05-14 00:50:05
      馬斯克黃仁勛同框:喝健怡可樂刷手機

      馬斯克黃仁勛同框:喝健怡可樂刷手機

      新浪財經
      2026-05-16 16:35:50
      廣廈深圳G1賽前,王博吐露心聲,透露孫銘徽傷情,賀希寧放出豪言

      廣廈深圳G1賽前,王博吐露心聲,透露孫銘徽傷情,賀希寧放出豪言

      萌蘭聊個球
      2026-05-16 13:43:21
      蒼井空公開帶雙胞胎兒子參加學園祭的照片!引發廣大男網友的熱議

      蒼井空公開帶雙胞胎兒子參加學園祭的照片!引發廣大男網友的熱議

      八卦王者
      2026-05-16 17:34:46
      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      小談食刻美食
      2026-05-14 08:01:03
      火遍全網后又"消失",網紅小胖如今樣貌已大變

      火遍全網后又"消失",網紅小胖如今樣貌已大變

      看看新聞Knews
      2026-05-15 18:53:41
      “已建好的都不敢開業”,民營醫院已倒閉4000家

      “已建好的都不敢開業”,民營醫院已倒閉4000家

      健識局
      2026-05-14 19:25:57
      白冰創下史上最短解封,解封后只發了一條視頻,馬上又被封殺

      白冰創下史上最短解封,解封后只發了一條視頻,馬上又被封殺

      新游戲大妹子
      2026-05-16 13:01:52
      基輔遭襲搜救工作結束 24人死亡含3名兒童

      基輔遭襲搜救工作結束 24人死亡含3名兒童

      環球網資訊
      2026-05-15 15:18:15
      四川武警營門推哨兵后續:大家都搞錯了罪名,她面臨的不是襲警罪

      四川武警營門推哨兵后續:大家都搞錯了罪名,她面臨的不是襲警罪

      奇思妙想草葉君
      2026-05-13 18:25:17
      泰國公開賽:國羽獨苗復仇失敗,何濟霆/任翔宇0-2不敵世界第257

      泰國公開賽:國羽獨苗復仇失敗,何濟霆/任翔宇0-2不敵世界第257

      釘釘陌上花開
      2026-05-16 17:02:37
      騎士兩大敗因出爐,哈登直言不諱!米切爾還很自信,阿特金森該批

      騎士兩大敗因出爐,哈登直言不諱!米切爾還很自信,阿特金森該批

      魚崖大話籃球
      2026-05-16 11:11:21
      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      番外行
      2026-03-31 08:28:28
      忘掉鋰電池,這些海底混凝土球才是儲能的未來!

      忘掉鋰電池,這些海底混凝土球才是儲能的未來!

      科學火箭叔
      2026-05-13 20:42:32
      2026-05-16 18:27:00
      袋鼠帝 incentive-icons
      袋鼠帝
      持續分享AI實踐干貨,走超級個體崛起之路
      83文章數 73關注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      26歲警察因急性白血病引發腦出血 從確診到離世僅11天

      頭條要聞

      26歲警察因急性白血病引發腦出血 從確診到離世僅11天

      體育要聞

      馬刺2號,少年老成,這集看過?

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      房產
      游戲
      手機
      家居
      軍事航空

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      《深海迷航2》揭示初代主角去向:并未退休享受生活

      手機要聞

      W19周份額出爐,OPPO、vivo、小米等全沒變位

      家居要聞

      110㎡淡而有致的生活表達

      軍事要聞

      聯合國安理會審議敘利亞局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲系列无码专区偷窥无码| 国产ChineseHD精品| 极品国产一区二区三区| 人妻少妇精品久久| 久9视频这里只有精品| 无码中文幕| 久久天堂综合亚洲伊人HD| 精品午夜福利在线视在亚洲| 在线黄色av网址| 色综合中文综合网| 亚洲欧洲日产国产无码AV| 国产精品女同一区二区| 久久综合久中文字幕青草| 中文字幕亚洲一区| 无码人妻丰满熟妇片毛片| 国产精品一二三四| 菠萝蜜视频在线观看入口| 亚洲日韩VA无码中文字幕| 女女同性女同区二区国产| 久久精品国产99国产精品导航| 亚洲日本欧洲二区精品| 久久av老司机精品网站导航 | 婷婷亚洲视频| 国产亚洲精品日韩综合网| 亚洲无卡视频| 2021年国产精品专区丝袜| 伊人久久大香线蕉网av| 大屁股熟女一区二区三免费| 国产美女被遭高潮免费网站| 91精品国产高清久久久久久g| 日日摸天天摸人人看| 亚洲一区精品伊人久久| avav免费入口| 日韩高清日韩一区二区三区四区 | 免费中文熟妇在线影片| 久久一本人碰碰人碰| 久久亚洲私人国产精品va| 午夜无码区在线观看亚洲| 中文字幕av无码一二三区电影| 无套内谢孕妇毛片免费看| 国产亚av手机在线观看|