<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌 Gemini 3 深夜炸場:沒有懸念的最強 AI

      0
      分享至


      新王登基了。


      作者|Li Yuan

      來了。

      預熱了快一個月的 Gemini 3 Pro,就在剛剛,正式在 Google AI Studio 上線 Preview 版,API 也同步開放。接下來將陸續上線Google的各項產品中。

      沒有任何多余的廢話,打開 Model Card,滿眼寫著的只有兩個字:碾壓

      按照 Google 披露的測試數據,Gemini 3 Pro 毫無懸念地成為了目前地球上數學最強的 AI。在數學競賽的「地獄模式」MathArena 里,當包括 GPT-5.1 在內的其他大模型還在 1% 上下掙扎時,Gemini 3 Pro 直接干到了23.4%

      編程能力方面,雖然在 SWE-Bench 上未拿 SOTA——但絕對屬于第一梯隊。Live Code Bench 的 Elo 得分超過 2400 分 ,在工具調用和終端操作基準測試中更是名列第一。

      真正炸裂的是它的「視覺智能」。對屏幕截圖的理解能力高達72.7%,是目前最先進水平的兩倍。這意味著 Agent 不再是瞎子,它將徹底重塑 AI 操作計算機的模式。

      但這還沒完,Google 今晚還順手扔出了一個小王炸:自家的 Agentic 編程平臺——Google Antigravity

      此前網傳 Gemini 3 能實現「端到端編程」,大家以為是模型成精了。但看起來,并不是模型成精,而是 Google 正在探索如何用更好的系統工程實現端到端編程。

      如果說 Cursor 是目前最強的「外骨骼」,它通過 AI 補全讓你寫代碼更快;那 Antigravity 就是奔著「自動駕駛」去的。它不再只是一個編輯器,而是一個智能體優先(Agent-first)發環境。集成了 Gemini 3 和能操控瀏覽器的 Gemini 2.5 Computer Use 模型,它的 Agent 能自己寫代碼、自己開終端跑測試、甚至自己打開瀏覽器驗證 UI,發現報錯自己修。

      不講故事,只拼肌肉。

      Google 用這一波硬核發布宣告:新王已至

      有趣的是,這次連 Sam Altman 都獻上了自己的點贊。:)


      01

      霸榜的暴力美學:不止是智商洗榜,更是 Agent 能力的變化

      在 AI 圈子里,大家習慣了模型之間你追我趕的微弱優勢,但 Gemini 3 Pro 拋出的這份成績單,可以說十分耀眼。

      根據 Model Card 披露的數據,Gemini 3 Pro 在推理、多模態、Agent 工具使用等關鍵基準上,實現了全方位的霸榜。


      讓我們先看一看代表人類智力「天花板」的測試——Humanity's Last Exam(人類最終大考)。這是一個衡量學術推理極限的標尺,GPT-5.1 在此前的測試中得分為 26.5%,Claude Sonnet 4.5 僅為 13.7%。而 Gemini 3 Pro 它直接轟出了37.5%的高分。在高端推理層面,這 10 個百分點的差距,意味著模型在處理復雜學術問題時,已經具備了完全不同的理解深度。

      但這還不是極限。Google 甚至還藏了一手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情況下,它在 HLE 上的得分進一步飆升至41.0%。看起來人類最后的堡壘也并不能持續很久了。


      數理方面的每一個領域,都能看出它的統治力。

      AIME 2025(美國數學邀請賽):配合代碼執行(Code Execution),Gemini 3 Pro 的準確率達到了驚人的100%。沒錯,是滿分。即便是「裸考」(無工具模式),它也有 95.0% 的準確率(相比之下,GPT-5.1 為 94.0%,Claude Sonnet 4.5 為 87.0%)。

      MathArena Apex(數學競賽地獄模式):當包括 GPT-5.1 在內的其他大模型還在1%上下掙扎時,Gemini 3 Pro 直接干到了23.4%。這意味著在很多以前 AI 根本「看不懂題」的領域,Gemini 3 已經開始解題了。

      而更關鍵的是 Agent 相關能力的提升。

      Gemini 一向在多模態能力上領先,這一代更是專門優化了屏幕理解(Screen Understanding)。這是下一代 Agent 能否真正接管人類電腦的關鍵。

      ScreenSpot-Pro這一欄數據:

      • GPT-5.1:3.5%(這基本意味著它是個「瞎子」)。

      • Gemini 3 Pro:72.7%

      這是近乎20 倍的能力碾壓!這標志著 Gemini 3 Pro 已經不再是一個單純的對話框,它具備了真正意義上的「視覺智能」,能夠像人類一樣理解復雜的操作系統界面。

      在一些傳統強項上,Gemini 3 Pro 仍然表現出色——比如支持1M Token的超大上下文窗口、對多模態數據的「原生支持」、長視頻和多語言處理等等。



      有一個很有趣的標準也被 Google 掛了上來:在 一個模擬開店賺錢的基準 Vending-Bench 2 上,Gemini 3 Pro 最終賺取了$5,478.16的凈資產,而 GPT-5.1 僅賺了 $1,473.43。

      不過關于之前網傳「徹底端到端終結程序員」的編程能力,Gemini 3 Pro 的狀態是在 AI 屆頂尖,但并沒有「顛覆編程」。

      在衡量軟件工程能力的SWE-Bench Verified測試中,Gemini 3 Pro 得分為76.2%,雖然很強,但并未超越 Claude Sonnet 4.5(77.2%)拿到 SOTA。這意味著在處理超長程、極其復雜的后端邏輯時,它依然有局限性。

      這也很合理。每一個大模型目前都在全力卷編程的情況下,想要在這個領域一騎絕塵確實比較難。

      目前 Gemini 的能力更偏向于,還不能幫你重構整個后端架構,但如果你想寫一個極具現代設計美學的網站、一個 3D 飛船游戲,或者生成復雜的 SVG 交互動畫,它能通過一次提示就給出極其驚艷的、可直接運行的結果。

      02

      Antigravity,Agentic 編程的探索

      有了最強的模型和算力,谷歌開始在應用層「掀桌子」了。今晚,谷歌扔出了一個「小王炸」——Google Antigravity

      前一陣新聞的風向還是模型公司努力收購 AI 編程應用公司呢,而 Google 這次則這么快的就發了自己的開發平臺。

      這不僅僅是一個新的 IDE,它是谷歌定義的Agent-first(智能體優先)開發平臺。在這里,開發者從「碼農」升級為「架構師」,而 Gemini 3 化身為擁有編輯器、終端和瀏覽器完整權限的「執行合伙人」。

      為了達成這種體驗,谷歌甚至在后臺配置了一個「模型軍團」協同作戰:

      • Gemini 3:作為大腦,負責高級推理和代碼編寫。

      • Gemini 2.5 Computer Use:作為手眼,專門控制瀏覽器進行 UI 驗證和測試。

      • Nano Banana:作為美工,負責生成圖像和 UI 素材。這種打通了底層模型到頂層交互的閉環體驗,對于 Cursor 等現有 AI 編輯器來說,無疑是一次降維打擊。


      Antigravity 最有趣的能力在于并行。官方材料明確提到,開發者可以與多個智能 Agent 協作,而這些 Agent 能夠代表你同時 自主規劃并執行復雜的端到端軟件任務。

      想象一下這種工作流:你下達一個指令,Antigravity 瞬間分裂出多個 Agent——Agent A 負責寫后端邏輯,Agent B 負責在終端跑測試用例,Agent C 直接打開瀏覽器去驗證前端 UI 的交互效果。它們并行不悖,像是一個配合默契的敏捷開發小組,而你只需要驗收它們提交的「工件」。

      Antigravity 是是一個免費平臺,網絡上目前對于 Antigravity 的使用體驗不多,但基本上都是好評。

      要達到替代 Cursor 本身,肯定不太行——端到端的復雜編程體驗,肯定還需要模型更成熟。但是簡單的項目進行編程,或許會更簡單了。

      03

      全家桶齊發力:TPU 與搜索

      在大模型發展的后半程,比拼的不再是單一算法的靈光一閃,而是誰的算力更冗余、誰的數據更廣闊、誰的投入更持久。Gemini 3 Pro 的勝利,有一點是很特別的:Gemini 3 Pro 是使用 Google TPU 訓練的

      當全世界的 AI 公司都在苦苦等待英偉達 GPU 的發貨周期時,谷歌依然坐在自家龐大的 TPU 礦山上。TPU 專為 LLM 訓練設計,擁有極高的高帶寬內存(HBM),這讓它能夠輕松處理海量的模型參數和超大的 Batch Size。正是 TPU 的算力冗余,給了 Gemini 3 Pro 肆意擴張參數規模的底氣。

      有了算力,還要有「燃料」。Gemini 3 Pro 的訓練數據是全維度的覆蓋:它吞噬了公共網絡文檔、代碼庫、圖像、音頻和視頻。更關鍵的是,谷歌明確提到使用了User Data(用戶數據)——當然是在隱私協議框架下,來自谷歌龐大產品生態的用戶交互數據。

      最后,這種溢出的智能被注入了 Google Search。Google 這次推出了一個全新的AI Mode in Search。當你搜索一個復雜概念(比如 RNA 聚合酶的工作原理)時,Gemini 3 不再是給你扔一堆冷冰冰的鏈接,而是利用其強大的推理能力,即時生成(Generated on the fly)一個沉浸式的互動圖表或模擬工具。


      從底層的 TPU 硅基霸權,到中間層的模型智能,再到頂層的 Antigravity 開發生態與生成式搜索——谷歌這一夜展示的,不僅僅是一個滿分模型,而是一個只有巨頭才能構建的、嚴絲合縫的未來。

      04

      實測體驗

      最后讓我們看看網上的一些實測體驗吧。

      出名的六邊形測試的升級款。


      不少帖子提及了設計上的美感。


      一些物理世界的建模。


      前面提到的,Gemini 對于用戶界面數據這塊做了特別的優化。


      開發應用。


      在今天,大模型的性能已然超越了跑分的邊界。即便是最頂尖、最復雜的前沿基準測試,其測量精度也開始失效。如何科學地量化模型之間的微妙差距,已經成為了一門專門的「量化科學」,僅憑用戶簡單的實測手感,很難窺見其中的全部玄機。

      實測案例更多的也就是用來看看模型本身的審美和 one-shot 直出的狀態。

      Gemini 3 顯然在這次的更新中,在直出的情況下,贏面很大。

      當模型直出能力越來越好,對于開發者來說,未來更多的是要看你的品味能不能跑過模型,你的點子是不是足夠與眾不同了。

      *頭圖來源:視覺中國

      本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

      極客一問

      你覺得人類的審美跑的過

      AI 的直出審美嗎?

      扎克伯格:傲慢就會失敗,創造應該服務群眾

      點贊關注 極客公園視頻號 ,

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      看完U15收官戰,我不想罵,只想給這群十五歲的少年鞠個躬

      看完U15收官戰,我不想罵,只想給這群十五歲的少年鞠個躬

      圣西羅的太陽
      2026-05-01 20:06:02
      “日雜”女“港獨”,因一句話被日本人網暴、扣“反日”帽子

      “日雜”女“港獨”,因一句話被日本人網暴、扣“反日”帽子

      俠客棧
      2026-05-01 13:14:02
      伊朗最高領袖:波斯灣和霍爾木茲海峽正在開啟新的篇章

      伊朗最高領袖:波斯灣和霍爾木茲海峽正在開啟新的篇章

      新京報
      2026-04-30 18:59:10
      銀行員工轉走儲戶1800萬炒股,銀行不擔責,老百姓還能信嗎?離譜

      銀行員工轉走儲戶1800萬炒股,銀行不擔責,老百姓還能信嗎?離譜

      眼光很亮
      2026-05-01 14:08:04
      明天起,優酷、愛奇藝、騰訊視頻三大平臺同步推出9部懸疑佳作,你最期待哪一部

      明天起,優酷、愛奇藝、騰訊視頻三大平臺同步推出9部懸疑佳作,你最期待哪一部

      喜歡歷史的阿繁
      2026-05-01 14:01:22
      這是迄今為止,我見過身材最美的女人之一,不接受反駁

      這是迄今為止,我見過身材最美的女人之一,不接受反駁

      小椰的奶奶
      2026-04-11 12:33:07
      女子給男主播刷4萬禮物,私下見面想親熱被拒絕,氣得要求退錢

      女子給男主播刷4萬禮物,私下見面想親熱被拒絕,氣得要求退錢

      新游戲大妹子
      2026-04-27 10:57:55
      敵軍壓境,林彪誠請粟裕助戰,粟裕卻對林彪提出極其尖銳批評意見

      敵軍壓境,林彪誠請粟裕助戰,粟裕卻對林彪提出極其尖銳批評意見

      近史談
      2026-04-30 16:33:41
      景區大門越修越遠:從誰最先開始的?為什么會成標配?

      景區大門越修越遠:從誰最先開始的?為什么會成標配?

      謠談鄉村振興
      2026-04-29 10:43:59
      彰顯冠軍相一戰!成都蓉城絕平+絕殺 3-2客勝上海申花7分領跑

      彰顯冠軍相一戰!成都蓉城絕平+絕殺 3-2客勝上海申花7分領跑

      智道足球
      2026-05-01 22:29:21
      據說99%的人喜歡這樣的女生

      據說99%的人喜歡這樣的女生

      匹夫來搞笑
      2026-05-01 14:09:56
      這魚再貴也別省,男人吃了腰有勁,女人吃了氣色好,別的真比不了

      這魚再貴也別省,男人吃了腰有勁,女人吃了氣色好,別的真比不了

      江江食研社
      2026-04-30 18:30:09
      西方國家為什么都不喜歡中國?英國專家:中國有一個“老問題”

      西方國家為什么都不喜歡中國?英國專家:中國有一個“老問題”

      宋訴搞笑配音
      2026-04-13 17:16:15
      小寶與王某雷,誰探訪花的數量更多?

      小寶與王某雷,誰探訪花的數量更多?

      挪威森林
      2026-01-31 12:15:26
      張雪:小米汽車有問題活該被錘 外媒:他力挺余承東 抱華為的大腿

      張雪:小米汽車有問題活該被錘 外媒:他力挺余承東 抱華為的大腿

      念洲
      2026-05-01 12:40:46
      央視主持大洗牌!3位舊人離場,楊帆處境尷尬,撒貝寧成最大贏家

      央視主持大洗牌!3位舊人離場,楊帆處境尷尬,撒貝寧成最大贏家

      阿雹娛樂
      2026-05-01 16:59:54
      李澤楷做夢也想不到,為他連生3個兒子的梁洛施,會與馬浴柯戀愛

      李澤楷做夢也想不到,為他連生3個兒子的梁洛施,會與馬浴柯戀愛

      借你一生
      2026-05-01 14:58:29
      60歲才明白的一個家庭潛規則:婆媳之間,只要住在一個屋檐下超過3天,哪怕平時關系再好,那種客氣感,慢慢地就變成了互相“挑刺”

      60歲才明白的一個家庭潛規則:婆媳之間,只要住在一個屋檐下超過3天,哪怕平時關系再好,那種客氣感,慢慢地就變成了互相“挑刺”

      心理觀察局
      2026-05-01 17:58:14
      什么都不長的鹽堿地,撒進去28萬只螃蟹,撈出來的東西讓人眼紅

      什么都不長的鹽堿地,撒進去28萬只螃蟹,撈出來的東西讓人眼紅

      愛下廚的阿椅
      2026-04-30 17:37:21
      伊朗總統:持續推進海上封鎖的行為不可容忍

      伊朗總統:持續推進海上封鎖的行為不可容忍

      每日經濟新聞
      2026-05-01 09:16:47
      2026-05-01 23:15:00
      極客公園
      極客公園
      讓最棒的創新成為頭條
      12005文章數 78875關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      本地
      手機
      游戲
      教育
      軍事航空

      本地新聞

      用青花瓷的方式,打開西溪濕地

      手機要聞

      曝一加和realme合并,OPPO新成立子系列事業部

      LPL第二賽段:打破魔咒,讓一追二,IG三局戰勝WBG

      教育要聞

      五一首日熱度爆棚!秦淮區中招會傳來最新消息!

      軍事要聞

      伊朗:持續推進海上封鎖的行為不可容忍

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品无码久久午夜福利| 国产中年夫妇高潮精品视频| 国产麻豆精品久久一二三| 亚洲香蕉网综合久久| 无码人妻丰满熟妇区五十路| 国内精品人妻一区二区三区| 亚洲欧美另类在线| 久久婷婷五月综合色高清| 中文字幕日韩精品欧美一区| 成人无码视频97免费| 欧洲AV秘 无码一区二区三| 狠狠色噜噜狠狠狠狠色综合久| 欧美老少配性行为| 正在播放强揉爆乳女教师| 亚洲最大在线| AV无码中文字幕不卡一区二区三区| 国产人妻高清国产拍精品| 亚洲阿v天堂网2021| 中文字幕一区二区三区又粗| 日韩久久中文| 亚洲精品www.| 亚洲中文字幕无码一区日日添| 国产毛a片久久久久无码| 不卡国产视频| 中文字幕亚洲精品无码| 日韩精品自拍偷拍| 波多野结衣av高清一区二区三区 | 狠狠爱天天综合色欲网| 91精品国产自产91精品资源| 激情偷乱人成视频在线观看| 九九国产| 少妇特黄a一区二区三区| 国产成人精品区一二三影院竹菊| 久热三区精品视频免费| 18禁男女爽爽爽午夜网站免费 | 国产成人a在线视频免费| 亚洲脚交| 人人妻人人妻人人片av | 国产精品美女久久久久久麻豆| 免费人成视频x8x8入口AA| 日本高清视频色wwwwww色|