<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      號稱1200萬token上下文的模型來了,數(shù)據(jù)亮眼但疑點重重

      0
      分享至



      當?shù)貢r間 5 月 5 日,邁阿密一家名為 Subquadratic 的公司走出隱身模式。CTO Alexander Whedon 在 X 上把首款模型 SubQ 稱作“a major breakthrough in LLM intelligence”(LLM 智能領(lǐng)域的重大突破),聲稱這是首個完全基于次平方稀疏注意力(Subquadratic Sparse Attention,SSA)架構(gòu)的前沿模型,1,200 萬 token 上下文,1M token 場景下比 FlashAttention 快 52 倍,成本不到 Claude Opus 的 5%。同日宣布完成 2,900 萬美元種子輪,估值 5 億美元。

      融資由 Tinder 聯(lián)合創(chuàng)始人 Justin Mateen 旗下 JAM Fund 與前軟銀愿景基金合伙人 Javier Villamizar 領(lǐng)投,參投方包括 Anthropic、OpenAI、Stripe、Brex 的早期投資人。CEO Justin Dangel 是連續(xù)創(chuàng)業(yè)者,履歷集中在健康科技、保險科技和消費品。

      CTO Alex Whedon 此前在 Meta 擔任軟件工程師,之后在咨詢公司 TribeAI 出任 Head of Generative AI。官網(wǎng)稱團隊還有 11 名來自 Meta、Google、牛津、劍橋、字節(jié)跳動、Adobe的 PhD,姓名未公開。


      圖丨相關(guān)推文(來源:X)

      按官方文檔,SubQ 要解決的是 Transformer 最根深蒂固的那道天花板:注意力機制的算力消耗隨上下文長度呈平方級增長,序列翻一倍,算力翻四倍。

      Subquadratic 把這種 dense attention 視作根本性的成本瓶頸,自家方案命名為 SSA。其核心機制按報告原文是 content-dependent selection,對每個 query,模型選出“值得 attend 的位置”,只對那些位置做精確的 attention 計算。博文同時把 SSA 總結(jié)為三項獨有優(yōu)勢:在計算和內(nèi)存上都是線性擴展、內(nèi)容相關(guān)的路由、可以從任意位置稀疏檢索。


      圖丨注意力計算量(來源:Subquadratic)

      據(jù)官方披露,在 B200 GPU 上對比 FlashAttention-2,128K token 時 SubQ 快 7.2 倍,256K 時 13.2 倍,512K 時 23 倍,到 1M token 時拉到 52.2 倍。按官方推算,序列長到 12M token 時,注意力計算量比標準 dense attention 減少近 1,000 倍。

      Benchmark 也直接對位主流前沿模型。RULER 128K 長上下文測試上 SubQ 拿到 95.0%,與 Claude Opus 4.6 的 94.8% 幾乎打平。SWE-Bench Verified 上 81.8%,超過 Opus 4.6 的 80.8% 和 Gemini 3.1 Pro 的 80.6%。

      在考察長上下文多源證據(jù)檢索整合能力、也是最關(guān)鍵的 MRCR v2 上,SubQ 同時報了兩個分數(shù),研究版 83,第三方驗證的生產(chǎn)版 65.9。同項目下 Claude Opus 4.7 是 32.2,Gemini 3.1 Pro 26.3,GPT 5.5 74.0。

      如此逆天的數(shù)據(jù)自然引發(fā)了大量關(guān)注,質(zhì)疑也隨之而來。

      前 OpenAI Sora 團隊成員、AI 工程師 Will Depue 第一時間發(fā)出質(zhì)疑:SubQ 幾乎可以肯定是對 Kimi 或 DeepSeek 稀疏注意力(sparse attention)的微調(diào)。Whedon 幾個小時后的帖子部分證實了這一推測,公司確實將開源模型的權(quán)重作為起點,“這是基于我們目前的資金規(guī)模和公司發(fā)展階段做出的選擇”。


      圖丨相關(guān)推文(來源:X)

      但回看此前的相關(guān)研究,Kimi Linear 實際是混合結(jié)構(gòu),3/4 的層用線性注意力,剩下 1/4 仍然用平方復(fù)雜度的 MLA,Kimi 自己在論文里就承認純線性版本 “在精確記憶檢索和精確復(fù)制上仍然吃力”,所以沒有用在所有層。

      DeepSeek Sparse Attention 內(nèi)部負責篩選 token 的 lightning indexer 自身仍是 O(n2),只是常數(shù)因子比 MLA 小一個數(shù)量級,復(fù)雜度被搬了位置而已。Mamba 和 RWKV 在 FLOP 層面確實做到了線性,但在前沿規(guī)模下游任務(wù)上跑不過標準注意力,至今沒有任何前沿 LLM 單獨使用它們。

      如果 SubQ 把權(quán)重起點放在這些已經(jīng)被業(yè)界明確畫出復(fù)雜度邊界的方案上,又是怎么在它們的基礎(chǔ)上做出“減少 1,000 倍計算量”這種數(shù)量級躍升的?

      清華大學(xué)交叉信息研究院博士游嘉誠也在 X 上提到,Subquadratic 所宣稱的計算和內(nèi)存上都是線性擴展這個特性實際上并不是 SSA 獨有。dense attention 配合 FlashAttention 早已做到線性內(nèi)存,這是業(yè)界幾年前就普及的標配,SubQ 卻依然把它單列為 SSA 三大獨有優(yōu)勢之一來宣傳。

      按照官方博文的說法,SSA 的核心不是對 attention 做近似,而是不再假設(shè)每一對 token 都可能重要,把計算只限制在真正承載信號的位置上,跳過其余。

      那么問題來了,模型如何在跑 attention 之前知道哪些位置承載信號?這本身是個循環(huán):要判斷某個 token 沒有信號,就必須先把它和當前 query 比較一次,而比較本身的代價正是 quadratic 的全部來源。

      Will Depue 用 phonebook eval 解釋了這件事。phonebook 是衡量長上下文檢索能力的一種基準,給模型一份 10 萬人的電話簿,再問其中某個特定姓名的電話。模型不知道未來會被問到哪個姓名,理論上必須保留所有姓名在 context 里。任何 “提前丟棄信息” 的策略,在這個 eval 上都會失分。

      博文里沒有解釋 SSA 的 selection 機制如何解決這個循環(huán)。一種可能是 SSA 內(nèi)部有一個輕量 indexer 做評分(類似 DSA),但 selector 自身仍是 O(n2),復(fù)雜度只是被搬了位置。另一種可能是 selector 使用某種 learned gating,從訓(xùn)練數(shù)據(jù)中學(xué)到哪些位置值得保留,但這種方案在 phonebook 這類 “信息位置完全不可預(yù)測” 的任務(wù)上幾乎注定失敗。

      報告稱,訓(xùn)練數(shù)據(jù)特意選用“信息密度高、交叉引用結(jié)構(gòu)豐富的長文本”,因為這類數(shù)據(jù)“會迫使 selection 機制學(xué)會跨越大跨度位置做路由”。這相當于承認 selection 機制是被訓(xùn)練出來的,而不是從 attention 矩陣動態(tài)推導(dǎo)出來的。一旦 selection 是 learned gating,長上下文檢索的可靠性就被鎖死在訓(xùn)練數(shù)據(jù)的分布里:訓(xùn)練數(shù)據(jù)里見過的位置和模式,模型能找到;分布之外的,比如 phonebook 這種全然隨機的查詢,模型只能賭。

      官方公布的 benchmark 同樣疑點重重。最大賣點 12M token 并沒有完整 benchmark,所有 RULER、MRCR v2、SWE-Bench 的成績都來自 1M-Preview 版本,“12M token 上的研究結(jié)果” 對應(yīng)的只是一個 92.1% 的 needle-in-a-h(huán)aystack 分數(shù),而這是長上下文測試里最簡單的一種,只考察模型能否在大堆 token 里找到一根特定的針,不評估多跳檢索或證據(jù)整合。

      但它是不是騙局終究還無法實錘。Subquadratic 尚未公布詳細模型卡,目前只能通過申請小范圍內(nèi)測來試用,獨立基準測試結(jié)果也還沒有出來。

      不過說起來,類似的劇本兩年前剛上演過一次。

      2024 年 8 月,舊金山公司 Magic.dev 發(fā)布 LTM-2-mini,宣稱 1 億 token 上下文窗口、相對標準注意力 1,000 倍效率優(yōu)勢,憑這一發(fā)布累計融資超過 5 億美元。到 2026 年初,沒有任何 Magic 之外的開發(fā)者或企業(yè)公開使用 LTM-2-mini 的記錄,技術(shù)報告沒出,模型沒開源,benchmark 也沒有第三方復(fù)現(xiàn)。

      SubQ 的發(fā)布材料和 Magic 當年高度同構(gòu),同樣的 1,000 倍效率,同樣 “打破 Transformer 平方律” 的敘事,同樣不開源,同樣把完整技術(shù)細節(jié)推遲到 “完整模型卡片即將公布”。差別是 SubQ 這次一上來就奔著商業(yè)化產(chǎn)品去(API、CLI agent、搜索),而 Magic 當年還停留在研究 demo 階段。

      因此,它的成色究竟如何,或許能比 Magic.dev 更快見分曉。

      參考資料:

      1.https://subq.ai/introducing-subq

      2.https://venturebeat.com/technology/miami-startup-subquadratic-claims-1-000x-ai-efficiency-gain-with-subq-model-researchers-demand-independent-proof

      3.https://x.com/willdepue/status/2051734355509235734

      運營/排版:何晨龍

      注:封面/首圖由 AI 輔助生成

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      謝娜演唱會被評論:像一群人哄著謝娜玩過家家!

      謝娜演唱會被評論:像一群人哄著謝娜玩過家家!

      默默有話說
      2026-05-06 11:22:01
      陜西男子3次報警,民警拒不派警,致兩家四口被殺,法院咋判的?

      陜西男子3次報警,民警拒不派警,致兩家四口被殺,法院咋判的?

      就一點
      2026-04-29 17:28:35
      回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風韻猶存

      回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風韻猶存

      素衣讀史
      2026-03-31 15:11:31
      湖北恩施州委書記胡超文,被查

      湖北恩施州委書記胡超文,被查

      大風新聞
      2026-05-06 12:24:23
      布倫森的物理pk馬克西的速度

      布倫森的物理pk馬克西的速度

      張佳瑋寫字的地方
      2026-05-07 10:46:23
      放棄羅德里!皇馬鎖定 1.2 億新中場核心,英超王牌或空降伯納烏

      放棄羅德里!皇馬鎖定 1.2 億新中場核心,英超王牌或空降伯納烏

      瀾歸序
      2026-05-07 05:57:43
      巴黎28歲巨星神了!淘汰賽7場6球+去年帶隊雙殺阿森納,英超克星

      巴黎28歲巨星神了!淘汰賽7場6球+去年帶隊雙殺阿森納,英超克星

      體育知多少
      2026-05-07 06:40:19
      三星宣布在中國大陸市場停止銷售含電視、顯示器在內(nèi)的所有家電產(chǎn)品

      三星宣布在中國大陸市場停止銷售含電視、顯示器在內(nèi)的所有家電產(chǎn)品

      澎湃新聞
      2026-05-06 20:44:27
      游客在湖北旅游訂酒店“訂到公安局”,宣恩縣公安局回應(yīng):酒店并非設(shè)在辦公區(qū)域,不由公安局經(jīng)營

      游客在湖北旅游訂酒店“訂到公安局”,宣恩縣公安局回應(yīng):酒店并非設(shè)在辦公區(qū)域,不由公安局經(jīng)營

      大象新聞
      2026-05-06 19:46:36
      646億財務(wù)造假終被抓,兒子投資來源不明,實業(yè)報國六年騙局

      646億財務(wù)造假終被抓,兒子投資來源不明,實業(yè)報國六年騙局

      玲兒愛唱歌
      2026-05-07 05:07:45
      注意!中老年男性有性生活和沒性生活,差別居然這么大?

      注意!中老年男性有性生活和沒性生活,差別居然這么大?

      皓皓情感說
      2026-04-22 08:20:32
      醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

      醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

      芹姐說生活
      2026-04-19 15:52:53
      安布:巴黎的奪冠概率高于阿森納,他們整體與個人實力都占優(yōu)

      安布:巴黎的奪冠概率高于阿森納,他們整體與個人實力都占優(yōu)

      懂球帝
      2026-05-07 07:56:09
      軍費90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

      軍費90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

      小蘭聊歷史
      2026-04-20 16:20:42
      記者:每次看阿爾瓦雷斯的表現(xiàn),都感覺他不是世界級球員

      記者:每次看阿爾瓦雷斯的表現(xiàn),都感覺他不是世界級球員

      行舟問茶
      2026-05-06 11:07:52
      拉什福德祝賀曼聯(lián)重返歐冠!更衣室沒給其留位置,回歸大門被關(guān)死

      拉什福德祝賀曼聯(lián)重返歐冠!更衣室沒給其留位置,回歸大門被關(guān)死

      羅米的曼聯(lián)博客
      2026-05-07 10:55:06
      完全脫臼!骨頭刺穿皮膚!湖人遭受沉重打擊

      完全脫臼!骨頭刺穿皮膚!湖人遭受沉重打擊

      籃球教學(xué)論壇
      2026-05-06 14:57:15
      吳宜澤姐姐曬出弟弟童年打球、被捏臉視頻,姐姐本人顏值出眾

      吳宜澤姐姐曬出弟弟童年打球、被捏臉視頻,姐姐本人顏值出眾

      懂球帝
      2026-05-06 14:25:57
      貴州省2名縣處級干部接受紀律審查和監(jiān)察調(diào)查

      貴州省2名縣處級干部接受紀律審查和監(jiān)察調(diào)查

      貴陽網(wǎng)
      2026-05-07 10:16:30
      軍購案結(jié)果出爐!李乾龍先于王金平出手,鄭麗文迎利好

      軍購案結(jié)果出爐!李乾龍先于王金平出手,鄭麗文迎利好

      混沌錄
      2026-05-06 22:50:14
      2026-05-07 11:40:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16670文章數(shù) 514924關(guān)注度
      往期回顧 全部

      科技要聞

      凌晨突發(fā)!馬斯克租22萬塊GPU給“死敵”

      頭條要聞

      北京三位女大學(xué)生青海自駕游2死1傷 傷者一審獲刑4年

      頭條要聞

      北京三位女大學(xué)生青海自駕游2死1傷 傷者一審獲刑4年

      體育要聞

      阿森納巴黎會師歐冠決賽!5月31日開戰(zhàn)

      娛樂要聞

      小S阿雅重返大S母校,翻看大S畢業(yè)照

      財經(jīng)要聞

      特朗普:美伊“很有可能”達成協(xié)議

      汽車要聞

      理想為什么不做轎車,有了解釋……

      態(tài)度原創(chuàng)

      藝術(shù)
      游戲
      房產(chǎn)
      旅游
      公開課

      藝術(shù)要聞

      這位老教授筆下的青年,活力滿滿

      《文明7》更新“Test of Time”5月19日上線 新系統(tǒng)導(dǎo)入

      房產(chǎn)要聞

      五一海南樓市,太淡了!

      旅游要聞

      178.5萬人次!11.02億元!合肥包河“五一”文旅市場熱力全開

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: avav中文字幕| 国产成人精品久久性色av| 无码中文字幕人妻在线一区 | 亚洲日韩精品伊甸| 亚洲高清一区二区三区四区| 暖暖 在线 日本 免费 中文 | 又大又粗欧美黑人aaaaa片| 久久精品无码精品免费专区| 国产精品xxx| 国产拍揄自揄免费观看| 人妻第一页| 国产精品亚洲一区二区三区在线观看 | 国产AV无区亚洲AV麻豆| 久久动漫精品| 无码av天堂一区二区三区| 扒开双腿猛进入喷水高潮叫声| 99热久久这里只有精品| 狠狠躁夜夜躁人人爽天天不卡| 国产初高中生粉嫩无套第一次| 日韩av中文字幕有码| 中文字幕A片无码免费看| 无码日日模日日碰夜夜爽| 亚洲综合色在线观看| 国产精品中文字幕在线看| 日韩色美女| 国产成人精品高清在线观看93| 国产欧美日韩精品第二区| 一区二区中文字幕久久| 67194国产| 色综合?人妻| 午夜AAAAA级岛国福利在线| 午夜一区二区亚洲福利vr| 最新中文字幕av无码不卡| 国产精品久久久影院色| 久久精品午夜一区二区福利| 午夜丁香婷婷| 国产亚洲日韩在线aaaa| 中文字幕精品久久久乱码乱码| 色婷婷成人| 国产免费一区二区三区在线观看 | 国产午夜精品av一区二区|