<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Kimi新架構(gòu)讓馬斯克嘆服!17歲高中生作者一戰(zhàn)成名

      0
      分享至

      • 克雷西 發(fā)自 凹非寺
        量子位 | 公眾號(hào) QbitAI

      17歲高中生,以一作身份,在Kimi團(tuán)隊(duì)把Ilya提出的設(shè)想,變成了現(xiàn)實(shí)。

      Ilya之前有個(gè)預(yù)言,把按時(shí)間先后順序處理數(shù)據(jù)的LSTM網(wǎng)絡(luò)“旋轉(zhuǎn)90度”,也就是把時(shí)間軸換成模型深度軸,就變成了現(xiàn)在的殘差網(wǎng)絡(luò)。

      Kimi團(tuán)隊(duì)認(rèn)為,既然時(shí)間上的LSTM能對(duì)應(yīng)深度上的殘差,那后來淘汰了LSTM的“注意力機(jī)制”自然也可以照做。

      他們新搞出的Attention Residuals技術(shù),就相當(dāng)于把注意力機(jī)制也“旋轉(zhuǎn)了90度”。



      用了這套新方法后,模型在計(jì)算當(dāng)前層時(shí)可以聰明地“回頭看”,根據(jù)需要自由決定去提取前面哪一層的信息。

      這篇論文讓馬斯克也來圍觀,表示令人印象深刻。



      除了馬斯克,這篇論文也引發(fā)了大神Karpathy的思考,直言我們對(duì)Attention is All You Need這篇Transformer開山之作的理解還是不夠。



      這種新機(jī)制放到Kimi自家的Kimi Linear 48B大模型(3B激活參數(shù))上驗(yàn)證,訓(xùn)練效率提升25%,推理延遲增加不到2%。



      殘差連接的“記憶負(fù)擔(dān)”

      先回顧一下殘差連接的工作原理。

      傳統(tǒng)做法是:第N層的輸出 = 第N層的計(jì)算結(jié)果 + 第N-1層的輸出。這樣一路累加下去,每一層都能“記住”前面所有層的信息。

      問題來了,在大模型PreNorm主流范式下,殘差連接中所有層的貢獻(xiàn)都是等權(quán)累加。

      就像一個(gè)“記憶力太好的人”,把所有經(jīng)歷都以相同權(quán)重存進(jìn)大腦。貢獻(xiàn)被逐步稀釋,早期信息難以檢索,且大量層可被剪枝而損失微小,稱之為“PreNorm dilution problem”。

      更麻煩的是,隱藏狀態(tài)的范數(shù)會(huì)隨著深度不斷增長。研究人員發(fā)現(xiàn),在深層網(wǎng)絡(luò)中,這種unbounded growth會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。

      月之暗面團(tuán)隊(duì)換了個(gè)思路:既然問題出在“無差別累加”,那就讓網(wǎng)絡(luò)自己決定該回憶什么。

      用注意力“選擇性回憶”

      團(tuán)隊(duì)觀察到一個(gè)有趣的對(duì)偶性:網(wǎng)絡(luò)的深度維度和序列的時(shí)間維度,本質(zhì)上是同構(gòu)的。

      在Transformer處理序列時(shí),用注意力機(jī)制讓當(dāng)前位置“選擇性關(guān)注”之前的位置。那么在深度維度上,為什么不能讓當(dāng)前層“選擇性關(guān)注”之前的層?

      Attention Residuals就這么來的:

      • 當(dāng)前層的可學(xué)習(xí)偽查詢向量作為query(learnable pseudo-query)
      • 所有前層的輸出作為key和value
      • 用注意力機(jī)制加權(quán)聚合

      這樣一來,網(wǎng)絡(luò)可以學(xué)會(huì)哪些層的信息對(duì)當(dāng)前計(jì)算最重要,就多關(guān)注一點(diǎn);不相關(guān)的層,權(quán)重自然降低。

      但這帶來一個(gè)新問題:計(jì)算量爆炸。

      如果一個(gè)100層的網(wǎng)絡(luò),每一層都要對(duì)前面99層做full attention residual,復(fù)雜度是O(L2),根本跑不動(dòng)。

      Block AttnRes:分塊壓縮

      論文中的解決方案是Block AttnRes。

      核心思想是把連續(xù)的若干層打包成一個(gè)block,對(duì)block內(nèi)部的輸出做壓縮,只保留一個(gè)“摘要向量”。



      具體操作如下:

      • 把L層網(wǎng)絡(luò)分成B個(gè)block,每個(gè)block包含若干層
      • 每個(gè)block結(jié)束時(shí),把block內(nèi)的信息壓縮成單個(gè)向量
      • 后續(xù)層做attention時(shí),只需要關(guān)注塊間表征+塊內(nèi)實(shí)時(shí)層輸出,而非全部L個(gè)層

      這樣一來,attention的復(fù)雜度從O(L2)降到了O(L·B),在實(shí)踐中B可以設(shè)得很小(論文用的是8-16)。

      此外,團(tuán)隊(duì)還做了數(shù)個(gè)工程優(yōu)化:緩存式流水線通信、序列分片預(yù)填充、KV 緩存粒度優(yōu)化等等。

      Kimi Linear驗(yàn)證:1.25倍效率提升

      理論說得通,但真正讓人信服的是大規(guī)模驗(yàn)證。

      團(tuán)隊(duì)在自家的Kimi Linear架構(gòu)上做了測(cè)試。這是一個(gè)采用線性注意力的大模型,總參數(shù)48B,激活參數(shù)3B(MoE架構(gòu))。

      同等計(jì)算預(yù)算下,Attention Residuals能獲得更好的下游性能;反過來說,達(dá)到相同性能需要的訓(xùn)練計(jì)算量減少了約20%,相當(dāng)于獲得了1.25倍的效率優(yōu)勢(shì)。

      在具體任務(wù)上,數(shù)學(xué)推理(MATH、GSM8K)、代碼生成(HumanEval、MBPP)均持平或略優(yōu),多語言理解的一致性也有所改善。



      更重要的是,Attention Residuals是一個(gè)drop-in replacement,不需要修改網(wǎng)絡(luò)其他部分,直接替換殘差連接即可。

      論文里還講到一個(gè)有意思的視角。

      團(tuán)隊(duì)把這項(xiàng)工作稱為“時(shí)間-深度對(duì)偶性”(time-depth duality)的應(yīng)用。

      在他們看來,深度神經(jīng)網(wǎng)絡(luò)的“層”和循環(huán)神經(jīng)網(wǎng)絡(luò)的“時(shí)間步”,本質(zhì)上是都是對(duì)信息的迭代處理。

      Transformer之所以成功,是因?yàn)橛胊ttention替代了RNN中固定的recurrence。

      那么在深度維度上,是不是也該用attention替代固定的residual?

      17歲高中生入列共同一作

      更有意思的是,這篇讓馬斯克、Karpathy等人都為之一震的論文,共同一作之一是一名年僅17歲的高中生——陳廣宇(Nathan)。



      另外兩名共同一作,分別是Kimi的關(guān)鍵人物之一、RoPE(旋轉(zhuǎn)位置編碼)的提出者蘇神(蘇劍林),以及Kimi Linear的第一作者張宇。

      誠然Attention Residuals是團(tuán)隊(duì)協(xié)作取得的成果,但一名高中生出現(xiàn)在這樣的團(tuán)隊(duì)之中,還與兩位大神共列一作,已經(jīng)足夠震撼。



      a16z創(chuàng)始人Marc Andreessen、Thinking Machines的聯(lián)創(chuàng)等人都關(guān)注了他的X賬號(hào)。



      一年前才剛剛開始了解大模型的陳廣宇,是從北京的一場(chǎng)黑客松開始,一路走向硅谷的。

      后來回國時(shí),他選擇加入了Kimi。

      經(jīng)手過月之暗面投資的奇績(jī)創(chuàng)壇(原YC中國)創(chuàng)始成員董科含,也曾在其個(gè)人公眾號(hào)上刊載過陳廣宇的一份自傳。

      去年二月,北京的一場(chǎng)中學(xué)生黑客松上,陳廣宇展示了一個(gè)關(guān)于“人類第三只機(jī)械輔助手”的創(chuàng)新構(gòu)想——ThirdArm。

      也正是這個(gè)項(xiàng)目,讓他結(jié)識(shí)了黑客松評(píng)委董科含,后者也成為了他的創(chuàng)業(yè)導(dǎo)師。

      當(dāng)時(shí),董科含追問他,未來是否會(huì)深耕這項(xiàng)技術(shù),這促使他開始重新審視自己的職業(yè)方向。

      隨后他入選了董科含發(fā)起的只有極少數(shù)人入選的青年計(jì)劃,開始接觸IOI(國際信息學(xué)奧林匹克)金牌得主及資深科研人員。

      此前他曾嘗試經(jīng)營Shopify跨境電商店鋪、運(yùn)營短視頻賬號(hào),但經(jīng)過董科含的建議,他決定轉(zhuǎn)向理解時(shí)代的底層技術(shù)。

      當(dāng)時(shí)還不知道Transformer是什么的他,在DeepSeek研究員袁境陽的指導(dǎo)下,利用Gemini作為輔助工具,通過研讀經(jīng)典論文、追蹤GitHub開源項(xiàng)目等方式逐步建立認(rèn)知。

      有一次他在推特上分享了對(duì)一篇博客的反思后,獲得了作者的回復(fù),這篇帖子也因此引起了一家硅谷AI初創(chuàng)公司CEO的關(guān)注。

      該公司于2024年底成立,2025年初完成了800萬美元種子輪融資,資方背景涉及OpenAI與Anthropic。

      在通過一項(xiàng)限時(shí)通宵完成的實(shí)驗(yàn)測(cè)試后,他拿到了對(duì)方的錄用通知。

      暑假期間,他前往舊金山開啟了為期七周的實(shí)習(xí)。其中前兩周,他負(fù)責(zé)定義并推進(jìn)一個(gè)涉及144張H100顯卡的探索性項(xiàng)目。

      在CEO直接指導(dǎo)下,他的工作延伸至運(yùn)營層面,參與了招聘系統(tǒng)搭建、技術(shù)內(nèi)容輸出及融資策略討論,并獲得與早期投資者Vinod Khosla交流的機(jī)會(huì)。

      在硅谷期間,他維持著高強(qiáng)度工作節(jié)奏,通過咖啡社交與英偉達(dá)工程師及初創(chuàng)創(chuàng)始人建立聯(lián)系。這次經(jīng)歷讓他將科研視為一種支撐創(chuàng)造的底層能力。



      實(shí)習(xí)結(jié)束后,陳廣宇回到國內(nèi),并于去年11月加入月之暗面。

      把他吸引進(jìn)去的,正是Kimi一直做的Flash Linear Attention這一類高效attention工作。

      實(shí)際上,正是GitHub上的FLA項(xiàng)目,吸引了他對(duì)機(jī)器學(xué)習(xí)的興趣并被邀請(qǐng)加入Kimi團(tuán)隊(duì)。

      也正是順著這條線,他開始一路往更底層鉆,從讀論文、看實(shí)現(xiàn),到研究 Triton kernel、理解attention為什么能被這樣重寫、這樣加速。

      到了月之暗面,這條路也算是繞了一圈又落回原點(diǎn)——

      他最初是被底層技術(shù)吸引,最后做的也正是最底層、最核心的那部分事。

      相比于講一個(gè)“少年天才一路開掛”的故事,陳廣宇的經(jīng)歷更像是另一種成長路徑——

      先被時(shí)代最前沿的技術(shù)擊中,再一步步把興趣磨成能力,把能力帶到真正的大模型研發(fā)現(xiàn)場(chǎng)里。

      論文地址:
      https://github.com/MoonshotAI/Attention-Residuals/
      [1]https://mp.weixin.qq.com/s/gRR99pEDWb5qsk2a2hwe2w
      [2]https://nathanchen.me/public/About%20me.html

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      航拍湖南瀏陽煙花廠爆炸事故現(xiàn)場(chǎng):專業(yè)人員進(jìn)入核心區(qū)域救援

      航拍湖南瀏陽煙花廠爆炸事故現(xiàn)場(chǎng):專業(yè)人員進(jìn)入核心區(qū)域救援

      新京報(bào)
      2026-05-05 09:46:42
      徐正源攜助教抵達(dá)桃仙機(jī)場(chǎng),遼寧鐵人球迷送上圍巾

      徐正源攜助教抵達(dá)桃仙機(jī)場(chǎng),遼寧鐵人球迷送上圍巾

      懂球帝
      2026-05-05 15:15:05
      夏季t恤品牌排行榜,2026適合日常長期穿著的T恤衫品牌推薦

      夏季t恤品牌排行榜,2026適合日常長期穿著的T恤衫品牌推薦

      土豆絲卷餅
      2026-05-01 19:16:04
      帕金斯怒撕亞歷山大:他的風(fēng)格就是在侮辱籃球,每次進(jìn)攻都在假摔

      帕金斯怒撕亞歷山大:他的風(fēng)格就是在侮辱籃球,每次進(jìn)攻都在假摔

      小徐講八卦
      2026-05-05 16:04:24
      無懸念!無爭(zhēng)議!就是第一!就是無敵!

      無懸念!無爭(zhēng)議!就是第一!就是無敵!

      左右為籃
      2026-05-05 17:04:56
      一群專業(yè)演員愣演不過一個(gè)說相聲的《低智商犯罪》爛不是沒理由的

      一群專業(yè)演員愣演不過一個(gè)說相聲的《低智商犯罪》爛不是沒理由的

      金風(fēng)說
      2026-05-05 17:40:33
      季后賽場(chǎng)均14+6!博伊爾斯這個(gè)新秀值得期待!而他的女友同樣搶鏡!

      季后賽場(chǎng)均14+6!博伊爾斯這個(gè)新秀值得期待!而他的女友同樣搶鏡!

      籃球大圖
      2026-05-05 11:26:52
      凌晨3點(diǎn) 歐冠生死戰(zhàn)!誰贏誰進(jìn)決賽:阿森納沖擊20年紀(jì)錄

      凌晨3點(diǎn) 歐冠生死戰(zhàn)!誰贏誰進(jìn)決賽:阿森納沖擊20年紀(jì)錄

      葉青足球世界
      2026-05-05 16:43:25
      他是吳宜澤當(dāng)下最關(guān)鍵的對(duì)手,拿下13個(gè)冠軍,選老婆的眼光也不錯(cuò)

      他是吳宜澤當(dāng)下最關(guān)鍵的對(duì)手,拿下13個(gè)冠軍,選老婆的眼光也不錯(cuò)

      白面書誏
      2026-05-04 17:50:08
      李淵跪求放過10個(gè)孫子,李世民點(diǎn)頭應(yīng)允,轉(zhuǎn)身后為何怒斬十孫?

      李淵跪求放過10個(gè)孫子,李世民點(diǎn)頭應(yīng)允,轉(zhuǎn)身后為何怒斬十孫?

      千秋文化
      2026-01-20 20:41:08
      賴寧的雕像拆了,但有些東西不該拆

      賴寧的雕像拆了,但有些東西不該拆

      梳子姐
      2026-05-04 16:31:53
      吳宜澤18-17奪冠!賽后聽聽對(duì)手 同行和媒體怎么說:中國時(shí)代到來

      吳宜澤18-17奪冠!賽后聽聽對(duì)手 同行和媒體怎么說:中國時(shí)代到來

      侃球熊弟
      2026-05-05 06:49:38
      “00后”吳宜澤奪冠:商業(yè)代言以臺(tái)球圈為主,金利來提前押寶成功

      “00后”吳宜澤奪冠:商業(yè)代言以臺(tái)球圈為主,金利來提前押寶成功

      藍(lán)鯨新聞
      2026-05-05 16:01:10
      突發(fā)!美籍女子來港旅游從29樓墜落死亡,七人慘遭橫禍被砸成重傷

      突發(fā)!美籍女子來港旅游從29樓墜落死亡,七人慘遭橫禍被砸成重傷

      云隱南山
      2026-05-05 15:37:29
      分錢了!斯諾克世錦賽中國11人,分別拿到多少獎(jiǎng)金?吳宜澤夠買房

      分錢了!斯諾克世錦賽中國11人,分別拿到多少獎(jiǎng)金?吳宜澤夠買房

      體育大學(xué)僧
      2026-05-05 09:09:17
      絕殺墨菲奪冠!吳宜澤封王,中國斯諾克歷史十大球手怎么排?

      絕殺墨菲奪冠!吳宜澤封王,中國斯諾克歷史十大球手怎么排?

      仰臥撐FTUer
      2026-05-05 09:36:46
      關(guān)心打工人!深圳官方:因周四為工作日,比賽調(diào)整為20點(diǎn)跳球

      關(guān)心打工人!深圳官方:因周四為工作日,比賽調(diào)整為20點(diǎn)跳球

      懂球帝
      2026-05-05 15:15:05
      NBA強(qiáng)強(qiáng)對(duì)決 騎士VS活塞

      NBA強(qiáng)強(qiáng)對(duì)決 騎士VS活塞

      慢歌輕步謠
      2026-05-05 16:56:16
      夫妻花千元入住帳篷民宿,睡得迷迷糊糊時(shí)帳篷突然被陌生男子拉開,民宿最新回應(yīng)

      夫妻花千元入住帳篷民宿,睡得迷迷糊糊時(shí)帳篷突然被陌生男子拉開,民宿最新回應(yīng)

      深圳晚報(bào)
      2026-05-05 13:10:55
      馬克龍?zhí)崆?quot;謝幕"!梅朗雄宣布競(jìng)選法國總統(tǒng),對(duì)華態(tài)度已曝光

      馬克龍?zhí)崆?quot;謝幕"!梅朗雄宣布競(jìng)選法國總統(tǒng),對(duì)華態(tài)度已曝光

      瞻史
      2026-05-05 10:15:07
      2026-05-05 18:16:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12573文章數(shù) 176461關(guān)注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

      頭條要聞

      四川一企業(yè)盜采河水作飲用水售賣十年 當(dāng)?shù)鼗貞?yīng)

      頭條要聞

      四川一企業(yè)盜采河水作飲用水售賣十年 當(dāng)?shù)鼗貞?yīng)

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      英皇25周年演唱會(huì) 張敬軒被救護(hù)車?yán)?/h3>

      財(cái)經(jīng)要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺(tái)

      態(tài)度原創(chuàng)

      藝術(shù)
      時(shí)尚
      親子
      手機(jī)
      本地

      藝術(shù)要聞

      有多少人知道,它曾是亞洲第一高樓?

      夏天最經(jīng)典的銀色,貴氣十足!

      親子要聞

      千萬別讓孩子養(yǎng)成這4個(gè)壞毛病

      手機(jī)要聞

      十年來第一次!蘋果討論漲價(jià):iPhone 18漲幅或超600元

      本地新聞

      用青花瓷的方式,打開西溪濕地

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲不卡无码永久在线观看| 超碰小说| 欧美Va视频在线播放| 国产成人高清亚洲综合| 日韩亚洲欧美在线观看| 国产资源站| 国产欧美一区二区日本加勒比| 天堂av最新版中文在线| 无码视频一区二区三区 | 亚洲精品国产中文字幕| 洋洋AV| 国产午夜精品理论大片| 在线精品亚洲一区二区绿巨人 | 人妻少妇白浆| 日韩亚洲欧洲在线com91tv| 国产亚洲一区二区手机在线观看| 亚洲精品国产第一页第二页_久久精品国产亚洲a片无码_国产精品乱码一区二区三 | 女自慰喷水免费观看WWW久久| 九九热在线精品视频九九| 国产黄色在线| 国产精品一区二区av片| 亚洲成在人线天堂网站| 中文在线天堂网www| 婷婷久久久亚洲欧洲日产国码av| 亚洲无码A视频在线| 亚洲综合另类欧美久久久精品| 亚洲色图导航| 亚洲av无码片在线播放| 免费无码午夜福利片69| 6080yyy午夜理论片中无码| 综合色一色综合久久网| 一级一级毛片免费看| 精品国产_亚洲人成在线| 亚洲精品乱码久久久久久久久久久久| 99国精产品自偷自偷综合| 国产精品冒白浆免费视频| 亚州精品无码人妻久久| 女乱淫免费看视频大黄| 国产精品成人99久久久久| 国产高清视频在线播放www色| 在线国产精品中文字幕|