點擊領取-->?
近日,埃隆·馬斯克在社交平臺稱贊中國人工智能公司月之暗面(Moonshot AI)Kimi團隊的一項技術成果“令人印象深刻”。這項受到關注的新工作名為“注意力殘差”,旨在改進大模型的底層信息傳遞結構,其技術論文的共同第一作者中,包括一位來自深圳的17歲在讀高中生陳廣宇。
![]()
陳廣宇在接受記者采訪時表示,希望外界少寫個人、多寫技術和團隊,不要為了熱點突出個人,這項工作是團隊共同完成的成果。
![]()
該論文由陳廣宇、張宇、蘇劍林三人作為同等貢獻作者共同完成。其中,張宇是Kimi高效模型架構的重要研究者,蘇劍林則是大模型旋轉位置編碼(RoPE)方法的提出者。陳廣宇在接受采訪時強調,這是團隊共同完成的成果,希望外界多關注技術本身。
當前主流大模型普遍基于Transformer架構,但模型層與層之間的信息傳遞長期沿用較為固定的“殘差連接”方式。這種方法在層數加深時,關鍵信息容易被稀釋。Kimi團隊提出的“注意力殘差”提供了新思路:讓當前層能夠主動選擇并聚合前面層中更重要的信息,而非無差別傳遞全部內容。
![]()
(傳統殘差連接與注意力殘差結構對比圖)
這一改進的意義在于,為提升大模型能力開辟了除堆疊參數和算力之外的新路徑——通過優化底層結構來提高信息利用效率。馬斯克評論這個論文時說:“Kimi的工作令人印象深刻。”
論文第一作者陳廣宇是深圳一所國際學校的高三學生。其社交媒體信息顯示,他已擁有頂尖競技編程背景,參加過美國計算機奧林匹克競賽鉑金組比賽,在Kimi內部拿下48小時“黑客馬拉松”比賽冠軍。
陳廣宇通過自學經典論文、追蹤開源項目打下基礎,后因在社交平臺的技術分享獲得硅谷AI初創公司實習機會,并于去年11月加入Kimi團隊實習。在此期間,他在Kimi擔任機器學習研究員,參與中國最頂尖的開源大模型的核心研發,并從“學生”變成“一線貢獻者”。
此前他入選羅德信托的高潛力未來領袖計劃,這是面向全球15~17歲潛力青年的選拔計劃。他還在美國頂尖小型實驗室Tilde Research做過AI研究。
![]()
(陳廣宇個人網站,列有其參與的多個項目)
他一再表示,此次成績離不開團隊中每一位成員的貢獻。對陳廣宇而言,17歲以第一作者身份主導Kimi這樣頂級獨角獸的核心架構論文,堪稱“硅谷震動級”事件,也讓全球AI圈注意到“中國高中生已經在做前沿架構創新”。陳廣宇說,kimi的成員都有投入,不少人作出同等貢獻。
現在注冊滴滴順風車,完成首單有50元獎勵!
回復【A01】領取85本哈佛商學院必讀書單
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.