<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      馬斯克親自點贊,Kimi動了十一年沒人敢碰的東西

      0
      分享至



      科技博主Avi Chawla在X上發了一條長帖,詳細拆解了月之暗面Kimi團隊剛剛發布的一篇技術報告。

      帖子發出后不久,馬斯克本人在下面回復了一句:“月之暗面做出了令人印象深刻的結果”(Impressive work from Kimi.)



      馬斯克在AI領域的表態向來以挑剔著稱,沒少罵過Anthropic和OpenAI,甚至曾直言說Anthropic的圖標像是某種人體器官。

      他自己的xAI最近還在經歷大規模重組,多位華人聯合創始人離職,Grok的表現也不盡如人意。

      可就在這個節骨眼上,他主動對一家中國AI公司的技術論文表示認可,多少有些出人意料。

      說回被馬斯克點贊的這個東西,其實是有點抽象的,因為它壓根不是一個模型。

      Kimi團隊提出了一種新的方式,試圖替換掉Transformer架構里一個自2015年以來就幾乎沒人動過的基礎組件。

      這是一篇純粹的架構層面的技術論文。

      雖然說這篇論文的影響,未必會被普通用戶感知到,可實際上,它觸碰的是整個深度學習的基石。

      01

      月之暗面到底改了什么

      要理解這篇論文在做什么,得先搞清楚一個背景?,F代大語言模型,無論是GPT、Claude,還是國內的豆包、DeepSeek,哪怕是Kimi自己的K2.5,其底層架構都是Transformer。

      Transformer之所以能訓練到幾十層甚至上百層而不崩潰,都是因為一個叫“殘差連接(Residual Connection)”的機制在起作用。

      殘差連接的原理其實很簡單。

      每一層網絡在做完自己的計算之后,把自己的輸出和輸入加在一起,然后傳到下一層去再做計算。這樣做的好處是,梯度在反向傳播時可以沿著一條“高速公路”直達底層,不會因為層數太深而消失。

      這個設計來自何愷明在2015年參與的ResNet論文,后來被Transformer原封不動地繼承了下來。

      但這時候就有一個不大不小的問題,這種“加法”是完全平等的。

      第一層的輸出和第四十層的輸出,在最終的隱藏狀態里享有同等的權重,都是1。沒有任何機制去判斷哪一層的信息更重要、哪一層的貢獻可以被忽略。隨著層數增加,隱藏狀態的數值會線性增長,早期層的信息逐漸被稀釋,后面的層想要產生影響就必須輸出更大的數值,這反過來又加劇了不穩定性。

      就像咱們所有人拉個微信群,一起討論晚上吃什么,每個人的發言權重完全一樣,不管誰說的有道理誰在瞎扯,最后群主只能把所有消息從頭到尾讀一遍,這就導致他越往后翻越記不住前面說了啥。

      這個現象在學術上被稱為“PreNorm稀釋”。

      Kimi團隊注意到,這個問題和早年RNN面臨的困境有一種結構上的對稱性。

      RNN是在時間維度上做固定權重的累加,每個時間步的信息被等權地壓縮進同一個隱藏狀態,導致長距離依賴難以捕捉。后來Transformer用注意力機制替代了RNN的這種線性累加,讓模型可以根據內容動態地決定該關注序列中的哪些位置,這才有了后來的一切。

      兩者的區別在于,RNN就像上課,老師講到哪你就聽到哪,只能從頭聽到尾,沒記住的要么看筆記,要么再次從頭來。Transformer則是錄播網課,可以隨時翻回去看之前最重要的部分。

      但在深度維度上,同樣的問題一直存在,卻沒有人用同樣的思路去解決。每一層的輸出仍然是被等權相加的,模型沒有能力根據當前輸入去選擇性地從某些層提取信息、忽略另一些層。

      Kimi團隊表示,標準殘差連接本質上是“深度維度上的線性注意力”,他們要做的,是把它升級為“深度維度上的softmax注意力”。

      于是他們提出了一個“理想版”的方案,叫做全注意力殘差(Full Attention Residuals)。



      具體做法是給每一層賦予一個可學習的查詢向量,這個向量會對之前所有層的輸出做一次注意力計算,產生一組歸一化的權重。

      然后當前層的輸入不再是之前所有層輸出的簡單求和,而是按照這組權重的加權組合。權重是輸入相關的,也就是說,不同的token在經過同一層時,可能會從不同的歷史層中提取不同的信息。

      那我們還是用前面微信群的例子?,F在群主不用從頭到尾翻聊天記錄了,有個助手幫他標出“這幾條最值得看”,不同的話題還會標出不同的重點消息。

      理想豐滿現實骨感,全注意力殘差這個方案其實“不靠譜”。

      大規模訓練時,模型通常會使用流水線并行和激活重計算來節省顯存,這意味著之前層的輸出不會被保留在內存里。

      如果要做全注意力,就需要把所有層的輸出都存下來并在流水線的不同階段之間傳遞,內存和通信開銷都會變得不可接受。

      為了解決這個問題,Kimi團隊又提出了塊注意力殘差(Block Attention Residuals)。



      思路是把所有層分成若干個塊,每個塊內部仍然使用傳統的殘差連接做求和,但塊與塊之間使用注意力機制來做選擇性聚合。這樣需要存儲和傳輸的不再是每一層的輸出,而是每個塊的匯總表示,內存占用從 O(Ld)降到了 O(Nd),其中 N 是塊的數量,通常只有8個左右。

      這就相當于是把剛才那個微信群分成了八個小組,每組先內部討論出一個結論,群主只需要看八條小組總結就行。

      在此基礎上,他們還做了一系列工程優化。

      比如跨階段緩存消除了流水線并行中的冗余傳輸,兩階段推理策略通過在線softmax把跨塊注意力的計算分攤到各個塊的處理過程中。最終的結果是,注意力殘差作為標準殘差連接的替代品,訓練時的額外開銷很小,推理時的延遲增加不到2%。

      Kimi團隊又做了兩個實驗。

      一是scaling law實驗,驗證這個改進在不同模型規模下是否一致有效。結果顯示,注意力在所有計算預算下都優于基線,其效果相當于用1.25倍的計算量訓練出的基線模型。

      二是Kimi拿自己的大模型上做了實戰驗證。模型參數量為480億,用超過一萬億個詞的數據做了完整的預訓練。然后在科學問答、數學推理、代碼生成、綜合知識等一系列主流測試中,加了塊注意力殘差的版本全面超過了沒加的版本。



      從訓練動態的分析來看,塊注意力殘差確實緩解了PreNorm稀釋問題。各層輸出的幅度不再隨深度線性增長,而是保持在一個相對穩定的范圍內;梯度的分布也更加均勻,也不再會出現淺層梯度過大、深層梯度過小的失衡現象。

      除此以外,論文中還做了一個統一的結構化矩陣分析,證明了標準殘差連接和之前的各種變體(比如 Highway Networks、DeepNet 的 scaled residuals 等)本質上都是深度維度上的線性注意力的特例。

      簡單來說就是,自2015年ResNet以來,在殘差連接這個板塊,沒有任何實質性的變化。而Kimi的這篇論文,是第一個既有理論依據,又能大規模實際部署且低成本的方案。

      馬斯克也正是因為這個結論,才親自下場點贊Kimi。

      02

      融資、爭議和馬斯克的那個贊

      月之暗面正處在一個微妙的時間節點上,那就是上市。

      2025年12月底,月之暗面完成了5億美元的C輪融資。投后估值43億美元。兩個月后,月之暗面完成超7億美元的C+輪融資,由阿里、騰訊、五源資本等老股東聯合領投,投后估值突破100億美元。

      到了3月中,月之暗面最新投前估值已上升至180億美元,新一輪10億美元融資正在推進中,3個月內估值實現超4倍增長。

      實際上月之暗面最近的收入增長得很快,Kimi K2.5模型發布不到一個月,累計收入就超過了2025年全年總收入。

      根據全球支付平臺Stripe的數據,Kimi個人訂閱用戶的支付訂單數在1月環比增長了 8280%,2月又環比增長了123.8%,已經進入Stripe全球榜單前十。

      但融資順利并不意味著沒有爭議。

      就在幾天前,OpenClaw創始人彼得·斯坦伯格公開對月之暗面的Kimi Claw產品提出了質疑。事

      情的起因是,月之暗面此前推出了OpenClaw的云端一鍵部署服務Kimi Claw,它的邏輯有悖于OpenClaw的設計理念。

      有用戶在X上詢問這個產品是否值得嘗試并 @了斯坦伯格,斯坦伯格的回應很直接:他們有沒有把安全文檔作為必讀項展示給用戶?



      斯坦伯格的核心關切在于,OpenClaw的邏輯是“本地優先”。agent運行在用戶自己的設備上,但可能因為過高的本地權限,引發了安全風險,因此工信部也建議“優先考慮在容器或虛擬機中隔離運行,形成獨立的權限區域。”

      但KimiClaw的做法正是如此,它把OpenClaw搬到了云端的虛擬機。在安全和隱私層面,這兩種模式的風險等級完全不同。

      對于正在高速融資的月之暗面來說,來自OpenClaw創始人的公開批評,多少會在海外技術社區中制造一些負面情緒。

      然后馬斯克的那條回復出現了。

      雖然這兩件事是風馬牛不相及的,但在輿論場上,它們會不可避免地被放在一起解讀。

      一邊是OpenClaw創始人對月之暗面產品的安全質疑,另一邊是馬斯克對月之暗面研究論文的公開認可。

      對于正在進行新一輪融資的月之暗面來說,后者的時機幾乎不能更好。在資本市場的敘事邏輯里,這種來自頂級人物的認可,往往比任何分析報告都更有說服力。

      當然了,不應該過度去解讀馬斯克的一條推文。他在X上的互動頻率極高,對各種技術話題都會隨手點評,一句“impressive”并不意味著他會投資月之暗面或者在xAI中采用月之暗面的方法。

      但不管怎么說,馬斯克那條回復發出去之后,很多原本不關注架構研究的人,也開始去翻這篇論文了。一個十一年沒人碰過的組件被重新打開,接下來會發生什么,誰也不知道。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      這魚再貴也別省,男人吃了腰有勁,女人吃了氣色好,別的真比不了

      這魚再貴也別省,男人吃了腰有勁,女人吃了氣色好,別的真比不了

      江江食研社
      2026-04-30 18:30:09
      張慶鵬將離任,北控換帥三大熱門出爐,誰能拯救球隊?

      張慶鵬將離任,北控換帥三大熱門出爐,誰能拯救球隊?

      男足的小球童
      2026-05-01 16:54:27
      令人憤怒“媽媽身上只剩4383塊”事件:病態教育觀,毀了多少孩子

      令人憤怒“媽媽身上只剩4383塊”事件:病態教育觀,毀了多少孩子

      夜深愛雜談
      2026-04-30 07:23:39
      中信建投:霍爾木茲海峽封鎖是核心矛盾 阿聯酋退出OPEC對油價的壓制短期效果有限

      中信建投:霍爾木茲海峽封鎖是核心矛盾 阿聯酋退出OPEC對油價的壓制短期效果有限

      財聯社
      2026-05-01 20:10:42
      一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

      一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

      川渝視覺
      2026-04-25 20:19:24
      傅作義親手放走5個蔣介石嫡系將領,幾十年后才知他保全的是什么

      傅作義親手放走5個蔣介石嫡系將領,幾十年后才知他保全的是什么

      睡前講故事
      2025-12-09 13:06:03
      赴港一晚籌436萬救患兒,李亞鵬全程彎腰致謝,背巨債干公益20年

      赴港一晚籌436萬救患兒,李亞鵬全程彎腰致謝,背巨債干公益20年

      以茶帶書
      2026-05-01 18:12:05
      日本準備戰爭,要打誰?48小時內,中國兩大軍媒下場“算總賬”

      日本準備戰爭,要打誰?48小時內,中國兩大軍媒下場“算總賬”

      夢史
      2026-05-01 16:47:14
      古天樂被曝疑似隱婚生子,女方疑似女演員林淑茵

      古天樂被曝疑似隱婚生子,女方疑似女演員林淑茵

      韓小娛
      2026-04-30 15:29:59
      毛主席開會沒煙了,看鄧華口袋鼓鼓的,問:你的白金龍還有沒有?

      毛主席開會沒煙了,看鄧華口袋鼓鼓的,問:你的白金龍還有沒有?

      尋史微鑒
      2026-03-08 12:20:24
      馬寧連掏兩黃!茹薩踩人染黃,韋世豪不滿,媒體人:撞槍口上了

      馬寧連掏兩黃!茹薩踩人染黃,韋世豪不滿,媒體人:撞槍口上了

      奧拜爾
      2026-05-01 20:42:45
      高市早苗公然喊出 “戰爭宣言”,30 國大使離場,中方強硬亮劍

      高市早苗公然喊出 “戰爭宣言”,30 國大使離場,中方強硬亮劍

      什么都嘮嘮
      2026-04-30 16:02:31
      重要調整!央視直播斯諾克世錦賽做2處改變,CCTV5直播吳宜澤

      重要調整!央視直播斯諾克世錦賽做2處改變,CCTV5直播吳宜澤

      云隱南山
      2026-05-01 10:20:12
      事關普京訪華,克宮最新回應

      事關普京訪華,克宮最新回應

      中國網
      2026-04-30 11:28:02
      美伊大戰,意外暴露中國家底,美國才懂,為啥中國人的底氣這么足

      美伊大戰,意外暴露中國家底,美國才懂,為啥中國人的底氣這么足

      阿尢說歷史
      2026-04-30 16:05:43
      比亞迪4月銷量321123輛

      比亞迪4月銷量321123輛

      界面新聞
      2026-05-01 19:19:35
      為什么整個亞洲只有中國有山姆超市?

      為什么整個亞洲只有中國有山姆超市?

      流蘇晚晴
      2026-04-30 18:50:00
      慘無人道!以軍用軍犬強奸巴勒斯坦囚犯,全程錄像,受害者:想死

      慘無人道!以軍用軍犬強奸巴勒斯坦囚犯,全程錄像,受害者:想死

      史行途
      2026-05-01 12:29:39
      視頻丨多國政要:中國市場巨大 零關稅政策助非洲發展

      視頻丨多國政要:中國市場巨大 零關稅政策助非洲發展

      北青網-北京青年報
      2026-05-01 18:01:02
      間隔一天吃他汀,降脂效果更好?醫生建議:服用他汀,謹記這7點

      間隔一天吃他汀,降脂效果更好?醫生建議:服用他汀,謹記這7點

      健身狂人
      2026-05-01 19:26:00
      2026-05-01 21:35:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2430文章數 8062關注度
      往期回顧 全部

      科技要聞

      蘋果上季在華收入繼續大增 iPhone收入新高

      頭條要聞

      70歲法國老人騎浙江品牌摩托車 穿越多國抵達杭州

      頭條要聞

      70歲法國老人騎浙江品牌摩托車 穿越多國抵達杭州

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      家居
      教育
      旅游
      藝術
      公開課

      家居要聞

      靈動實用 生活藝術場

      教育要聞

      告別“紙上談兵”!這個地方打破勞動教育圍墻,給孩子留下值得回憶的汗水!

      旅游要聞

      五一“微度假”受熱捧|惠民縣田園景區日迎萬人 無動力設施成親子游新寵

      藝術要聞

      Nikolai Vryasov:當代俄羅斯畫家

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 特黄大片又粗又大又暴| 日本一区二区三区福利视频| 色偷偷男人的天堂亚洲av| 亚洲精品国精品久久99热一| 无码人妻精品一区二区三区温州| 亚洲 欧美 清纯 校园 另类| 久久国产精品成人片免费| 久久精品| 成人av一区二区在线| 亚洲福利天堂网福利在线观看 | 亚洲 欧美 国产 日韩 精品| av自拍一区| 国产蜜臀av在线一区尤物 | 99热色| 亚洲精品天天影视综合网| 全部免费国产潢色一级| 都市激情第一页| 久久久久久a亚洲欧洲av| 亚洲AV第二区国产精品| 爱啪啪av导航| 亚洲中文久久久久久精品国产| 99日本亚洲黄色三级高清网站| 内射中出日韩无国产剧情| 久久久久无码精品国产AV| 亚洲欧美日韩中文高清www777| 美女在线视频一区二区| 99久久精品免费看国产一区二区三区| 日日摸摸碰夜| 黄色成年一区二区三区| 亚洲欧美中文日韩V在线观看| 在线成人一区二区| 日韩中文字幕高清有码| 国产午夜人做人免费视频中文| 妖精视频yjsp毛片永久| 白朗县| 欧美成人免费| 亚洲午夜福利精品一二飞| 在线?国产?精品?播放?VA| 日日噜噜夜夜狠狠视频| 免费**毛片在线播出| 美女个护士一级毛片亚洲|