<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      馬斯克也來站臺,中國團隊對AI底層架構(gòu)動手術(shù)

      0
      分享至

      作者 | 封華

      編輯 | 魏曉

      來自中國的Kimi,再一次引發(fā)了硅谷AI圈的注意。

      3月16日,月之暗面Kimi發(fā)布了一項技術(shù)報告《Attention Residuals》(注意力殘差),重新設(shè)計了深度學(xué)習(xí)中核心的殘差連接結(jié)構(gòu)。

      報告發(fā)布后,引來了一眾企業(yè)家和AI大佬的圍觀。連續(xù)三天登上Twitter全球熱搜榜,主貼閱讀量超過 460萬,堪比一次模型重要版本發(fā)布。

      OpenAI的“推理模型之父”、前OpenAI研究副總裁Jerry Tworek表示:“深度學(xué)習(xí)2.0要來了”。

      馬斯克稱贊道:“Kimi的研究令人印象深刻(Impressive work from Kimi)”。隨后,Kimi進行了回應(yīng):“你的火箭造得也不錯!”

      中外AI,在這一刻產(chǎn)生了惺惺相惜之感。


      馬斯克在業(yè)內(nèi)一向“口無遮攔”,曾嘲諷Anthropic大規(guī)模竊取訓(xùn)練數(shù)據(jù),也曾批評OpenAI成為“逐利公司”。只有真心認可,他才會不吝點贊。

      這次馬斯克對Kimi大加贊賞,正是震驚于AI技術(shù)的突破。

      Kimi提出的注意力殘差,旨在突破大模型架構(gòu)中的瓶頸,改寫大模型訓(xùn)練效率與成本曲線。

      技術(shù)突破“炸場”的同時,月之暗面創(chuàng)始人楊植麟還成為英偉達年度大會GTC 2026,唯一受邀演講的中國大模型公司創(chuàng)始人。

      在演講中,楊植麟沒有去講Kimi的用戶數(shù),或是其他商業(yè)數(shù)據(jù),而是解讀了一個核心問題:當(dāng)算力基建的規(guī)模化(Scaling)已成為行業(yè)共識,我們到底該Scale什么?

      當(dāng)全球AI競爭進入深水區(qū),Kimi的估值已狂飆至1200億元。從這次的技術(shù)突破,和楊植麟干貨滿滿的演講中,能看到Kimi對追求智能上限的執(zhí)著。

      新技術(shù)改變了什么?

      Kimi這次的突破,不是“調(diào)參數(shù)”,而是“動地基”。

      當(dāng)前大多數(shù)大規(guī)模深度學(xué)習(xí)模型都在使用“殘差連接”的結(jié)構(gòu),以保證能訓(xùn)練幾十層乃至上百層而不崩潰。

      這個設(shè)計來自何愷明在2015年參與的ResNet論文,十年來不曾被動搖根基。

      其簡單邏輯是:每一層的輸出=當(dāng)前層的結(jié)果+前面數(shù)層的累加。每一層網(wǎng)絡(luò)在做完自己的計算之后,把自己的輸出和輸入加在一起,然后傳到下一層去再做計算。

      這樣做的好處是,這樣一路累加下去,每一層都能“記住”前面所有層的信息。

      但這個機制并不是完美的,在大模型PreNorm主流范式下,殘差連接中所有層的

      貢獻都是等權(quán)累加。

      這樣將信息進行“無差別疊加”,沒有任何有效機制,去判斷哪一層的信息更重要,哪一層的信息可以忽略。隨著層數(shù)的增加,早期層信息的重要性就會被稀釋。并且,后面的層想要產(chǎn)生影響,就必須輸出模長更大的激活值,這反過來又加劇了訓(xùn)練的不穩(wěn)定性。

      就像咱們普通用戶在使用AI時,提示詞要盡量精準(zhǔn)、簡練,如果事無巨細地進行長篇大論,反而增加了AI理解信息的難度。

      AI訓(xùn)練也是如此,重要信息被稀釋,并且計算效率較為低下,這是一種浪費和負擔(dān)。

      Kimi團隊的最新技術(shù)報告提出一種全新方案——既然不想要“無差別累加”,那就讓網(wǎng)絡(luò)自己決定該提取什么信息。也就是,允許模型在每一層選擇性地關(guān)注此前各層的輸出,而不是簡單地進行求和。

      這一創(chuàng)新不僅優(yōu)化了計算效率,還顯著提升了大模型的訓(xùn)練效果。報告顯示,經(jīng)過改進的48B模型訓(xùn)練效率提升了1.25倍。


      Kimi的研究表明,當(dāng)把動態(tài)、與輸入相關(guān)的注意力機制引入進來之后,模型不再是簡單地“全盤接收”信息,而是具備了“結(jié)構(gòu)性判斷能力”,能夠更有選擇地抓住關(guān)鍵內(nèi)容。

      結(jié)果也很直接——改寫了大模型訓(xùn)練效率與成本曲線。

      Kimi團隊這次對慣性的大膽反思,瞄準(zhǔn)的是那座最不起眼卻最承重的“地基”。這并非一次局部優(yōu)化,而是有機會成為未來大模型架構(gòu)里的“標(biāo)配組件”。隨著驗證逐步展開,世界上其他AI團隊大概率會跟進類似思路,去探索新的架構(gòu)路徑。

      楊植麟此次在英偉達GTC 2026現(xiàn)場的演講,更將Kimi團隊的技術(shù)實力與獨特思考,第一次完整展示給硅谷核心技術(shù)圈。

      對“祖?zhèn)骷夹g(shù)”動刀

      重構(gòu)前沿范式

      北京時間3月18日凌晨,楊植麟站在英偉達年度大會GTC 2026的現(xiàn)場,發(fā)表了主題為《How We Scaled Kimi K2.5》的演講,首次完整披露了Kimi的技術(shù)路線圖。

      按照他講述的Kimi K2.5的進化邏輯,只有在“Token效率、長上下文、智能體集群”三個維度同時找到規(guī)模效應(yīng),才能實現(xiàn)遠超現(xiàn)狀的智能水平。

      如果說三維邏輯是戰(zhàn)略,那么對三大底層技術(shù)的重構(gòu)就是戰(zhàn)術(shù)。

      楊植麟提出,行業(yè)目前普遍使用的很多技術(shù)標(biāo)準(zhǔn),本質(zhì)上是八九年前的產(chǎn)物,正逐漸成為大模型 Scaling 的瓶頸。

      這也是本次演講的真正“硬核”所在,楊植麟直接勾勒出了下一代大模型的思考路徑:

      要真正實現(xiàn)智能上限的突破,不是來自于對舊架構(gòu)的修修補補,而是對優(yōu)化器、注意力機制、殘差連接等底層基石的重構(gòu)。


      其一,優(yōu)化器革命:從Adam到MuonClip。

      在超大規(guī)模訓(xùn)練中,Adam優(yōu)化器在提升Token效率上的瓶頸日益凸顯,尋找更具 Token 效率的替代方案已成趨勢。

      Kimi團隊在實驗中驗證了Muon優(yōu)化器的潛力,但在擴展到萬億參數(shù)時遇到了“Logits爆炸”的難題。

      對此,他們開出了自己的藥方:MuonClip。通過結(jié)合Newton-Schulz迭代并結(jié)合QK-Clip機制,他們不僅解決了穩(wěn)定性問題,更實現(xiàn)了2倍于傳統(tǒng)AdamW的計算效率。

      這一突破意義重大,在算力約束、成本高企的當(dāng)下,誰能用更少的計算量榨取更多的智能,誰就掌握了通往AGI的速通卡。

      其二,Kimi Linear:全注意力機制“終結(jié)者”。

      楊植麟展示了基于KDA架構(gòu)的Kimi Linear,一種混合線性注意力架構(gòu)。它挑戰(zhàn)了“所有層必須使用全注意力”的慣例,通過優(yōu)化遞歸存儲管理,在128K甚至1M的超長上下文中,將解碼速度提升了5到6倍。

      這不僅是速度的提升,更是對注意力機制本質(zhì)的思考:“按需分配”的注意力,才是不同場景下的務(wù)實選擇。

      其三:殘差連接:從固定加法到注意力殘差

      繼論文受到各方AI大佬圍觀之后,楊植麟再次在演講中介紹了這一技術(shù)突破。

      針對已有十年歷史的殘差連接,Kimi引入Attention Residuals方案,將傳統(tǒng)的固定加法累加,替換為對前序?qū)虞敵龅腟oftmax注意力。

      這一改動,通過選擇性聚合信息,讓每一層都能獲得前面所有層中更有價值的信息,而不是淹沒在求和“噪聲”中。

      之后,楊植麟提出了一項預(yù)判。他認為,未來的智能形態(tài)將從單智能體向動態(tài)生成的集群進化。Kimi K2.5引入的Orchestrator機制,能夠?qū)?fù)雜的長任務(wù)拆解給數(shù)十個子Agent并行處理,實現(xiàn)自協(xié)調(diào)的群體執(zhí)行。

      上述框架,并非零散的技術(shù)點疊加,而是一套從底層基石到上層應(yīng)用的完整技術(shù)閉環(huán),每一個環(huán)節(jié)都直指行業(yè)沿用近十年的技術(shù)標(biāo)準(zhǔn)的核心瓶頸。

      跳出“中國版ChatGPT”框架

      Kimi K2.5是全球用戶量最大的AI編程平臺Cursor唯一接入的開源模型,也是唯一的中國模型。也是全球最大的獨立AI搜索服務(wù)商Perplexity唯一接入的中國模型,開源的K2.5在跟OpenAI、Anthropic和Google的頂尖閉源模型同場競技。

      一同起飛的,是Kimi商業(yè)化的躍遷:20天收入即超2025年全年。

      K2.5發(fā)布后,Kimi通過其性能90%、價格七分之一的性價比優(yōu)勢,在海外斬獲高速的收入增長,海外收入在總營收中占比已超過國內(nèi),海外API開放平臺日均訪問量翻10-20倍。

      Kimi Claw于今年1月上線后,1月個人訂閱支付訂單環(huán)比暴增8280%,2月再漲123.8%。

      業(yè)內(nèi)認可之外,資本的追捧也極具說服力。

      最近三個月,估值漲了4倍,融資超過10億美元,超過大模型同行IPO募資額。

      最備受期待的,是Kimi“身份”的轉(zhuǎn)變——其已跳出“中國版ChatGPT”的狹窄框架,直接參與到了全球AI技術(shù)的底層創(chuàng)新。

      楊植麟談到了 AI 研究范式的轉(zhuǎn)變,從中我們得以一窺,為什么Kimi能不斷地從“古老”技術(shù)中挖掘出新的突破?

      他提到,十年前的研究往往更看重新想法的發(fā)表,但受限于算力資源,很難通過不同規(guī)模的實驗來驗證這些想法。而現(xiàn)在由于擁有了足夠的資源和“縮放階梯(Scaling Ladder)”,研究者可以進行嚴(yán)謹(jǐn)?shù)囊?guī)模化實驗,從而得出更自信、更可靠的結(jié)論。

      楊植麟傳遞出的信息清晰而堅定:Kimi不想只做一個更好的模型,而是要做那個定義下一代模型架構(gòu)的引領(lǐng)者:審視那些被沿用近十年的“舊技術(shù)”,嚴(yán)謹(jǐn)驗證,大膽重構(gòu),找到突破智能上限的下一個項關(guān)鍵技術(shù)。

      Lanmeih/今日話題

      你平時用Kimi嗎,感覺怎么樣?

      咱們評論區(qū)聊聊~

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      離譜!聽信豆包損失600元,一怒之下把豆包告了。豆包:絕對能贏!

      離譜!聽信豆包損失600元,一怒之下把豆包告了。豆包:絕對能贏!

      品牌新
      2026-05-20 09:56:02
      憤怒沖腦!上海第二工業(yè)大學(xué)男生課堂喊殺:起因曝光,當(dāng)事人發(fā)聲

      憤怒沖腦!上海第二工業(yè)大學(xué)男生課堂喊殺:起因曝光,當(dāng)事人發(fā)聲

      李晚書
      2026-05-20 08:39:29
      寧德時代:25萬以上用磷酸鐵鋰是減配!比亞迪:你沒資格定義高端

      寧德時代:25萬以上用磷酸鐵鋰是減配!比亞迪:你沒資格定義高端

      混沌錄
      2026-05-20 18:16:09
      滬指4199→4077!A股沖高回落,午后全線翻綠,發(fā)生了什么?

      滬指4199→4077!A股沖高回落,午后全線翻綠,發(fā)生了什么?

      每經(jīng)牛眼
      2026-05-21 15:37:49
      普京心里比誰都明白,賣給中國的天然氣,不降價真的不行了

      普京心里比誰都明白,賣給中國的天然氣,不降價真的不行了

      科技講者66
      2026-05-21 12:51:56
      飯局酒局的二場,現(xiàn)在沒人再去KTV了

      飯局酒局的二場,現(xiàn)在沒人再去KTV了

      微微熱評
      2026-05-21 00:38:48
      一月八萬不夠花,李雙江“賴”學(xué)校不退休,兒子改名出國后再作妖

      一月八萬不夠花,李雙江“賴”學(xué)校不退休,兒子改名出國后再作妖

      一盅情懷
      2026-05-16 20:12:47
      女總裁盯我簡歷五分鐘,突然撥通電話:媽,我給你找到未來女婿了

      女總裁盯我簡歷五分鐘,突然撥通電話:媽,我給你找到未來女婿了

      千秋文化
      2026-05-20 20:29:18
      高達7米,畝產(chǎn)可達30噸,種植一次可收割15年,你見過這種草嗎?

      高達7米,畝產(chǎn)可達30噸,種植一次可收割15年,你見過這種草嗎?

      杰絲聊古今
      2026-05-21 10:10:18
      人民日報評價《給阿嬤的情書》,言辭犀利,狠狠打了馮小剛的臉

      人民日報評價《給阿嬤的情書》,言辭犀利,狠狠打了馮小剛的臉

      一娛三分地
      2026-05-20 14:18:50
      WTT爆冷門!橋本帆乃香晉級,沖擊冠軍,21日賽程曝光,國乒看戲

      WTT爆冷門!橋本帆乃香晉級,沖擊冠軍,21日賽程曝光,國乒看戲

      劉哥談體育
      2026-05-21 15:38:47
      高市拿到12年稀土大單就飄了,叫囂反制無效,不料麻煩才開始

      高市拿到12年稀土大單就飄了,叫囂反制無效,不料麻煩才開始

      瘋狂小菠蘿
      2026-05-21 13:42:29
      累計扣9分!足協(xié)官方:對梅州客家追加扣除6分,并罰款人民幣80萬元

      累計扣9分!足協(xié)官方:對梅州客家追加扣除6分,并罰款人民幣80萬元

      懂球帝
      2026-05-21 15:20:31
      CCTV5直播!U17國足決戰(zhàn)日本隊爭冠,周雨諾+帥惟浩或成關(guān)鍵球員

      CCTV5直播!U17國足決戰(zhàn)日本隊爭冠,周雨諾+帥惟浩或成關(guān)鍵球員

      何老師呀
      2026-05-21 12:49:23
      我懷孕被領(lǐng)導(dǎo)派下鄉(xiāng),公公直接沖進單位,領(lǐng)導(dǎo)見他茶杯都端不穩(wěn)了

      我懷孕被領(lǐng)導(dǎo)派下鄉(xiāng),公公直接沖進單位,領(lǐng)導(dǎo)見他茶杯都端不穩(wěn)了

      千秋文化
      2026-05-15 19:58:00
      于根偉擔(dān)任總經(jīng)理,李宵鵬擔(dān)任主教練,再從山東泰山隊引入內(nèi)外援

      于根偉擔(dān)任總經(jīng)理,李宵鵬擔(dān)任主教練,再從山東泰山隊引入內(nèi)外援

      足球分析員
      2026-05-21 11:00:03
      日本乒乓球隊公布亞運會參賽名單,張本美和身兼三項

      日本乒乓球隊公布亞運會參賽名單,張本美和身兼三項

      懂球帝
      2026-05-21 16:14:31
      確認不打了!男籃第一控衛(wèi)身價大暴跌,加盟廣東隊成首選?

      確認不打了!男籃第一控衛(wèi)身價大暴跌,加盟廣東隊成首選?

      緋雨兒
      2026-05-21 08:30:23
      穆里尼奧鐵腕清洗!皇馬 5000 萬甩賣世界級王牌!曼聯(lián)撿漏狂喜

      穆里尼奧鐵腕清洗!皇馬 5000 萬甩賣世界級王牌!曼聯(lián)撿漏狂喜

      瀾歸序
      2026-05-21 04:55:31
      太意外了,從大漲到暴跌,A股今天開啟最強套人模式!是洗盤嗎?

      太意外了,從大漲到暴跌,A股今天開啟最強套人模式!是洗盤嗎?

      丁丁鯉史紀(jì)
      2026-05-21 17:19:35
      2026-05-21 19:23:00
      藍媒匯財經(jīng)plus incentive-icons
      藍媒匯財經(jīng)plus
      聚焦財經(jīng)熱點解讀行業(yè)動態(tài)
      755文章數(shù) 265關(guān)注度
      往期回顧 全部

      科技要聞

      好到離譜也不夠!英偉達交出816億美元營收

      頭條要聞

      特朗普稱將與賴清德交談 外交部表態(tài)

      頭條要聞

      特朗普稱將與賴清德交談 外交部表態(tài)

      體育要聞

      常住人口7000的小鎮(zhèn),擁有了一支德甲球隊

      娛樂要聞

      反轉(zhuǎn)!金秀賢與金賽綸未成年時交往不實

      財經(jīng)要聞

      英偉達業(yè)績超預(yù)!指引再新高仍不夠亮眼

      汽車要聞

      小鵬正在研發(fā)"高達" 融合機器人技術(shù)的主動懸架

      態(tài)度原創(chuàng)

      旅游
      家居
      教育
      公開課
      軍事航空

      旅游要聞

      陜西佳縣白云山“四月八”旅游最靚麗的風(fēng)景:“志愿紅”

      家居要聞

      風(fēng)格碰撞 個性與藝術(shù)

      教育要聞

      小學(xué)生中學(xué)生情境口語English英語學(xué)習(xí)洗漱刷牙Wash and Brush

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗警告:任何新襲擊將促使戰(zhàn)場擴大到中東以外

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 无码中文字幕DⅤD免费放| 五月丁香网站| 国产在线观看播放av| 亚洲精品自拍| 男人天堂av免费观看| 一本无码人妻在中文字幕| 亚洲5555| 97成人超碰| 一本色道久久88综合日韩精品| 17青青草国产一区二区| 久久人妻视频免费观看| 国产精品 中文字幕 亚洲 欧美| 亚洲精品久久久久一区二区| 免费无码国产欧美久久18| 国产三区在线成人av| 米奇亚洲国产精品思久久| 成人网站在线进入爽爽爽| 国产熟女精品视频大全| 在线精品免费视频无码的| 中文屏幕乱码av| 黑粗硬大欧美在线播放| 成年无码aⅴ片在线观看| 国产精品_国产精品_k频道| 亚洲一区二区三区av在线| 熟妇人妻无码中文字幕老熟妇| 亚洲AV日韩精品久久久久| 精品一区二区成人精品| 91成人视频在线观看| 亚洲好看中文字幕一区二区三 | 午夜体验区| 亚洲日产无码中文字幕| 国产乱人伦偷精品视频AAA| 亚洲一区二区三区人妻天堂| 中文国产日韩欧美二视频| 国产在线欧美一区二区| 老妇毛片久久久久久久久| cosplay女黄网站| 国产成人无码a区在线观看视频app| 国产精品永久不卡免费视频| 国产在线国偷精品免费看| 国产资源网|