<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,何愷明團隊新作,「嵌入式語言流」ELF來了

      0
      分享至



      機器之心編輯部

      「語言是離散的,但語言模型不一定是?!?/p>

      去年,一個名為 LLaDA 的項目在 AI 圈引發了不小的討論。這個基于「掩碼擴散」原理的語言模型,宣稱在若干基準測試上能與同規模的自回歸大模型(即 GPT 為代表的逐字生成模型)一較高下。

      消息一出,擴散語言模型(Diffusion Language Model,DLM)這個此前略顯小眾的研究方向,突然進入了更多人的視野。

      我們知道,文字是離散的 token,而擴散模型天然擅長處理連續數據,這讓視覺生成領域的主流技術,天然地難以運用在語言大模型上。

      而在 LLaDA 說明擴散模型可行后,各路團隊相繼跟進。研究者們普遍承認,擴散模型在文本生成上確實大有潛力 —— 它天然支持并行解碼,理論上可以比逐字輸出的自回歸模型快得多,也更容易實現「填空」、「雙向修改」等自回歸模型難以完成的任務。

      在這一大方向上,研究者走出了兩條路:

      • 離散擴散語言模型(Discrete DLM):直接在 token 空間里定義擴散過程,比如用 MASK 遮蓋 token 再逐步還原(MDLM)、或者把 token 往均勻分布擴散再逐步修正(Duo)。這條路近年來一直是主流,效果更好。
      • 連續擴散語言模型(Continuous DLM):先把 token 映射到連續的嵌入向量,在連續空間里做去噪,最后再轉回 token。這條路理論上更優雅,但實際效果長期落后于離散派。

      何愷明團隊的這篇新論文則選擇了明顯更加困難的后者。

      他們提出的模型叫做ELF(Embedded Language Flows,嵌入式語言流),核心思路只有一句話:把擴散過程搬進連續的向量空間,只在最后一步才把結果翻譯成詞



      論文共一作者 Linlu Qiu 的推文

      實驗結果顯示,這個思路不僅可行,效果還出人意料地好:用不到其它方法十分之一的訓練數據,生成質量就已經全面領先。



      • 論文標題:ELF: Embedded Language Flows
      • 論文地址:https://arxiv.org/pdf/2605.10938v1
      • 代碼倉庫:https://github.com/lillian039/ELF

      何愷明的答案:只在最后一步變成詞

      這篇論文來自 MIT 的一支八人團隊,其中兩位是共同第一作者(胡珂雅和 Linlu Qiu),通訊作者則是計算機視覺領域的標志性人物之一 ——何愷明

      何愷明的名字,對于稍微了解深度學習歷史的讀者并不陌生。2015 年,他在微軟亞洲研究院提出了殘差網絡(ResNet),一舉解決了深層神經網絡難以訓練的瓶頸,這篇論文至今仍是 AI 領域被引用次數最多的論文之一,其提出的殘差連接結構已滲透進 Transformer、AlphaGo Zero、AlphaFold 等幾乎所有現代 AI 系統。2024 年,他從 Meta AI 加盟 MIT,開始系統研究生成模型。



      「我看到何愷明的論文,我就點進去?!?/p>



      ELF,是這支團隊迄今在語言生成方向上最獨具一格的創新。

      既然擴散模型最擅長處理連續空間,何不讓它在連續空間里走完整段旅程,只在終點才做一次「翻譯」?

      具體來說,ELF 的做法是這樣的:

      首先,把一句話的每個詞,通過一個預訓練好的編碼器(論文中使用的是 T5 編碼器),轉換成一組連續的高維向量。這個向量不只代表單個詞,而是捕捉了上下文語義的「語境嵌入」。

      然后,用「流匹配」(Flow Matching),一種近年在圖像生成中大行其道的連續擴散框架,在這些向量上做去噪:從一團高斯噪聲出發,沿著學到的速度場,一步步把噪聲推向干凈的嵌入向量。

      最后,也只有在最后這一步,ELF 才把去噪后的連續向量,通過一個「反嵌入層」映射回詞匯表,輸出具體的詞。



      與之前的連續擴散語言模型不同的是,ELF 在整個去噪過程中,從不中途把連續向量變回到詞的空間。不打斷流動的連續性,讓擴散動力學有最大的自由度。而正因為全程都在向量空間里,圖像擴散領域開發的各種技術可以幾乎原封不動地搬進來使用,比如「無分類器引導」(Classifier-Free Guidance,CFG)。

      一個網絡,兩種模式

      ELF 設計上另一個值得一提的巧思,是用一個網絡同時承擔「去噪」和「解碼」兩個功能,靠一個「mode token」來切換。

      訓練時,同一個網絡的 80% 時間用于學習去噪(MSE 損失),剩下 20% 時間學習如何把最終的嵌入向量映射回詞(交叉熵損失)。



      推理時,在最后一步之前,網絡一直處于去噪模式;到了最后時刻,它切換成解碼模式,將連續向量翻譯成詞輸出。這樣,不需要額外訓練一個獨立的解碼器,整個流程簡潔而統一。



      此外,ELF 還引入了「自條件」(Self-Conditioning)機制:網絡在每一步去噪時,可以把自己上一步的預測結果當作參考輸入,而不是從零開始猜測。這不僅提高了生成質量,還為 CFG 提供了現成的「條件信號」來源,幾乎不帶來額外的計算負擔。

      實驗結果:用十分之一的訓練量,碾壓對手

      論文的實驗結果很有說服力。

      研究者選取的基準測試,是擴散語言模型領域通行的標準設定:在 OpenWebText 語料庫上訓練,用生成困惑度(Generative Perplexity,值越低越好,代表生成文本越流暢自然)和詞匯熵(Entropy,值越高越好,代表生成多樣性越豐富)衡量質量。



      ELF 只用了 32 個采樣步數就達到了困惑度 24。 相比之下,目前主流的離散擴散語言模型(MDLM、Duo 等)即便經過專門的「蒸餾」訓練來加速推理,在同等步數下的表現也不及 ELF,而 ELF 完全沒有做蒸餾。

      訓練成本的差距更加懸殊。論文統計,MDLM、Duo、FLM 等主流方法各自使用了約 5000 億個 Token 的訓練數據,ELF 只用了約 450 億 ——大約是它們的十分之一



      在更具實際意義的條件生成任務上,ELF 同樣表現突出。在 WMT14 德英機器翻譯基準上,ELF 取得了 26.4 的 BLEU 分數,超過了同等規模的自回歸模型(25.2)以及 MDLM(18.4)、CDCD(24.9)等對手。在 XSum 新聞摘要任務上,ELF 在 ROUGE-1、ROUGE-2、ROUGE-L 三項指標上也均居首位。

      過去兩年,擴散語言模型的研究進展幾乎都集中在離散空間 —— 更精巧的掩碼策略、更高效的解碼方式、更大規模的訓練。連續擴散路線因為與語言「離散本質」之間存在天然張力,一直處于相對邊緣的位置。

      ELF 的出現,提供了一個不同的參照點:連續擴散不是語言建模的障礙,而可能是一個尚未充分開發的優勢所在。連續空間里的流動更平滑,更容易借用圖像生成領域積累的技術,也更容易做引導和控制。ELF 在規模測試中表現出的良好擴展性(從 1 億參數到 6.5 億參數,質量持續提升),也說明這條路上仍有相當大的空間。

      當然,ELF 目前的評估還主要停留在中等規模模型和學術基準測試上。它能否在更大規模、更廣泛的任務上與當前最強的自回歸大模型形成真實競爭,還有待后續驗證。但就當下的結果而言,它至少清晰地回答了一個懸而未決的問題:

      連續擴散語言模型,似乎終于找對了方法。

      更多詳情,請參閱原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      女子河邊疑“放生”奶茶,貴陽水務部門回應:污染河道,相關行為不予認可,已聯系警方處理

      女子河邊疑“放生”奶茶,貴陽水務部門回應:污染河道,相關行為不予認可,已聯系警方處理

      大風新聞
      2026-05-13 11:45:02
      兩次嫁給梁靖崑,退圈安心照顧兩個兒子,如今丈夫成為大學教授

      兩次嫁給梁靖崑,退圈安心照顧兩個兒子,如今丈夫成為大學教授

      觀察鑒娛
      2026-05-13 10:03:52
      豆包收費了!大模型將告別免費時代?有何考量?

      豆包收費了!大模型將告別免費時代?有何考量?

      大象新聞
      2026-05-13 10:26:14
      美國B-29迫降蘇聯后,斯大林下令:全面模仿,連鉆錯的洞都不準改!

      美國B-29迫降蘇聯后,斯大林下令:全面模仿,連鉆錯的洞都不準改!

      爆角追蹤
      2026-05-12 17:13:53
      《異環》有太多大家沒關注到的細節

      《異環》有太多大家沒關注到的細節

      游娛fan
      2026-04-23 17:39:32
      國際足聯認慫了

      國際足聯認慫了

      不惑豬的頻道
      2026-05-12 21:40:48
      徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

      徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

      真的好愛你
      2026-05-12 06:49:30
      “十年燒烤無人問,一墻書法天下知!”女孩在父親店寫《將進酒》

      “十年燒烤無人問,一墻書法天下知!”女孩在父親店寫《將進酒》

      一絲不茍的法律人
      2026-05-12 21:58:34
      CBA賽場絕美女球迷意外走紅!疑似東陽光老板娘,AI真假網友吵翻

      CBA賽場絕美女球迷意外走紅!疑似東陽光老板娘,AI真假網友吵翻

      譚談社會
      2026-05-13 03:53:12
      起底那個聲稱海參崴不存在的微博大v杜建國

      起底那個聲稱海參崴不存在的微博大v杜建國

      筆桿論道
      2026-05-13 00:01:53
      特朗普上飛機前坦白,對華稱呼已變,美參議員:絕不能向華讓步

      特朗普上飛機前坦白,對華稱呼已變,美參議員:絕不能向華讓步

      云舟史策
      2026-05-13 07:27:57
      奶奶騎臺鈴電動車接6歲孫子,NFC解鎖后方向突然鎖死兩人摔傷;家屬:不到一年發生七八次事故;臺鈴回應

      奶奶騎臺鈴電動車接6歲孫子,NFC解鎖后方向突然鎖死兩人摔傷;家屬:不到一年發生七八次事故;臺鈴回應

      大象新聞
      2026-05-12 19:46:06
      抗戰時一地下黨被捕,偽鄉長看后踢了對方一腳:共產黨會要這蠢貨

      抗戰時一地下黨被捕,偽鄉長看后踢了對方一腳:共產黨會要這蠢貨

      浩渺青史
      2026-05-12 20:43:52
      全球化工巨頭,為何密集重倉中國?答案藏在一份發改委報告里

      全球化工巨頭,為何密集重倉中國?答案藏在一份發改委報告里

      正解局
      2026-05-09 14:27:05
      緬懷!前NBA球員科林斯去世!年僅47歲!

      緬懷!前NBA球員科林斯去世!年僅47歲!

      柚子說球
      2026-05-13 08:53:16
      南京審計大學偷拍男生已被開除,被曝光后曾說自己真的要完了

      南京審計大學偷拍男生已被開除,被曝光后曾說自己真的要完了

      映射生活的身影
      2026-05-13 00:04:37
      韓網熱帖:用自己的生殖器代替檢查設備插入患者體內 的婦產科醫生

      韓網熱帖:用自己的生殖器代替檢查設備插入患者體內 的婦產科醫生

      奮斗在韓國
      2026-05-12 10:27:58
      天籟鴻蒙座艙版重新定義家用轎車新秩序

      天籟鴻蒙座艙版重新定義家用轎車新秩序

      雙簧線
      2026-05-12 14:55:44
      賈躍亭突然殺回來了

      賈躍亭突然殺回來了

      新行情
      2026-05-12 14:09:08
      驚悚!全國各地樹上忽然集中出現大量詭異奇怪符號!真相是?

      驚悚!全國各地樹上忽然集中出現大量詭異奇怪符號!真相是?

      魔都囡
      2026-05-13 09:19:01
      2026-05-13 13:00:51
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12980文章數 142648關注度
      往期回顧 全部

      科技要聞

      谷歌劇透安卓重大升級 Gemini深度集成底層

      頭條要聞

      特朗普訪華隨行名單:夫人缺席 次子夫婦、魯比奧隨行

      頭條要聞

      特朗普訪華隨行名單:夫人缺席 次子夫婦、魯比奧隨行

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      鞏俐用中文宣布戛納開幕,彰顯國際地位

      財經要聞

      深圳夫妻囤芯片,身家飆漲320億

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      本地
      時尚
      家居
      數碼
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      沒八卦、純素人、不驚艷,可她贏麻了

      家居要聞

      極簡主義下的居住場域與空間

      數碼要聞

      上游不優化我自己來!五年老卡RX 6800 XT內核魔改:MoE速度暴增至1770t/s

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻无码一区二区三区| 少妇大叫好爽受不了午夜视频| 亚洲av激情综合在线| 四虎精品国产永久在线观看| 成人内射国产免费观看| 日日人人爽人人爽人人片av| 99免费精品视频| av一区二区亚洲精品| 国产另类ts人妖一区二区| 青娱乐av| 国产成人综合色视频精品| 成在人线av无码免观看麻豆| 久久精品国产亚洲AV麻| 日韩毛片| 7777精品伊人久久久大香线蕉全新功能| 日韩精品有码在线视频| 最新国产乱人伦偷精品免费网站 | 视频一区视频二区在线视频| av中文天堂| 亚洲av网站| 国产精品色内内在线播放| 国产清纯在线一区二区| 日韩无码影片| 久久久久青草线综合超碰| 在线欧美日韩| 国产精品美女久久久久久麻豆| 性欧美vr高清极品| 内射网址| 免费观看性欧美大片无片| 成人无码特黄特黄AV片在线| 久久综合亚洲色HEZYO国产| 真人在线射美女视频在线观看 | 无码超乳爆乳中文字幕久久| 人人妻人人狠人人爽 | 亚洲欧美日韩愉拍自拍| 亚洲国产av自拍精选| 五月综合网亚洲乱妇久久| 亚洲中少妇久久中文字幕| 国产精品69毛片高清亚洲 | 色婷婷综合激情视频免费看 | 成**人毛片www免费版|