網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“大模型”研究風(fēng)向變了！從這120篇頂刊頂會(huì)看最新研究趨勢......

2026-03-23 11:48:05　來源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

想發(fā)大模型論文，卻還在“模型規(guī)模”上打轉(zhuǎn)？那你跟頂會(huì)大概率無緣了！研究風(fēng)向已經(jīng)變了， “能力深化與場景適配”才是王道。

具體來說：仔細(xì)研究近2年的頂會(huì)頂刊能發(fā)現(xiàn)，審稿人的口味主要集中在：大模型的技術(shù)架構(gòu)創(chuàng)新、能力邊界拓展、多模態(tài)融合、效率優(yōu)化、安全可控等。因此，非常建議想做這領(lǐng)域的伙伴，多多關(guān)注前沿的進(jìn)展。

為方便大家研究的順利進(jìn)行，我給大家整理了目前大模型領(lǐng)域最熱門的10大方向，共120篇高質(zhì)量論文，原文和源碼都有。主要涉及：原生統(tǒng)一全模態(tài)模型、世界模型、VLM、Agent系統(tǒng)、強(qiáng)化學(xué)習(xí)、潛在推理、高效推理、安全性和可控性……

掃描下方二維碼，回復(fù)「120LLM」

免費(fèi)獲取全部論文合集及項(xiàng)目代碼

VLA模型

Spec-VLA: Speculative Decoding for Vision-Language-Action Modelswith Relaxed Acceptance

內(nèi)容：該研究針對(duì)視覺 - 語言 - 動(dòng)作（VLA）模型因視覺語言模型（VLM）參數(shù)量大、自回歸解碼特性導(dǎo)致的高計(jì)算成本問題，首次將投機(jī)解碼（SD）框架適配并改進(jìn)提出 Spec-VLA，解決了直接應(yīng)用 SD 于 VLA 動(dòng)作預(yù)測任務(wù)提速效果微弱的痛點(diǎn)。研究基于 VLA 模型動(dòng)作令牌的相對(duì)距離設(shè)計(jì)了松弛接受機(jī)制，有效提升了令牌接受長度，在多個(gè)測試場景的實(shí)驗(yàn)結(jié)果表明，該框架相較 Open VLA 基線模型將接受長度提升 44%，實(shí)現(xiàn)了 1.42 倍的推理加速，且完全不損失任務(wù)成功率，驗(yàn)證了投機(jī)執(zhí)行在 VLA 動(dòng)作預(yù)測場景的廣泛應(yīng)用潛力，相關(guān)代碼等研究產(chǎn)物遵循 Apache 協(xié)議開源并完成了規(guī)范的實(shí)驗(yàn)統(tǒng)計(jì)與文檔說明。

原生統(tǒng)一全模態(tài)模型

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

內(nèi)容：該論文提出了一款名為 Mobile-O 的緊湊型視覺 - 語言 - 擴(kuò)散模型，旨在為移動(dòng)設(shè)備提供統(tǒng)一的多模態(tài)理解與生成能力。其核心創(chuàng)新包括 Mobile Conditioning Projector（MCP）模塊 —— 通過深度可分離卷積和分層對(duì)齊實(shí)現(xiàn)視覺 - 語言特征的高效融合，以及創(chuàng)新的四元組（生成提示、圖像、問題、答案）統(tǒng)一后訓(xùn)練方案，僅需少量訓(xùn)練樣本即可同時(shí)提升視覺理解與生成性能。Mobile-O 僅含 1.6B 參數(shù)，在 GenEval 基準(zhǔn)上達(dá)到 74% 的成績，分別超越 Show-O 和 JanusFlow 5% 和 11%，且運(yùn)行速度快 6-11 倍；在 7 個(gè)視覺理解基準(zhǔn)上平均性能領(lǐng)先 15.3% 和 5.1%，同時(shí)在 iPhone 17 Pro 上實(shí)現(xiàn)約 3 秒生成 512×512 圖像、內(nèi)存占用低于 2GB 的實(shí)時(shí)部署，無需依賴云端，為邊緣設(shè)備上的實(shí)時(shí)多模態(tài)智能應(yīng)用奠定了基礎(chǔ)，其代碼、模型和數(shù)據(jù)集均已公開。

掃描下方二維碼，回復(fù)「120LLM」

免費(fèi)獲取全部論文合集及項(xiàng)目代碼

世界模型

OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction

內(nèi)容：該論文提出了面向自動(dòng)駕駛的 3D 占用世界模型 OccTENS，針對(duì)現(xiàn)有自回歸占用模型存在的推理低效、長時(shí)生成時(shí)序退化和缺乏位姿可控性問題，將占用世界模型重構(gòu)為時(shí)間下一尺度預(yù)測（TENS）任務(wù)，把時(shí)序序列建模拆解為空間逐層生成和時(shí)間逐幀預(yù)測，設(shè)計(jì)了 TensFormer 架構(gòu)實(shí)現(xiàn)對(duì)占用序列時(shí)間因果性和空間關(guān)聯(lián)性的靈活高效建模，并提出整體位姿聚合策略，將車輛自運(yùn)動(dòng)與占用信息統(tǒng)一序列建模，同時(shí)實(shí)現(xiàn)位姿可控的占用生成和自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃。模型由多尺度場景分詞器、運(yùn)動(dòng)分詞器和生成式世界模型構(gòu)成，通過解耦幀回歸與尺度回歸、分離尺度級(jí)時(shí)間因果注意力和幀級(jí)空間注意力，解決了多尺度時(shí)序建模的注意力過載問題。在 nuScenes 數(shù)據(jù)集的實(shí)驗(yàn)表明，OccTENS 在 4D 占用預(yù)測任務(wù)中大幅超越 OccWorld、OccLLaMA 等 SOTA 方法，基于真值占用輸入的平均 mIoU 達(dá) 22.06%、IoU 達(dá) 31.03%，運(yùn)動(dòng)規(guī)劃的長期預(yù)測表現(xiàn)更優(yōu)，且 2 尺度版本推理速度快于 OccWorld，6 尺度版本在性能和效率間實(shí)現(xiàn)最優(yōu)權(quán)衡，同時(shí)能精準(zhǔn)根據(jù)給定位姿生成匹配的占用場景，為自動(dòng)駕駛實(shí)時(shí)應(yīng)用提供了高性能、可控制、高效率的 3D 占用世界模型方案。

隱式/潛空間推理

DYNAMICS WITHIN LATENT CHAIN-OF-THOUGHT: AN EMPIRICAL STUDY OF CAUSAL STRUCTURE

內(nèi)容：該論文針對(duì)潛在思維鏈（Latent CoT）中間計(jì)算難以通過關(guān)聯(lián)探針之外的方式評(píng)估的問題，提出將其視為表征空間中可操控的因果過程，通過將潛在步驟建模為結(jié)構(gòu)因果模型（SCM）中的變量，并借助逐步干預(yù)分析其影響，以探究三個(gè)核心問題：哪些步驟對(duì)正確性具有因果必要性、答案何時(shí)可早期判定；影響如何跨步驟傳播及該結(jié)構(gòu)與顯式 CoT 的差異；中間軌跡是否保留競爭答案模式及輸出層面與表征層面的承諾差異。研究在數(shù)學(xué)和通用推理任務(wù)上對(duì) Coconut 和 CODI 兩種代表性范式展開實(shí)驗(yàn)，發(fā)現(xiàn)潛在步驟預(yù)算更偏向具有非局部路由的階段化功能而非同質(zhì)化的額外深度，且早期輸出偏倚與后期表征承諾之間存在持續(xù)差距。該研究構(gòu)建了首個(gè)因果化、步驟解析的潛在 CoT 評(píng)估視角，提出算子和讀出條件化的影響分析方法，其結(jié)果為模式條件化和穩(wěn)定性感知分析及相關(guān)訓(xùn)練 / 解碼目標(biāo)提供了支撐，也為改進(jìn)潛在推理系統(tǒng)指明方向。

掃描下方二維碼，回復(fù)「120LLM」

免費(fèi)獲取全部論文合集及項(xiàng)目代碼

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.