想發(fā)大模型論文,卻還在“模型規(guī)模”上打轉(zhuǎn)?那你跟頂會(huì)大概率無緣了!研究風(fēng)向已經(jīng)變了, “能力深化與場景適配”才是王道。
具體來說:仔細(xì)研究近2年的頂會(huì)頂刊能發(fā)現(xiàn),審稿人的口味主要集中在:大模型的技術(shù)架構(gòu)創(chuàng)新、能力邊界拓展、多模態(tài)融合、效率優(yōu)化、安全可控等。因此,非常建議想做這領(lǐng)域的伙伴,多多關(guān)注前沿的進(jìn)展。
為方便大家研究的順利進(jìn)行,我給大家整理了目前大模型領(lǐng)域最熱門的10大方向,共120篇高質(zhì)量論文,原文和源碼都有。主要涉及:原生統(tǒng)一全模態(tài)模型、世界模型、VLM、Agent系統(tǒng)、強(qiáng)化學(xué)習(xí)、潛在推理、高效推理、安全性和可控性……
![]()
掃描下方二維碼,回復(fù)「120LLM」
免費(fèi)獲取全部論文合集及項(xiàng)目代碼
VLA模型
Spec-VLA: Speculative Decoding for Vision-Language-Action Modelswith Relaxed Acceptance
內(nèi)容:該研究針對(duì)視覺 - 語言 - 動(dòng)作(VLA)模型因視覺語言模型(VLM)參數(shù)量大、自回歸解碼特性導(dǎo)致的高計(jì)算成本問題,首次將投機(jī)解碼(SD)框架適配并改進(jìn)提出 Spec-VLA,解決了直接應(yīng)用 SD 于 VLA 動(dòng)作預(yù)測任務(wù)提速效果微弱的痛點(diǎn)。研究基于 VLA 模型動(dòng)作令牌的相對(duì)距離設(shè)計(jì)了松弛接受機(jī)制,有效提升了令牌接受長度,在多個(gè)測試場景的實(shí)驗(yàn)結(jié)果表明,該框架相較 Open VLA 基線模型將接受長度提升 44%,實(shí)現(xiàn)了 1.42 倍的推理加速,且完全不損失任務(wù)成功率,驗(yàn)證了投機(jī)執(zhí)行在 VLA 動(dòng)作預(yù)測場景的廣泛應(yīng)用潛力,相關(guān)代碼等研究產(chǎn)物遵循 Apache 協(xié)議開源并完成了規(guī)范的實(shí)驗(yàn)統(tǒng)計(jì)與文檔說明。
![]()
原生統(tǒng)一全模態(tài)模型
Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device
內(nèi)容:該論文提出了一款名為 Mobile-O 的緊湊型視覺 - 語言 - 擴(kuò)散模型,旨在為移動(dòng)設(shè)備提供統(tǒng)一的多模態(tài)理解與生成能力。其核心創(chuàng)新包括 Mobile Conditioning Projector(MCP)模塊 —— 通過深度可分離卷積和分層對(duì)齊實(shí)現(xiàn)視覺 - 語言特征的高效融合,以及創(chuàng)新的四元組(生成提示、圖像、問題、答案)統(tǒng)一后訓(xùn)練方案,僅需少量訓(xùn)練樣本即可同時(shí)提升視覺理解與生成性能。Mobile-O 僅含 1.6B 參數(shù),在 GenEval 基準(zhǔn)上達(dá)到 74% 的成績,分別超越 Show-O 和 JanusFlow 5% 和 11%,且運(yùn)行速度快 6-11 倍;在 7 個(gè)視覺理解基準(zhǔn)上平均性能領(lǐng)先 15.3% 和 5.1%,同時(shí)在 iPhone 17 Pro 上實(shí)現(xiàn)約 3 秒生成 512×512 圖像、內(nèi)存占用低于 2GB 的實(shí)時(shí)部署,無需依賴云端,為邊緣設(shè)備上的實(shí)時(shí)多模態(tài)智能應(yīng)用奠定了基礎(chǔ),其代碼、模型和數(shù)據(jù)集均已公開。
![]()
掃描下方二維碼,回復(fù)「120LLM」
免費(fèi)獲取全部論文合集及項(xiàng)目代碼
世界模型
OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction
內(nèi)容:該論文提出了面向自動(dòng)駕駛的 3D 占用世界模型 OccTENS,針對(duì)現(xiàn)有自回歸占用模型存在的推理低效、長時(shí)生成時(shí)序退化和缺乏位姿可控性問題,將占用世界模型重構(gòu)為時(shí)間下一尺度預(yù)測(TENS)任務(wù),把時(shí)序序列建模拆解為空間逐層生成和時(shí)間逐幀預(yù)測,設(shè)計(jì)了 TensFormer 架構(gòu)實(shí)現(xiàn)對(duì)占用序列時(shí)間因果性和空間關(guān)聯(lián)性的靈活高效建模,并提出整體位姿聚合策略,將車輛自運(yùn)動(dòng)與占用信息統(tǒng)一序列建模,同時(shí)實(shí)現(xiàn)位姿可控的占用生成和自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃。模型由多尺度場景分詞器、運(yùn)動(dòng)分詞器和生成式世界模型構(gòu)成,通過解耦幀回歸與尺度回歸、分離尺度級(jí)時(shí)間因果注意力和幀級(jí)空間注意力,解決了多尺度時(shí)序建模的注意力過載問題。在 nuScenes 數(shù)據(jù)集的實(shí)驗(yàn)表明,OccTENS 在 4D 占用預(yù)測任務(wù)中大幅超越 OccWorld、OccLLaMA 等 SOTA 方法,基于真值占用輸入的平均 mIoU 達(dá) 22.06%、IoU 達(dá) 31.03%,運(yùn)動(dòng)規(guī)劃的長期預(yù)測表現(xiàn)更優(yōu),且 2 尺度版本推理速度快于 OccWorld,6 尺度版本在性能和效率間實(shí)現(xiàn)最優(yōu)權(quán)衡,同時(shí)能精準(zhǔn)根據(jù)給定位姿生成匹配的占用場景,為自動(dòng)駕駛實(shí)時(shí)應(yīng)用提供了高性能、可控制、高效率的 3D 占用世界模型方案。
![]()
隱式/潛空間推理
DYNAMICS WITHIN LATENT CHAIN-OF-THOUGHT: AN EMPIRICAL STUDY OF CAUSAL STRUCTURE
內(nèi)容:該論文針對(duì)潛在思維鏈(Latent CoT)中間計(jì)算難以通過關(guān)聯(lián)探針之外的方式評(píng)估的問題,提出將其視為表征空間中可操控的因果過程,通過將潛在步驟建模為結(jié)構(gòu)因果模型(SCM)中的變量,并借助逐步干預(yù)分析其影響,以探究三個(gè)核心問題:哪些步驟對(duì)正確性具有因果必要性、答案何時(shí)可早期判定;影響如何跨步驟傳播及該結(jié)構(gòu)與顯式 CoT 的差異;中間軌跡是否保留競爭答案模式及輸出層面與表征層面的承諾差異。研究在數(shù)學(xué)和通用推理任務(wù)上對(duì) Coconut 和 CODI 兩種代表性范式展開實(shí)驗(yàn),發(fā)現(xiàn)潛在步驟預(yù)算更偏向具有非局部路由的階段化功能而非同質(zhì)化的額外深度,且早期輸出偏倚與后期表征承諾之間存在持續(xù)差距。該研究構(gòu)建了首個(gè)因果化、步驟解析的潛在 CoT 評(píng)估視角,提出算子和讀出條件化的影響分析方法,其結(jié)果為模式條件化和穩(wěn)定性感知分析及相關(guān)訓(xùn)練 / 解碼目標(biāo)提供了支撐,也為改進(jìn)潛在推理系統(tǒng)指明方向。
![]()
掃描下方二維碼,回復(fù)「120LLM」
免費(fèi)獲取全部論文合集及項(xiàng)目代碼
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.