<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      無需訓練、即插即用,這個解碼方法讓模型學會謹慎思考

      0
      分享至

      你有沒有發現這樣一種現象:面對同一個問題,大模型可能在每次回答時都給出不同答案。一個不容忽視的問題是,這種不確定性,是否意味著推理仍不穩定?

      隨著技術的發展,大模型在自然語言處理和多模態任務中已經表現出越來越強的性能。傳統解碼策略主要包括隨機采樣(random sample)和貪婪解碼(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默認的是隨機采樣(random sample),即便是回答相同的問題,它們可能每次都會給出不同的答案。

      而貪婪解碼(greedy decoding)在一般的基準測試(benchmark)上表現會有所提升,特別是在推理性任務上。但是,模型在不確定情況下的表現仍不理想。

      為解決上述問題,美國東北大學與 Adobe、美國凱斯西儲大學聯合團隊提出了一種無需訓練的新型解碼策略,名為“謹慎下一步預測(CNTP,Cautious Next Token Prediction)”。

      該策略旨在通過在模型不確定性高的步驟采樣多個候選路徑,并選擇困惑度最低的路徑。相較于隨機采樣和貪婪解碼等傳統策略,CNTP 顯著提升了大模型在多種任務上的推理準確度,可應用場景包括語音助手、視覺助手、聊天機器人等。


      圖丨相關論文(來源:arXiv)

      “我們的研究證明了 Transformer 模型下一個詞元預測(next token prediction)的范式,有可能實現真正的智能?!痹撜撐牡谝蛔髡咄跻嘀軐?DeepTech 表示。他目前正在東北大學攻讀博士學位,主要研究方向包括大模型、多模態模型和計算機視覺,即將加入 Adobe 擔任研究科學家/工程師。


      圖丨王亦周(來源:王亦周)

      Safe Superintelligence 公司創始人、前 OpenAI 首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)曾公開表示,如果模型足夠強大,對下一個 token 的預測能力可能反映對世界的某種理解,這可能是實現更深層智能的關鍵路徑。

      也就是說,next token prediction 是智能的核心。要實現這一點,需要在模型內部進行強推理,再通過一系列計算預測下一個 token。

      受此啟發,研究團隊從人類認知行為中尋找靈感:人在思考時,往往越謹慎回答,結果的準確率越高,那么大模型會不會也和人腦有類似的機制?

      王亦周解釋道:“這種過程類似于我們在參加考試時的解題過程,我們可能會先想下有哪些解法,然后從中挑選一種認為最有把握的方法,確認無誤后再進行下一步,直到得到完整的證明?!?/p>


      圖丨 CNTP 方法概述(來源:arXiv)

      這里的謹慎指的是,當面對不確定性的情況,需要多嘗試幾條不同的路徑,然后選擇一條最穩妥、最可信的路徑。

      研究團隊用熵作為模型不確定性的衡量標準:熵越高越不可信。在自然語言處理(NLP)中,困惑度(perplexity)越低代表對答案越可信。因此在 CNTP 策略下,一旦熵值較高,模型會采樣多個候選路徑,并選擇其中困惑度最低的一條,再一步步迭代。

      研究人員通過消融研究證明,由于思維鏈推理的回答往往較長,每條路徑長度也不同,如果算完整評估的困惑度無法很好地衡量答案的可靠性?;诖?,他們采取了每到一句話的標點符號截止的方式來計算困惑度。相當于每句話、每個小的推理單元,即每個局部自洽能夠實現較理想的效果。

      為控制采樣次數,研究團隊通過設置最小熵 Hmin 和最大熵 Hmax 兩個閾值和最大試驗次數 Nmax。該方法在提高解碼準確性的同時,還有效地限制了計算成本,避免了在每個步驟大量采樣而帶來的高計算開銷。


      (來源:arXiv)

      在實驗驗證方面,該團隊在數學推理(GSM8K、MATH)、常識推理(StrategyQA)和開放問答(TruthfulQA)等任務中證明,與包括貪婪解碼、隨機解碼和束搜索在內的傳統方法相比,CNTP 策略的結果更具優勢。

      例如,在 TruthfulQA 任務中,Llama-2-7B 在使用 CNTP 方法后,真實性準確率提升到了 84.8%,相較于隨機解碼提升 6.8%。

      值得關注的是,CNTP 策略無需訓練,僅解碼即可直接實現提升性能。王亦周解釋道:這種方法在某種程度上像“免費午餐”,盡管可能會帶來更多的 token 消耗,但在實際應用中有很多優化的方法可解決該問題。


      (來源:arXiv)

      此外,該方法搭配自一致性(self-consistency)后,可進一步提升性能(注:自一致性是取多個樣本,然后選一個出現頻率最高的答案),且計算成本遠低于后者。原因在于,利用多樣性和隨機性集思廣益后,選取多數投票。

      研究團隊證明,每個樣本也是越謹慎越好。“我們的方法會在一定程度上限制它的多樣性,但通過調高溫度可以解決這一點,所以它能進一步提升。”王亦周說。

      此外,CNTP 策略具有較好的普適性,可用于廣泛的對話任務。除了有固定答案的數學題或代碼題,它也可以用于開放式問題,研究團隊未來將嘗試將該策略用于圖像或視頻生成。

      該研究為大模型的推理優化提供了一種新思路,有望成為下一代解碼策略的重要候選方案。

      參考資料:

      1.相關論文:https://arxiv.org/abs/2507.03038v2

      2.code link:https://github.com/wyzjack/CNTP

      排版:劉雅坤

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗:如果阿聯酋“采取不理智的行動” 其所有利益“都將成為伊朗的目標”、任何設施“都不會安全”

      伊朗:如果阿聯酋“采取不理智的行動” 其所有利益“都將成為伊朗的目標”、任何設施“都不會安全”

      財聯社
      2026-05-05 10:07:16
      遼寧男籃今日早報!烏戈卸任總教練職位,趙繼偉新工作安排,楊鳴接觸新下家

      遼寧男籃今日早報!烏戈卸任總教練職位,趙繼偉新工作安排,楊鳴接觸新下家

      凱豐侃球
      2026-05-05 09:26:17
      94年單親爸爸征婚貼,為何紛紛說避雷!網友:講話云山霧罩

      94年單親爸爸征婚貼,為何紛紛說避雷!網友:講話云山霧罩

      另子維愛讀史
      2026-05-04 21:41:29
      瀏陽煙花廠爆炸事故:大量火藥一時難以轉運威脅救援人員安全,廠區墻體等基本坍塌形成大量廢墟,人員被埋,煙花爆竹生產企業全面停產整頓

      瀏陽煙花廠爆炸事故:大量火藥一時難以轉運威脅救援人員安全,廠區墻體等基本坍塌形成大量廢墟,人員被埋,煙花爆竹生產企業全面停產整頓

      大象新聞
      2026-05-05 15:50:04
      奇瑞全新中型轎車,外觀媲美奧迪,配大屏+氛圍燈,2.0T/261馬力

      奇瑞全新中型轎車,外觀媲美奧迪,配大屏+氛圍燈,2.0T/261馬力

      紅濤說車
      2026-05-05 17:26:00
      爺爺是萬里,前男友是李云迪,赴美卻只能擠地下室,名媛萬寶寶的人生究竟有多生猛?

      爺爺是萬里,前男友是李云迪,赴美卻只能擠地下室,名媛萬寶寶的人生究竟有多生猛?

      史海孤雁
      2026-04-24 22:24:12
      張軍被查創下多個尷尬“紀錄”,18年前曾因酒駕被查

      張軍被查創下多個尷尬“紀錄”,18年前曾因酒駕被查

      元芳有看法
      2026-04-30 09:25:44
      干倒KTV的,可能是洗浴中心?用“白菜價”做成的暴利生意

      干倒KTV的,可能是洗浴中心?用“白菜價”做成的暴利生意

      世界圈
      2026-05-05 13:37:18
      一把輸掉十幾億,欠200億跑路,今在印尼發財,手下人個個不一般

      一把輸掉十幾億,欠200億跑路,今在印尼發財,手下人個個不一般

      瀲滟晴方DAY
      2026-04-17 22:01:07
      西安事變死的人有誰?看到名單,就明白蔣介石為何關張學良一輩子

      西安事變死的人有誰?看到名單,就明白蔣介石為何關張學良一輩子

      老范談史
      2026-05-04 10:24:47
      中國造不出光刻機?中科大副院長:美國造不出,中國永遠都不可能

      中國造不出光刻機?中科大副院長:美國造不出,中國永遠都不可能

      小蘭聊歷史
      2026-03-21 18:17:07
      補肝血最快的方式之一,不花錢,不占時間

      補肝血最快的方式之一,不花錢,不占時間

      神奇故事
      2026-05-04 23:55:31
      關羽為什么要“月下斬貂蟬”,因為關羽發現了貂蟬的一個秘密

      關羽為什么要“月下斬貂蟬”,因為關羽發現了貂蟬的一個秘密

      千秋文化
      2026-03-05 23:19:21
      為什么整個亞洲只有中國有山姆超市?

      為什么整個亞洲只有中國有山姆超市?

      流蘇晚晴
      2026-04-30 18:50:00
      開國十大元帥的另類排名:在黨的七大中央委員會的排名

      開國十大元帥的另類排名:在黨的七大中央委員會的排名

      阿器談史
      2026-05-04 14:19:29
      吳宜澤:奧沙利文發短信助我決賽第三階段反超,他真的幫了我很多

      吳宜澤:奧沙利文發短信助我決賽第三階段反超,他真的幫了我很多

      世界體壇觀察家
      2026-05-05 19:39:56
      工人說下崗就下崗了,為什么多余的老師要轉崗而不是下崗?

      工人說下崗就下崗了,為什么多余的老師要轉崗而不是下崗?

      李老師講最真教育
      2026-05-05 19:42:56
      上?;疖囌揪拘囊荒唬±先嗽谧詣臃鎏萆纤さ?,下一秒他們都出手了…

      上海火車站揪心一幕!老人在自動扶梯上摔倒,下一秒他們都出手了…

      上海法治聲音
      2026-05-03 23:20:17
      你以為麻豆傳媒是賣片的,其實它是賣人的

      你以為麻豆傳媒是賣片的,其實它是賣人的

      創始人筆記
      2026-04-23 21:44:50
      新加坡外長通告全球:如果被迫選邊站隊,不選美方也不會選中方

      新加坡外長通告全球:如果被迫選邊站隊,不選美方也不會選中方

      厲羽萱
      2026-05-06 00:14:11
      2026-05-06 03:16:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16661文章數 514922關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      房產
      藝術
      本地
      旅游
      公開課

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      藝術要聞

      AI應用“豆包”要收費,第一批“韭菜”是誰?

      本地新聞

      用青花瓷的方式,打開西溪濕地

      旅游要聞

      女子體驗瀑布秋千受傷后送醫途中離世 官方通報

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲成av人片无码不卡播放器| 综合图区亚洲中文字幕| 国产av永久无码天堂影院 | 国产欧美中文字幕| 亚洲AV午夜成人无码电影| 久久精品国产免费观看| 亚洲成a人片在线播放观看国产| 色综合天天综合网国产成人网| 国产熟女口爆| 久久精品无码精品免费专区| 国产最大成人亚洲精品| 日韩国产成人精品视频| 欧美性大战久久久久久久| 久久久中文字幕| 亚洲国产av无码精品无广告| 草莓导航??深夜福利污| 中国女人a毛片免费全部播放 | 少妇被粗大的猛烈进出| 激情亚洲AV| 国产精品无码专区在线播放| 欧美日韩综合在线| 一区二区三区不卡在线观看| 精品国产亚洲午夜精品av| 看黄网址| 日本精品极品视频在线| 国产高潮视频在线观看| 午夜成人视频| 国产国拍精品av在线观看| 亚洲产在线精品亚洲第一站一| 无码欧美毛片一区二区三| 四虎影视库国产精品一区| 国产成人精品A视频| 东京热无码国产精品| 亚洲熟妇一区二区三个区| 亚洲激情av| 久久精品国内偷自一区| 97se色综合一区二区二区| 国产性猛交普通话对白| 香蕉视频一区| 韩国一区二区高清视频| 亚洲国产成人字幕久久|