<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達最新開源多模態大模型,本地部署,量化后消費級顯卡輕松跑,缺點是:僅支持英文輸入

      0
      分享至

      英偉達又發新模型了——NVIDIA Nemotron 3 Nano Omni 30B-A3B-Reasoning

      老黃這次很狠:30B 總參數、3B 激活的 MoE,視頻 + 音頻 + 圖像 + 文本全吃,256K 上下文,還自帶推理鏈

      最關鍵的是——它的開源協議是真·開源(NVIDIA Open Model Agreement),允許商用,權重數據集訓練配方都開放

      Unsloth 一夜之間就把 GGUF 跑通了,4-bit 25GB 內存就能跑

      簡介

      先把家底亮一下

      項目

      參數

      總參數 / 激活參數

      31B / 3B

      架構

      Mamba2-Transformer 混合 MoE

      視覺編碼器

      C-RADIO v4-H

      語音編碼器

      Parakeet

      LLM 主干

      Nemotron-3-Nano-30B-A3B

      上下文

      最長 256K tokens

      輸入

      視頻 (mp4, ≤2 分鐘)、音頻 (wav/mp3, ≤1 小時)、圖像、文本

      輸出

      文本(支持 JSON、CoT 推理、tool calling、詞級時間戳)

      量化

      官方提供 BF16 / FP8 / NVFP4 三檔

      License

      NVIDIA Open Model Agreement(可商用)

      這個組合最有意思的地方是Mamba2 + Transformer 混合,再疊 MoE,單次推理只激活 3B,所以同樣的卡能扛更高并發——官方給出的數據是比"另一家開源 Omni 模型"(暗指 Qwen3-Omni-30B-A3B)在視頻任務上9.2 倍吞吐,多文檔任務上7.4 倍吞吐


      Pareto 曲線:多文檔與視頻場景的系統吞吐對比

      為什么能差這么多?官方給的解法叫Efficient Video Sampling (EVS)+ 3D 卷積時空感知,再加上視頻幀剪枝(--video-pruning-rate 0.5),讓一段 1080p 視頻可以以 1FPS / 128 幀采樣,720p 可以 2FPS / 256 幀——本質上是用結構化稀疏把"看視頻"的算力賬省下來了

      定位:多模態感知子代理

      vLLM 團隊博客里的描述很到位:把它當成 Agent 系統里的"眼睛和耳朵",專門負責屏幕、文檔、音視頻流的感知,再把結構化理解喂給下游的編排和執行 Agent。它不是要替你寫代碼、跑工具,它是要成為 Agent 系統里"那個看得到聽得見的家伙"——這跟 Qwen3-Omni 想"全都干"的路線是不一樣的

      典型場景官方也給了:

      • 客服:Doordash 投遞地點 OCR 驗證、得來速點單確認

      • M&E 媒體娛樂:視頻/語音密集字幕、檢索、摘要

      • 文檔智能:合同、SOW/MSA、科研、財務文檔

      • GUI 自動化:事件管理、Agentic 搜索、瀏覽器/郵件 Agent

      測評數據

      NVIDIA 給的口徑是"同尺寸里最強的 Omni 模型",并且在六個公開榜單上都拿了第一


      Nemotron 3 Nano Omni 橫掃六大多模態榜單

      六個榜單分別是:

      • MMlongbench-Doc(長文檔理解)

      • OCRBenchV2(OCR 綜合)

      • WorldSense(視頻常識)

      • DailyOmni(日常多模態)

      • VoiceBench(語音理解)

      • MediaPerf(多模態吞吐 + 成本)

      跟自家上一代 Nemotron Nano VL V2 對比,全面上漲,視覺、視頻、OCR、音頻四條線都有提升


      相比 Nemotron Nano VL V2 的精度提升

      Unsloth 那邊也跑了一份對比,他們的結論更直白——全面碾壓 Qwen3-Omni-30B-A3B


      Unsloth 給出的橫向 benchmark

      我個人的態度:榜單數據看看就行,真正決定你用不用的,是后面這套部署鏈路順不順手——這才是我重點寫的部分

      關于開源協議(NVIDIA Open Model Agreement)

      順便說一下 License,因為這次老黃給的協議比 Llama 那一票"看似開源"的協議清爽得多。我把官方原文核心點提煉了一下(原文鏈接):

      • ?可商用:永久、全球、免版稅、不可撤銷

      • ?可改可分發:允許做衍生模型并以源/二進制形式發布

      • ?輸出歸你:NVIDIA 不主張你用模型生成內容的所有權

      • ?? 分發時要附帶 License 副本,保留版權和歸屬聲明

      • ?? 如果你拿這個協議去告 NVIDIA 侵權,授權立刻終止

      • ?? 不能用 NVIDIA 商標做品牌背書(描述來源除外)

      對中小團隊和個人開發者來說,這就是**"拿來就能用"**級別的協議,比那些"7 億月活以上要單獨申請"的"偽開源"友好太多

      Unsloth GGUF 火速到位:本地部署詳細步驟

      這次 Unsloth 真的快,Day Zero 就和 NVIDIA 聯動出了 GGUF。模型倉庫在這:

      ? https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF

      資源占用:消費級顯卡很輕松!害得是 Unsloth!


      ? ?? 一個大坑:不要用 CUDA 13.2,會輸出亂碼,NVIDIA 在修。建議 12.9 或 13.0
      方式一:Unsloth Studio(最省事)

      Unsloth 自己出了一個 Web UI,叫 Unsloth Studio,可以本地跑 GGUF、對比模型、聊天、傳圖傳音頻


      Unsloth Studio 界面

      MacOS / Linux / WSL 一鍵安裝:

      curl -fsSL https://unsloth.ai/main/install.sh | sh
      source unsloth_studio/bin/activate
      unsloth studio -H 0.0.0.0 -p 8888

      Windows PowerShell:

      irm https://unsloth.ai/install.ps1 | iex
      & .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888

      然后瀏覽器打開http://localhost:8888,搜 Nemotron-3-Nano-Omni,選你要的量化版下載就行


      在 Studio 中搜索并下載模型 方式二:llama.cpp 命令行(更可控)

      先編譯 llama.cpp(CUDA 版):

      apt-get update
      apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
      git clone https://github.com/ggml-org/llama.cpp
      cmake llama.cpp -B llama.cpp/build \
      -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
      cmake --build llama.cpp/build --config Release -j --clean-first \
      --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
      cp llama.cpp/build/bin/llama-* llama.cpp
      ? Apple Silicon 把 -DGGML_CUDA=ON 改成 OFF,Metal 默認開

      純文本對話(NVIDIA 推薦temp=1.0, top-p=1.0):

      ./llama.cpp/llama-cli \
      -hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
      --temp 1.0 --top-p 1.0

      圖片 + 音頻混合輸入(需要llama-mtmd-cli):

      ./llama.cpp/llama-mtmd-cli \
      -hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
      --image screenshot.png \
      --audio meeting.wav \
      -p "Summarize what is shown and said. Return key actions as bullet points." \
      --temp 1.0 --top-p 1.0

      視頻按幀采樣(llama.cpp 暫不直吃視頻,曲線救國先抽幀):

      mkdir -p frames
      ffmpeg -i demo.mp4 -vf "fps=1/2,scale=1280:-1" frames/frame_%04d.png

      FRAMES=$(python - <<'PY'
      from pathlib import Path
      frames = sorted(Path("frames").glob("*.png"))[:16]
      print(",".join(str(x) for x in frames))
      PY
      )

      ./llama.cpp/llama-mtmd-cli \
      -hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
      --image "$FRAMES" \
      -p "Analyze these sampled video frames. Summarize the sequence of events." \
      --temp 1.0 --top-p 1.0

      起 OpenAI 兼容服務(推薦這種,方便接業務):

      ./llama.cpp/llama-server \
      -hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
      --alias "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning" \
      --prio 3 --temp 1.0 --top-p 1.0 --port 8001

      Python 客戶端調用:

      from openai import OpenAI

      client = OpenAI(
      base_url="http://127.0.0.1:8001/v1",
      api_key="sk-no-key-required",
      )

      completion = client.chat.completions.create(
      model="unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning",
      messages=[{"role": "user", "content": "What is 2+2?"}],
      )
      print(completion.choices[0].message.content)
      ? ?? Ollama 用戶注意:當前 Ollama 還跑不了它的多模態部分,因為 mmproj 視覺文件是分開的,Ollama 還沒適配。要玩多模態請走 llama.cpp 系

      工具調用場景把temp=0.6, top-p=0.95即可

      官方部署:vLLM 0.20.0(生產級)

      官方推薦的生產部署是vLLM 0.20.0(必須這個版本,別上下浮動)。兩個鏡像選一個:

      • CUDA 13.0:vllm/vllm-openai:v0.20.0

      • CUDA 12.9:vllm/vllm-openai:v0.20.0-cu129

      pip install vllm[audio]==0.20.0
      # 或
      docker pull vllm/vllm-openai:v0.20.0
      ? 只要用到音頻(包括視頻里抽音頻 use_audio_in_video: true),就必須裝 vllm[audio]

      起服務(單卡 B200/H200/H100,推薦配置):

      vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 \
      --served-model-name nemotron \
      --host 0.0.0.0 --port 5000 \
      --tensor-parallel-size 1 \
      --max-model-len 131072 \
      --trust-remote-code \
      --video-pruning-rate 0.5 \
      --media-io-kwargs '{"video": {"num_frames": 512, "fps": 1}}' \
      --reasoning-parser nemotron_v3 \
      --enable-auto-tool-choice \
      --tool-call-parser qwen3_coder

      跑 NVFP4 / FP8 時,加上--kv-cache-dtype fp8進一步省顯存

      幾個平臺坑(官方明示)

      平臺

      需要追加的參數

      原因

      RTX Pro 6000

      --moe-backend triton

      FlashInfer + RTX Pro 當前有 bug

      NVFP4 + TP>1

      --moe-backend flashinfer_cutlass

      TRTLLM_GEN MoE 內核 bug

      DGX Spark (ARM64)

      --gpu-memory-utilization 0.70--max-model-len 32768--max-num-seqs 8

      統一 LPDDR5X 內存(128GB CPU/GPU 共享),需讓出空間

      調用示例(思考模式 + 視頻):

      from openai import OpenAI
      from pathlib import Path

      client = OpenAI(base_url="http://localhost:5000/v1", api_key="")
      video_url = Path("media/demo.mp4").resolve().as_uri()

      resp = client.chat.completions.create(
      model="nemotron",
      messages=[{
      "role": "user",
      "content": [
      {"type": "video_url", "video_url": {"url": video_url}},
      {"type": "text", "text": "Describe this video."},
      ],
      }],
      max_tokens=20480, temperature=0.6, top_p=0.95,
      extra_body={
      "thinking_token_budget": 16384 + 1024,
      "chat_template_kwargs": {
      "enable_thinking": True,
      "reasoning_budget": 16384,
      },
      "mm_processor_kwargs": {"use_audio_in_video": False},
      },
      )
      print(resp.choices[0].message.reasoning, "\n---\n", resp.choices[0].message.content)

      采樣參數官方推薦

      模式

      temperature

      top_p

      top_k

      max_tokens

      reasoning_budget

      Thinking

      0.6

      0.95

      Instruct

      0.2

      1

      1024

      支持的 GPU

      • Blackwell:B200、RTX Pro 6000 SE、DGX Spark、Jetson Thor、RTX 5090

      • Hopper:H100、H200

      • Ampere:A100 80GB

      • Lovelace:L40S

      除了 vLLM,SGLang也已經支持(BF16 變體,FP8/NVFP4 待跟進),TensorRT-LLMTensorRT Edge-LLM(Jetson Thor)也都有 cookbook

      一些個人觀察

      聊聊我的態度,不全說好話:

      我看好的地方

      • 協議是真開放——商用零摩擦,對國內中小廠、個人開發者就是白嫖級別的福利

      • 3B 激活的 MoE + 視頻幀剪枝這套組合,是把"持續感知"這個 Agent 真痛點直接打中了,9 倍吞吐不是噱頭,是給永遠在線的 Agent 準備的

      • 256K 上下文 + 詞級時間戳的轉寫 + tool calling,幾乎可以一個模型把會議助理、視頻檢索、屏幕代理三件事一起干

      • Unsloth Day Zero GGUF,25GB 內存就能跑 4-bit,意味著一臺普通游戲本就能本地起 Agent,這是 Qwen3-Omni 沒做到的

      我潑冷水的地方

      • 只支持英文——中文能力官方明確沒承諾,國內業務場景需要自己評估

      • vLLM 必須 0.20.0,版本鎖得很死,老鏡像別想直接升

      • CUDA 13.2 輸出亂碼,老黃家自己的 CUDA 還有這種 bug

      • Ollama 暫不支持多模態,想一鍵ollama run的朋友再等等

      • 視頻 ≤2 分鐘,長視頻還是得切片喂

      適合誰

      • 想做 GUI Agent / 瀏覽器 Agent / 屏幕監控類應用 → 極力推薦

      • 文檔智能(合同/財務/科研 OCR + 推理)→ MMlongbench-Doc 和 OCRBenchV2 第一,閉眼上

      • 短視頻/會議紀要/語音轉寫 + 提煉 → 一把梭

      • 中文為主的 toC 場景 → 再等等,或者拿這個做底座微調

      我自己接下來會拿它做兩件事:一是接到本地的錄屏 → 操作回放分析流程里看看;二是把會議視頻丟進去做"看完一段視頻自動產出 todo + 時間戳"的工作流

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      確定!正式官宣加盟,空降達拉斯啊,弗拉格終于有救了?

      確定!正式官宣加盟,空降達拉斯啊,弗拉格終于有救了?

      球童無忌
      2026-05-05 13:40:30
      西蒙尼:如果我們被淘汰,那說明對手配得上晉級

      西蒙尼:如果我們被淘汰,那說明對手配得上晉級

      懂球帝
      2026-05-06 06:37:12
      我國又一款摩托車奪冠!春風動力在世界摩托車大獎賽上大幅度領先

      我國又一款摩托車奪冠!春風動力在世界摩托車大獎賽上大幅度領先

      科普大世界
      2026-05-05 21:57:22
      虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

      虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

      靠譜電影君
      2026-05-05 10:40:44
      驚呼繩子“沒拴緊沒拴緊”,女子景區“探險”時高空墜落;女子是否搶救過來,四川華鎣相關部門稱會發通報

      驚呼繩子“沒拴緊沒拴緊”,女子景區“探險”時高空墜落;女子是否搶救過來,四川華鎣相關部門稱會發通報

      大風新聞
      2026-05-05 17:39:06
      上海偶遇Angelababy!素顏帶小海綿抓娃娃,現場無人打擾太暖心

      上海偶遇Angelababy!素顏帶小海綿抓娃娃,現場無人打擾太暖心

      觀魚聽雨
      2026-05-05 23:43:22
      河北一戶人家,因“月季花小院”走紅,太養眼,猶如人間仙境

      河北一戶人家,因“月季花小院”走紅,太養眼,猶如人間仙境

      三農老歷
      2026-05-05 00:08:43
      摩根:我的歷史最佳11人無梅西很正常,他甚至不是阿根廷的歷史最佳

      摩根:我的歷史最佳11人無梅西很正常,他甚至不是阿根廷的歷史最佳

      懂球帝
      2026-05-05 21:57:05
      吳宜澤世錦賽奪冠,同為00后的顏丙濤社媒送祝賀,解禁時間已確定

      吳宜澤世錦賽奪冠,同為00后的顏丙濤社媒送祝賀,解禁時間已確定

      小火箭愛體育
      2026-05-05 19:46:07
      米切爾和詹姆斯·哈登為何相信騎士隊,已準備好爆冷擊敗活塞隊

      米切爾和詹姆斯·哈登為何相信騎士隊,已準備好爆冷擊敗活塞隊

      好火子
      2026-05-06 05:32:12
      豆包突然要收費,其實是給所有普通人提了個醒!

      豆包突然要收費,其實是給所有普通人提了個醒!

      秋葉PPT
      2026-05-05 08:22:06
      套現約455億,李嘉誠又賣了

      套現約455億,李嘉誠又賣了

      第一財經資訊
      2026-05-05 23:54:56
      最便宜的豐田小車來了!配1.0L發動機油耗2.8L,不足4萬太香了

      最便宜的豐田小車來了!配1.0L發動機油耗2.8L,不足4萬太香了

      娛樂圈的筆娛君
      2026-05-05 21:17:39
      我家樓下有個少婦,離婚有一年了,長得非常漂亮,我想把她追到手

      我家樓下有個少婦,離婚有一年了,長得非常漂亮,我想把她追到手

      那年秋天
      2026-05-05 18:00:07
      大快人心!白洋淀五一徹底涼涼,靠宰客斂財的景區終于迎來了報應

      大快人心!白洋淀五一徹底涼涼,靠宰客斂財的景區終于迎來了報應

      社會日日鮮
      2026-05-05 20:11:56
      特斯拉 Model Y L 續航、能耗太強了,表顯跑出了 1:1

      特斯拉 Model Y L 續航、能耗太強了,表顯跑出了 1:1

      新浪財經
      2026-05-05 17:57:05
      蘭州飯館掛錢學森袁隆平照片,被投訴,老板反手報警:崇拜,不摘

      蘭州飯館掛錢學森袁隆平照片,被投訴,老板反手報警:崇拜,不摘

      觀察鑒娛
      2026-05-05 10:24:44
      媽媽帶3歲兒子送外賣不幸遭遇車禍,孩子滿臉傷痕不哭不鬧一直守在身旁:這一刻他就是媽媽的“守護天使”

      媽媽帶3歲兒子送外賣不幸遭遇車禍,孩子滿臉傷痕不哭不鬧一直守在身旁:這一刻他就是媽媽的“守護天使”

      大象新聞
      2026-05-05 20:46:37
      阿森納通往歐冠決賽之路:11勝3平僅丟6球,勝拜仁國米馬競

      阿森納通往歐冠決賽之路:11勝3平僅丟6球,勝拜仁國米馬競

      懂球帝
      2026-05-06 05:24:44
      特朗普:已賺回出兵成本的37倍!美國已經賣了1億桶委內瑞拉石油,未來一個月還有1億桶,他此前呼吁中國購買委石油,中方:其他國家無權指手畫腳

      特朗普:已賺回出兵成本的37倍!美國已經賣了1億桶委內瑞拉石油,未來一個月還有1億桶,他此前呼吁中國購買委石油,中方:其他國家無權指手畫腳

      每日經濟新聞
      2026-05-03 09:07:16
      2026-05-06 06:51:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3372文章數 11146關注度
      往期回顧 全部

      數碼要聞

      AMD:預計到2030年CPU市場年增長超過35%

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      房產
      手機
      家居
      親子
      公開課

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      手機要聞

      iPhone 20周年機型或配備固態按鈕,iPhone 18再次確認工藝降級!

      家居要聞

      靈動實用 生活藝術場

      親子要聞

      這個五一,帶寶寶來北海看海啦~銀灘細沙海浪,是小朋友最愛的天

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产∨亚洲v天堂无码久久久| 美女胸18下看禁止免费视频| 人人操人人| 99精品一区二区三区无码吞精| 日日夜夜撸免费视频| 国产av最新一区二区| 国产精品人妻熟女男人的天堂| 国产亚洲精品久久久999| 日韩一区国产二区欧美三区| 国产成人综合亚洲色就色| 国产精品一区二区国产馆| 国产乱码一区二区三区的解决方法| 精品国产自在久久现线拍| 午夜视频在线观看免费观看1| 国产精品白浆免费观看| 熟女丝袜av| 黑鬼大战白妞高潮喷白浆| 国产综合av一区二区三区| 界首市| 青青草视频免费观看| 日韩乱码一区二区| 色欲天天婬色婬香视频综合网| 久久精品不卡一区二区| 亚洲一区二区三区日本久久九| 九九热精品免费视频| 久久综合欧美| 免费在线看黄网址| 精品国产中文一级毛片在线看| 欧美成人在线A免费观看| 深爱激情久久综合玖玖爱| 天天爱天天做天天爽| 中文字幕亚洲有码| 国自产拍在线| 欧美深度肠交惨叫| 大又大粗又爽又黄少妇毛片| 久久精品夜夜夜夜夜久久| 国产偷国产偷亚洲清高app| 五月婷婷影院| 97总资源免费资源站| 亚洲av一本二本三本| 国产精品无码永久免费A片|