<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      10分鐘搞懂AI名詞:這次,終于能看懂AI新聞了丨圖文

      0
      分享至


      最近這兩年,我們每天早上都被各種AI新聞“引爆!”,看各家 “突發!”“AI 神器”和“神秘項目”……

      只見它們紛紛“火力全開!”“刷爆記錄!”,“迅猛爆發!”,讓我們天天“狂喜!”,然后一邊“見證歷史!”

      一邊點開新聞,心里暗暗思量:字我都認識,但你們到底在說什么啊?


      各家博主的文章里都堆滿了不明覺厲的專業名詞,讓我們自慚形穢,一臉懵逼,只好鬼鬼祟祟地掏出AI,問問這些名詞到底是啥?

      但由于缺乏配套的知識體系,往往問了也似懂非懂,下次看到又不知道在說什么了~

      如果你也有類似感受,又想在這些一驚一乍的新聞里學點正經知識,那在這期視頻里,我們會跟你一起在頭腦中建立這樣一個關于大模型的基本框架:它包含大模型工作時的運作流程,以及大模型訓練時預訓練,后訓練,強化學習的基本流程。


      在講述這個框架的同時,我們會介紹每個環節中涉及到的常見概念。這樣在看完之后,不光能搞清這些名詞的含義,還能知道一些關于大模型的基礎知識,比如一些不正經的大模型,到底是怎么練出來的?AI 究竟是復讀機,還是有靈魂等等~

      視頻

      ↓↓ 看完這個視頻就懂了 ↓↓

      ↑↑ 信我,真的能看懂 ↑↑

      圖文版

      你手機上的 Deepseek、豆包、ChatGPT、Gemini......本質上都是“大語言模型”,LLM。我們會把它們當成一個個大腦,跟它對話。

      當你找它聊天時,你的話就是Prompt,提示詞。它們會被“分詞器”,切分成這樣的一個個Token(詞元)。

      Token 是大模型理解內容的最小單元。每個 Token 都對應著一個數字,叫Token ID

      大模型的任務,就是算出在這串 token 序列后,應當續寫哪些 token。


      為了完成這個任務,大模型們普遍采用了Transformer架構,它采用了“自注意力機制”,能很好地捕捉上下文之間的關聯。

      在計算的時候,大模型會一個 token 一個 token 地算。每次計算,它都會把新生成的 token,加入到原有的 token 序列,再投入進模型中,算出下一個 token。再把它加入 token 串,再投入大模型,再算出下一個 token.....如此循環往復,大模型就會輸出一個長長長長的回答——所以說大模型計算的本質,就是在不斷地“續寫”token 串。


      在使用大模型的時候,你可能會開“聯網搜索”,也有一些教程會教你外掛一個私人知識庫。這其實都是在利用 RAG 功能,“檢索增強生成”:也就是先把從互聯網,或者知識庫里抓取到的內容,加入到 token 串里,再開始計算、續寫。這樣可以提高輸出的準確度。

      這一串過程,就是大模型在工作時的基礎流程。


      我們說大模型是在“計算”結果,是因為它的內部真的要調動許多許多復雜的數學表達式,這里面就有很多可以調整的“參數”。

      很多人都認為,模型參數越多,規模越大,算力越高,表現就越好——洋氣的說法叫 Scaling Law,樸實的說法叫“大力出奇跡”~

      很多大模型的名稱后都會直接標注參數大小,這里 B 代表 Billion,十億。


      GPT3 剛發布的時候,大家都震驚它居然有高達 1750 億個參數;

      現在滿血版的 Deepseek R1 ,已經有 6710 億的參數;一些廠商都開始卷萬億參數的大模型了。


      你可以想象,如果你跟它說句 Hello,都要調動如此之多的參數,那未免內心戲太豐富了。不過很多模型都是這么干的,它們叫“稠密模型”(Dense Model),每次都愛的轟轟烈烈,全情投入,計算量大。

      但當你問 Deepseek 一個問題時,它并不會調動所有的參數,而是只激活其中跟問題相關的一部分參數。這叫做“稀疏模型”,比較冷靜,能降低計算量,提升速度。

      目前稀疏模型中最流行的一種叫MoE ,“混合專家模型”。馬斯克的 Grok,還有 Deepseek 等,都是 MoE 模型。它們通過“門控網絡”(gating network),給每個問題分配合適的“專家”,賦予它們不同的權重,再生成結果。


      但不管怎么說,每一個大模型里的參數量,都遠遠、遠遠、遠遠地超出了手動設定的范圍。怎么才能把它們調整得恰到好處,做出一顆能說會道的大腦呢?

      從這里開始,我們就要進入這個框架的縱軸:也就是如何通過預訓練、后訓練,最終制作出一個大模型了。放心,你一定能看懂——畢竟我也水平有限,能講給你聽的一定是大家都能理解的。


      大模型的制造的第一步,是利用海量的互聯網數據,做Pre-training,“預訓練”

      這是為了讓大模型掌握人類世界的各種知識和語言規律,打造出一個“基座模型”。

      過程很簡單:就是讓它爬遍互聯網,把各位夙興夜寐辛苦創作的,飽含人類智慧的知識精華作為數據集,認真學習~

      并通過一種叫“反向傳播”的方法,讓大模型自己調整參數。這是什么意思呢?

      你看,當我們把這串 token 輸入到模型時,模型里會經過一頓計算,輸出一個結果,這叫“前向傳播”。


      但初始的預測結果往往不盡人意:

      我們訓練的目標是讓大模型輸出“棗樹”,那就要把錯誤回答跟目標對比,看看差了多少。這一步就是計算“損失”(loss)。

      通過計算損失,模型可以反向找到在整個傳播過程中,到底是哪些步驟出了問題,然后調整它們對應的參數。如此循環往復,逐步調整,直到輸出結果逼近目標。

      這就是“反向傳播”。


      由于在預訓練的時候,大模型要學習的內容太多,數據集很大,靠人力梳理根本干不過來。所以目前預訓練主要都用“自監督學習”——就是人類躺平了,讓大模型自己去看數據、計算損失、調整參數,自己調教自己

      預訓練是大模型訓練中最耗時、耗算力的階段,往往需要幾個月甚至幾年,買天量的顯卡,所以讓黃仁勛成為了 AI 的最大贏家。


      預訓練完成后,我們就能得到一個Base Model,“基座模型”。你可以把它理解為一個“互聯網模擬器”,或者一個學會了人類世界知識的“通用大腦”。無論你輸入什么,它都能續出合適的 Token。


      不過,基座模型一般不能直接用。

      為了把它從“通用大腦”變成一個有特定功能的“打工人”,我們還需要給它做Post training,“后訓練”。

      你可能聽說過所謂的fine tuning,“微調”,它就是后訓練時完成的。目前最常用的是方法“監督微調”(SFT,Supervised Fine-Tuning)——所謂的“監督”,就是說要給 AI 提供帶標注的數據集,讓它模仿標注數據的風格來生成內容


      比方說要把它做成我們最常用的各類“對話助手”,那就要給基座模型提供對話數據集。

      聽起來又是一項大工程,但此時所需要的數據集大小和訓練時長,其實遠遠小于預訓練階段。比如開源對話數據集 OpenAssistant 里,一共包含 16 萬條出頭的對話信息,中文對話數據只有不到 5000 條,但已經足夠把基座模型變成一個合格的對話助手了。


      如果我們細看一下這個對話數據集,就會發現其中的對話講文明,懂禮貌,絕對不是你在如今互聯網評論區能看到的東西。也就是說監督微調用的這些帶標注的數據,都需要真人編寫,或者真人利用借助 AI 來編寫

      所以監督微調時,需要用到很多真人,作為“數據標注員”——這也算是 AI 給我們活人提供了一些工作機會了~

      比如 OpenAI 曾在這篇論文里提到,他們在 instruct-GPT 項目中招聘了 40 名數據標注員。

      你也能在招聘網站上找到很多“數據標注員”的崗位——雖然其中很多是枯燥的重復勞動,但它的好處一是門檻相對不高;二是等 AI 占領世界奴役人類后,說不定可以憑這份工作經歷,向硅基生物投誠,當碳奸......


      不管你是想把 AI 打造成對話助手,還是醫學專家、法律專家等等,都要在微調時給他們喂相應的數據

      當然,不是所有人的需求都這么實用,高雅。在 HuggingFace 等大模型社區上,你時常能找到有人拿一個基座大模型,給它喂不堪入目的數據做微調,打造出上不了臺面的專家、女友。

      比如幾個月前,就有一個全站下載第一的模型,叫 deepsex (這段劃掉)……


      在完成監督微調后,我們就可以得到一個基本可用的大模型了。但如果到此為止的話,大模型也不過是一個沒有靈魂,只會四處搬運,鸚鵡學舌的復讀機罷了——就跟我們這些科普博主一樣~

      如果要給大模型注入靈魂,那就要進入“后訓練”中最重要的一步:強化學習,RL,Reinforcement Learning。通過強化學習,大模型輸出的答案會更符合人類偏好,甚至展現出超越人類的“智力”。


      “強化學習”的具體方法很多,其中一些思路既簡單,又巧妙。我們可以用 Deepseek 的GRPO(Generalized Rejection Sampling Policy Optimization)方案來感受一下:

      首先,我們可以給定一個問題,讓 AI 生成幾十個不同的解決方案,并給出答案。這些答案有對有錯,其中答錯的方案直接扔掉,拒絕采樣;答對的那些解決方案,大概率更合理。

      于是我們可以把它們再喂給 AI,讓它們模仿這些方案,繼續生成解決思路和答案。然后再根據答案對錯,繼續篩選解決思路,再喂給 AI.....這樣反復訓練,就能提高 AI 輸出正確答案的能力。甚至偶爾能涌現出一些在人工數據集之外,連人類自己都未曾設想過的解決方案,達成一種“超越人類”的效果。


      是不是非常巧妙?但它也不是萬能的:比如一個問題沒有標準清晰的答案,比如寫文章、寫詩,那大模型怎么知道哪個答案更好呢?

      那這時候,又得用到數據標注員了~

      在強化學習中,數據標注員的任務,是給 AI 生成的答案,按他們的判斷排序,把好的排在前面,差的排在后面

      當然,數據標注員無法給無窮無盡的回答排序。所以我們還要根據他們的排序偏好,訓練出一個“獎勵模型”,RM。來給AI 打分。然后把 AI 生成的答案,交給獎勵模型。這樣就可以讓大模型根據獎勵模型的反饋,不斷地訓練自己了。這種方式,叫做RLHF(Reinforcement Learning with Human Feedback),基于人工反饋的強化學習。


      從監督微調時的數據集編寫,到 RLHF 中給答案排序,都需要數據員的參與。所以從某種角度來說,一個大模型的“個性”,能反應它背后的人類標注員們的偏好——所以你談的那些 AI 女友,背后可能是跟你有共同愛好的的大漢~


      總而言之,目前后訓練中的“強化學習”,是各家技術團隊發力比拼的重要方向。大模型中很多讓人驚嘆的功能,都跟它有關。

      比如 DeepSeek R1 發布后,大家都震驚于它能展示詳盡的CoT(Chain of Thought),思維鏈。

      而根據官方論文,CoT 的出現,是因為團隊在后訓練中的監督微調階段,特意喂了 60 萬條推理數據。然后又通過我們剛才說的這套 GRPO 的強化學習流程,引導大模型自己篩選有效思路,最終實現了強大的推理能力。


      ok,經過預訓練,后訓練,包括強化學習階段,一個完整的大模型終于可以做出來了。我們整個框架的講解也已經接近尾聲。如果有些內容沒記住也沒關系,我們總結成了下面這張圖片提供給你~


      既然已經學會了,那讓我們開始手搓一個大模型吧——

      開玩笑的~我們哪會。不光不會手搓,甚至都無法把別人手搓好的大模型裝到電腦里。

      你可能會說,這不對吧?當時 DeepSeek R1 剛發布的時候火爆到宕機,不是有很多人教我們在電腦上部署大模型嗎?

      實際上,我們的電腦根本跑不動滿血模型~所以當時部署到電腦上的,都是所謂的“蒸餾模型”,你可以把它們理解成“高仿版”。

      比如這個模型的本質,是用阿里的 Qwen 32B 這個參數較小的模型,去“學習”滿血版 Deepseek R1 671B 的輸出結果,據此調整參數,做出一個“高仿”的 Deepseek R1 ,所以叫“蒸餾”。


      除了蒸餾模型外,你還能在大模型社區上看到很多這樣的“量化模型”,相當于成原版大模型的“壓縮版”,因為它們就是把大模型中精度極高的參數,轉化為精度沒那么高的參數,從而降低模型的體積和性能要求

      很多個人電腦里部署的,都是這些壓縮或高仿版的模型~


      講到這里,這些亂七八糟的名詞就差不多講完了。

      我們也要多啰嗦一句:這期視頻的部分思路受到了前 OpenAI 的科學家安德烈·卡帕斯(Andrej Karpathy)在 YouTube 上這期長達 3 個半小時的口播視頻的啟發。如果有條件有耐心的話,你也可以去學習一個~


      最后,我們不知道有多少人看到這里——看完的可以在評論里舉個手——

      因為柴司有同學看完這期文稿后說,有點暈,像上課,信息太密集。但沒辦法,關于大模型的一切都很抽象,確實需要一點耐心才能看下來。


      如果你覺得這對你有所幫助,那歡迎點贊轉發,讓我們知道這期視頻是不是真的有人看~

      下期見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      油價調整:注意,預計上調110元/噸,明日油價要漲!

      油價調整:注意,預計上調110元/噸,明日油價要漲!

      金投網
      2026-05-20 11:00:16
      “準備走出來了”,東方甄選前CEO孫東旭離職半年后開播賣書,兩小時帶貨沖上第一!他特意關閉了打賞功能

      “準備走出來了”,東方甄選前CEO孫東旭離職半年后開播賣書,兩小時帶貨沖上第一!他特意關閉了打賞功能

      每日經濟新聞
      2026-05-20 21:31:24
      這游戲NPC記仇能記多久?總監說50小時都不夠

      這游戲NPC記仇能記多久?總監說50小時都不夠

      菜但癮大第一名
      2026-05-19 21:57:00
      一月八萬不夠花,李雙江“賴”學校不退休,兒子改名出國后再作妖

      一月八萬不夠花,李雙江“賴”學校不退休,兒子改名出國后再作妖

      一盅情懷
      2026-05-16 20:12:47
      下一任007選角標準曝光:亨利·卡維爾因年齡出局

      下一任007選角標準曝光:亨利·卡維爾因年齡出局

      赴一場山海啊
      2026-05-19 02:07:52
      神二十三女航天員亮相,身份超乎預料,首飛將在太空停留一年

      神二十三女航天員亮相,身份超乎預料,首飛將在太空停留一年

      近史博覽
      2026-05-20 09:50:19
      卡里克:B費日常生活中也很自律,每天吃早餐他都比我早到

      卡里克:B費日常生活中也很自律,每天吃早餐他都比我早到

      懂球帝
      2026-05-20 16:20:08
      高緯度的人類應進化出厚厚的毛發來御寒,事實并非如此,為什么?

      高緯度的人類應進化出厚厚的毛發來御寒,事實并非如此,為什么?

      宇宙時空
      2026-05-19 22:20:03
      “訂單排到2027年”!除了芯片,它也爆火!全球資本涌入

      “訂單排到2027年”!除了芯片,它也爆火!全球資本涌入

      環球網資訊
      2026-05-19 19:45:56
      剛剛,半導體業績王,利潤狂飆5000%!

      剛剛,半導體業績王,利潤狂飆5000%!

      新浪財經
      2026-05-20 18:26:04
      小鵬首款大六座SUV售價公布:27.98萬起

      小鵬首款大六座SUV售價公布:27.98萬起

      界面新聞
      2026-05-20 21:32:34
      僅一個季度,日本汽車在全球前十大車企奪回4個,中國或僅剩一家

      僅一個季度,日本汽車在全球前十大車企奪回4個,中國或僅剩一家

      柏銘銳談
      2026-05-20 08:44:50
      這樣打扮真的女人味十足

      這樣打扮真的女人味十足

      美女穿搭分享
      2026-05-19 21:08:05
      大量戶外mini露營車流入閑魚!來自農夫山泉,全新30元拿走

      大量戶外mini露營車流入閑魚!來自農夫山泉,全新30元拿走

      閑搞機
      2026-05-20 11:04:52
      東風將與Stellantis成立合資企業 負責嵐圖歐洲約定市場銷售業務

      東風將與Stellantis成立合資企業 負責嵐圖歐洲約定市場銷售業務

      雷遞
      2026-05-20 17:06:35
      為何是1976年?三位開國偉人,為何在同年告別我們?

      為何是1976年?三位開國偉人,為何在同年告別我們?

      歷史人文2
      2026-05-19 22:11:51
      都說一白遮百丑,見過白的,從來沒見過這么白的

      都說一白遮百丑,見過白的,從來沒見過這么白的

      黃麗搞笑小能手
      2026-05-20 21:03:57
      俄羅斯人開始談論與烏克蘭的“民族血脈”和“兄弟之情”

      俄羅斯人開始談論與烏克蘭的“民族血脈”和“兄弟之情”

      山河路口
      2026-05-20 16:34:53
      羅體:曼奇尼是意大利帥位熱門人選,他愿意接受200萬歐年薪

      羅體:曼奇尼是意大利帥位熱門人選,他愿意接受200萬歐年薪

      懂球帝
      2026-05-20 22:22:23
      海淀媽媽曾自曝尷尬現狀:“我,海歸高管、花千萬買學區房,卻養出個「學渣」兒子”,如今現狀反轉了……

      海淀媽媽曾自曝尷尬現狀:“我,海歸高管、花千萬買學區房,卻養出個「學渣」兒子”,如今現狀反轉了……

      閱讀第一
      2026-05-20 08:36:21
      2026-05-21 00:24:49
      柴知道
      柴知道
      用有趣的方式,講有價值的知識
      405文章數 84217關注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰

      頭條要聞

      楊梅被"一刀切"禁入 福建楊梅協會會長懇求給果農生路

      頭條要聞

      楊梅被"一刀切"禁入 福建楊梅協會會長懇求給果農生路

      體育要聞

      尼克斯贏下最窒息的一場翻盤,場場都是逆天局

      娛樂要聞

      王菲“沒事兒”,成年人學不來的松弛

      財經要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      26.98萬起步 看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

      態度原創

      家居
      房產
      藝術
      游戲
      教育

      家居要聞

      日常印記 靜謐溫馨

      房產要聞

      別被中介帶了節奏,你的房子可能比你想的值錢

      藝術要聞

      18幅 玫瑰花與女子畫作

      活了30年,我才知道自己居然有深海恐懼癥?

      教育要聞

      最新優錄動態:已有“牛娃”接到簽約電話!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本阿v片在线播放免费| 天天天欲色欲色www免费| 欧美在线观看a| 成熟了的熟妇毛茸茸| 亚洲国产精品综合一区二区| 麻豆国产| 在线亚洲日韩| 日韩亚洲欧美中文高清| 国产91精品一区二区麻豆| 能把下面看湿的视频| 国产91在线|中文| 国产精品亚洲一区二区z| 久热天堂在线视频精品伊人| 久久人人97超碰国产精品| 精品综合久久久久久88| 伊人成色综合网| 99久久精品国产一区二区蜜芽| 亚洲一级网此| ww无码| 亚洲瑟瑟瑟| 久久精品国产亚洲AV麻| 亚洲第一色| 国产乱人妻精品秘?入口-国产精品亚| 午夜福利一区二区91| 国产精品国产自线拍免费软件| 亚洲国产午夜精品理论片| 狼人久久乐| 中国漂亮护士一级毛片| 欧美%20日韩%20亚洲%20精品二区 2020国产精品永久在线观看 | 狼友视频首页| 日韩精品久久一区二区三| 亚洲AV无码东方伊甸园| av免费在线观看美女叉开腿| 亚洲一区二区高清| 韩日福利| 国产乱xxⅹxx国语对白| 在线无码视频| 亚洲天堂成年人在线视频| www成人国产高清内射| 久久无码字幕中文久久无码| mm1313亚洲国产精品无吗|