馬斯克把X的推薦算法全開源了——從候選召回到排序框架,甚至連迷你版模型都打包放上了GitHub。但別急著造第二個X:訓練數據、生產級模型權重、廣告競價策略這些核心機密依然鎖死。這場"透明"更像是一場精心計算的博弈——用開源對抗歐洲監管審查,用"代碼可見"重建用戶信任。
———— / BEGIN / ————
自從馬斯克開源X以后,大家總會抱怨說“馬斯克你這人不地道,答應開源卻沒有開源完整,大家拿到代碼也沒辦法自己做個X平臺”。
但是現在可以了,X開源倉庫頁迎來史上最大更新,你真的可以下回去自己造個X平臺了。
![]()
馬斯克第一次公開X推薦算法代碼,是在2023年3月31日。那時平臺還叫Twitter,官方把twitter/the-algorithm和 twitter/the-algorithm-ml兩個倉庫放上 GitHub,公開了For You時間線背后的部分推薦邏輯。
但那次更像一次“代碼透明度展示”,外界能看到推薦系統的基本運作方式,卻拿不到訓練數據、模型權重、廣告推薦系統等關鍵部分。
而這次,馬斯克玩真的了。
誠然,X并不是全球最大的社交平臺。
它的月活數量為5.7億,X在2026年的預計收入約為29億美元,比馬斯克收購前的50.8億美元下降了43%,收購前X的廣告收入占比高達90%,收購后廣告收入仍占總收入的不到70%。
但是它仍然是全球最重要的社交平臺之一,每天處理12億條內容、服務5億用戶的完整生產系統。Anthropic、OpenAI這些全球最頂尖的AI公司,都以X作為第一信息分發平臺。
馬斯克發出這條X不到24小時,X的開源GitHub倉庫瞬間沖到了2萬顆星星。
馬斯克在開源聲明中說:“我們知道這個算法很笨,需要大幅改進,但至少你可以看到我們實時且透明地努力讓它變得更好。沒有其他社交媒體公司這樣做。”
推薦算法是社交媒體的核心商業機密,是決定用戶“看什么、信什么、買什么”的底層邏輯。
在此之前,沒有任何一家主流平臺愿意把這套邏輯完整地擺到臺面上。
馬斯克做了。
開源的具體內容?
這次開源的X算法,核心是一個基于Grok的transformer推薦系統。
整個系統的架構并不復雜,設計思路很清晰:從兩個來源獲取候選內容,然后用機器學習模型統一排序,最后過濾掉不合適的內容,推送給用戶。
兩個內容來源分別是Thunder和Phoenix Retrieval。
Thunder負責“網內內容”(In-Network),也就是你關注的賬號發布的帖子。它是一個內存數據庫,實時追蹤所有用戶的最新發帖,響應速度可以達到亞毫秒級別。
當你刷新信息流時,Thunder會立刻把你關注的人最近發的內容拉出來。
Phoenix Retrieval負責“網外內容”(Out-of-Network),也就是你沒關注、但系統認為你可能感興趣的帖子。
它通過機器學習做相似度搜索,從全球語料庫里找出和你過去互動內容相關的帖子。這是推薦系統最關鍵的部分,決定了你會不會在信息流里看到陌生賬號的爆款內容。
兩個來源的候選內容匯總之后,會進入統一的排序階段。這個階段的核心是Phoenix Scorer,一個基于Grok的Transformer模型。
這個模型不預測“相關性”,而是預測你對每條內容可能采取的具體行動,比如點贊概率、轉發概率、回復概率、點擊概率、舉報概率、屏蔽概率。
每個行動都有一個權重,正向行動(點贊、轉發)權重為正,負向行動(舉報、屏蔽)權重為負。最終得分是所有預測概率的加權求和。
得分高的內容排在前面,得分低的內容排在后面。
僅此而已。
X在開源文檔里特別強調了一點:我們已經徹底消除了所有手工特征工程和大部分啟發式規則。
Grok-based Transformer承擔了所有繁重的工作,它通過理解你的互動歷史,比如你點贊了什么、回復了什么、分享了什么,然后基于此自動判斷什么內容和你相關。
這意味著,過去那些依賴關鍵詞堆砌、標簽匹配的運營策略已經失效了。系統現在更注重語義理解,能夠深度分析內容的實際價值和用戶的真實需求。
開源是開源了,但并不是完全開源。
![]()
首先,模型權重沒有完全開放。
GitHub倉庫里確實包含了一個預訓練的mini Phoenix模型,256維嵌入、4個注意力頭、2層Transformer,打包成一個3GB的壓縮包,通過Git LFS分發。這個模型可以讓開發者直接跑起來端到端的推理流程,不需要自己訓練。
但這只是一個“迷你版”。X在生產環境里真正使用的Phoenix模型,規模要大得多,參數量、層數、嵌入維度都不在一個量級上。開源的這個mini模型,更像是一個教學樣本,讓你理解系統怎么工作,但不是X真正在用的那個。
它像一臺教學用小發動機,能讓你看懂發動機原理,也能真的轉起來,但它不是X每天給幾億用戶刷For You信息流時用的那臺真正發動機。
真正的生產模型大概率更大、更復雜、訓練數據更多、調參更多,知道的用戶行為也更多。所以它推薦得準不準、反應快不快、能不能扛住真實流量,和這個 mini 模型不是一個量級。
其次,訓練數據沒有公開。
推薦系統的核心競爭力,一半在模型,一半在數據。X每天處理12億條內容,積累了海量的用戶行為數據,比如誰點贊了什么、誰屏蔽了誰、誰在什么時間看了哪些內容、看了多久。
這些數據才是Phoenix模型能夠準確預測用戶行為的根本原因。
但這些數據不可能開源。一方面是隱私問題,另一方面是商業機密。
沒有這些數據,即使你拿到了完整的模型架構和代碼,也訓練不出一個和X一樣好用的推薦系統。
第三,廣告系統只開源了框架,沒有開源策略。
這次開源包含了一個新的ads模塊,處理廣告注入和定位,包括品牌安全追蹤,會尊重敏感內容邊界。但具體的廣告競價邏輯、出價策略、ROI優化算法,這些直接關系到X收入的核心機制,并沒有完全公開。
第四,內容理解管道Grox(Grox是X推薦系統里,基于Grok構建的內容理解工程服務)只開源了部分能力。
Grox是一個新加入的服務,提供分類器、嵌入器和任務執行引擎,用于垃圾檢測、帖子分類、PTOS政策執行等內容理解工作。但Grox具體怎么判斷一條內容是垃圾、怎么識別違規內容、怎么執行平臺政策,這些細節并沒有完全透明。
所以,你雖然可以根據GitHub開源的這些東西去造一個類似X的社交平臺,但你造不出一個和X一樣好用的推薦系統。
你可以拿到完整的系統架構、候選召回邏輯、排序框架、過濾規則,可以跑通端到端的推理流程。如果你有足夠的工程能力,確實可以搭建一個類似的推薦系統。
可是你沒有X的數據、沒有X的生產級模型、沒有X在過去幾年里積累的工程優化和調度策略。也就沒辦法1比1復刻X平臺。
為什么要開源?
早在2022年10月收購Twitter的時候,他就公開表示:“讓算法開源以增加信任”是他對這個平臺的愿景之一。
2023年3月31日,馬斯克兌現了第一個承諾。當時還叫Twitter的X平臺,在GitHub上發布了部分推薦算法的源代碼,包括用戶時間線里推文推薦的算法邏輯。
那次開源引發了巨大關注。
開發者們第一次看到了Twitter推薦系統的內部運作方式,也第一次確認了一些長期流傳的傳聞,比如,某些賬號確實會被算法降權,某些內容類型確實會被優先推薦。
馬斯克當時說,提供“代碼透明度”一開始會“令人難以置信地尷尬”,但最終會“導致推薦質量的快速提升”。
他還說:“最重要的是,我們希望贏得你們的信任。”
但那次開源并不完整。GitHub倉庫里的大部分文件都來自最初的上傳,后續更新很少。很多開發者抱怨,代碼庫沒有持續維護,文檔不夠詳細,很多關鍵模塊沒有公開。
這次開源,馬斯克顯然吸取了教訓。
更有意思的是,馬斯克在X上發布算法更新的那條推文時,他人正在北京。但這次開源的真正目標,是歐洲。
X平臺在歐洲面臨著越來越嚴格的監管審查,而馬斯克正在用“透明”和“開放”作為武器,去對抗監管壓力。
2025年7月,法國檢察機關對X平臺展開調查,懷疑其算法存在偏見和欺詐性數據提取行為。
歐盟委員會也對X發出了文件保留令,要求其提供算法相關內容,調查重點是虛假信息傳播、內容審核不力和信息透明度缺陷。
X平臺當時拒絕配合調查,并指控這是一場“出于政治動機的刑事調查”,威脅到用戶的言論自由。
馬斯克甚至在歐盟委員會的推文下回復了一個臟話。
但拒絕配合顯然不是長久之計,于是馬斯克把算法給開源了。
與其被動接受監管機構的審查,不如主動把代碼公開,讓全世界的開發者、研究者、監管者都能看到X的推薦邏輯。
這樣一來,X可以宣稱自己是“全球最透明的社交平臺”,任何關于算法偏見、內容操縱的指控,都可以用“代碼已經開源,你們自己去看”來回應。
進攻才是最好的防守。
當然,開源也不是沒有代價的。
首先,競爭對手可以直接學習X的架構設計和工程實踐。現在別人徹徹底底地研究X是怎么做召回、怎么做排序、怎么做多樣性控制的。
如果X的某些設計確實比競品好,那么這些設計很快就會被復制。
![]()
其次,開源暴露了X的弱點。
開發者們已經在GitHub issue區指出了一些問題:為什么某些過濾規則設計得不夠合理?為什么多樣性控制的參數設置得這么保守?為什么廣告注入的邏輯這么簡單粗暴?
但馬斯克認為,這些代價是值得的。
X現在面臨的最大問題不是技術,而是信任。用戶不信任X的內容審核,廣告主不信任X的品牌安全,監管機構不信任X的算法公正性。
開源算法,是重建信任的最直接方式。
它不能解決所有問題,但至少可以證明X沒有在暗箱操作,X的推薦邏輯是可以被檢驗的,X愿意接受公眾監督。
在一個越來越強調透明度和問責制的時代,這種姿態本身就是一種競爭力。
馬斯克在2023年開源Twitter算法時說過一句話:“我們希望X成為互聯網上最透明的系統,并讓它像最著名、最成功的開源項目Linux一樣強大。”
現在看來,他是認真的。
X能不能真的變成“社交媒體界的Linux”,還需要時間驗證。
但至少在開源這件事上,馬斯克已經走在了所有主流社交平臺的前面。
本文來自公眾號:字母AI 作者:苗正 編輯:王靖
不想錯過 AI 新趨勢,也想結識志同道合的伙伴?長按識別二維碼,免費加入AI 共學交流群,一起學習、一起玩轉 AI!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.