網易首頁 > 網易號 > 正文申請入駐

京東廣告大模型實戰：GRAM 架構如何在 50ms 內完成生成式推薦？

2026-04-30 13:43:33　來源: InfoQ

北京舉報

分享至

作者｜張澤華

策劃｜AICon 全球人工智能開發與應用大會

審核｜羅燕珊

流量紅利見頂，傳統 CTR 模型難以為繼。廣告營銷正從判別式堆疊轉向生成式全鏈路，但低延遲、高可靠、強可控的要求讓這條轉型路充滿挑戰。

在 2025 AICon 全球人工智能開發與應用大會·北京站上，京東集團算法總監張澤華系統公開了他們的應對方案：通過 GRAM 架構實現意圖與商品的直接語義對齊，以快慢雙鏈路分別應對快速點擊與復雜決策；從特征工程轉向知識工程，將零售經驗系統化為十二大類知識，在 5ms 內完成實時查詢并有效抑制幻覺；同時通過 PD 分離、概率空間裁剪等手段將推理時延壓至 50ms 以內。

以下是演講實錄（經 InfoQ 進行不改變原意的編輯整理）

先回顧近期行業發展，其中有一個核心趨勢備受關注：行業正從傳統堆疊式、串聯式的算法體系搭建，逐步依托國內外 One Model、One Rank 等相關技術路線，打造生成式全鏈路端到端的推薦與推理體系，這一轉變背后有三大核心原因。

第一，傳統 CTR 模型存在較為嚴重的碎片化問題，無論是模型結構設計還是特征體系搭建都較為零散，這也直接導致計算與模型結構設計層面呈現出大量碎片化特征；

第二，過去幾年里諸多頭部企業已在傳統 CTR 模型中融入大量 Transformer 類結構，發展至今，通過 Transformer 結合 Attention 機制搭建生成式大模型的技術路徑也愈發成熟順暢。

第三，從 2023 年底到 2025 年底的兩年實踐中我們也發現，依托預訓練、后訓練，再結合業務領域微調的應用落地路徑，實際推進得越來越順利。

回顧當前廣告營銷領域大模型的發展，我們可以看到以下趨勢：

一方面，依托傳統 AIGC 方式驅動的廣告業務占比已基本過半，過去兩年這一領域的競爭十分激烈。

另一方面，在營銷場景中，通用型營銷大模型已經能夠發揮不錯的效果，同時伴隨著兩項核心技術的發展：一是對傳統對話式能力進行逐級拆解，拆解后的大模型在實際應用中落地效果持續提升；二是基于 Transformer 的序列化建模方式，能夠很好地對用戶興趣以及推薦系統自身的偏好進行動態漂移與適配。

除此之外，在很長一段時間里，行業還頻繁提及一個關鍵概念——Scaling Law，它在實踐中呈現出四個顯著特點。第一，無論采用何種模型結構，在追求 Scaling Law 的過程中，廣告場景下的低延遲需求始終是核心攻克目標；第二，通過各類 kernel 的優化，無論是稀疏特征還是稠密特征，都大幅提升了算力利用效率；第三，在突破基礎的時延與效率瓶頸后，行業開始聚焦能力增長，這主要體現在兩個維度：模型參數規模持續擴大，不過近期參數增長已逐漸趨近瓶頸；而數據層面的擴張仍未觸達上限，行業仍在大規模擴充訓練數據；第四，實踐證明，通過疊加數據、算法與算力，能夠切實帶動業務效果提升，Scaling Law 也為未來知識工程與算法工程的發展，埋下了重要伏筆。

此外，隨著技術的落地，監管與合規性也成為核心議題。今年政府及監管部門針對倫理合規以及模型“幻覺”等虛假情況提出了明確的指導意見，這些合規要求已在監管層面有所涉獵。

回顧過去一年面臨的新挑戰，主要體現在兩個方面。首先，我們正推動大規模判別式模型向生成式領域遷移，這一遷移過程中，Scaling Law 所帶來的收益較為顯著，但我們仍需尋找適配該模型的業務場景，或對現有業務場景進行優化改造，以充分發揮模型價值、提升適配度，其中核心關鍵在于實現業務層面的 TOKEN 化，確保大模型能夠準確理解業務邏輯；

其次，傳統對話式大模型普遍存在幻覺問題，易產生看似嚴謹實則與事實不符的輸出，這一現象在早期大模型中更為突出，而我們的業務場景對這類問題的容忍度極低，因此必須針對性開展幻覺抑制工作，保障模型輸出的準確性與可靠性。

除算法層面的優化外，工程層面同樣面臨諸多挑戰。行業內普遍存在一種認知，即模型規模與數據量越大，業務效果就越有保障，但在時延要求極高的廣告互聯網場景中，時延預算并非無限擴張，因此需通過各類工程化手段、算法結構優化及數據鏈路優化，將推理時延控制在100 毫秒，甚至 50 毫秒以內，確保用戶能夠即時獲取廣告內容，而非像傳統對話應用那樣，僅能在 50 毫秒內看到首個字符，后續內容持續延遲加載。

結合近期的實踐數據來看，傳統 CTR 模型的MFU（算力利用率）普遍偏低，甚至處于個位數水平，我們通過充分挖掘算力潛力，已將其提升至兩位數區間，后續仍有較大的優化探索空間。此外，在搜廣推場景中，推理時延更是核心生命線，一旦時延超標，輸出結果便失去實際意義，而我們近期的多項工作，已將端到端時延穩定控制在 50 毫秒以內。

生成式大模型助力廣告算法代際突破

為了實現業務算法的代際突破，我們重點圍繞“洞察、決策、執行”的三循環架構，進行了深層重塑。首先，在用戶偏好洞察環節，我們從傳統的人工特征工程及 Transformer 行為序列，演進為利用生成式技術對用戶意圖進行深度建模，實現了更具語義理解力的精準洞察。

在核心決策鏈路方面，我們突破了單一的實時決策模式，構建了“快慢結合”的雙鏈路體系。傳統的實時鏈路雖能快速響應用戶瀏覽行為，但在處理復雜消費訴求——如評估已有配件與新購設備的兼容性，或進行多維度性價比深度比對時，往往顯得考慮不足。例如，當用戶提出“尋找一臺能完美兼容現有激光筆，并實現順滑遷移的新筆記本電腦”這類涉及跨品類適配與多重約束的復雜查詢時，傳統的快速推理模型已難以提供周全的方案。

而深度思考鏈路通過強化邏輯推理，能夠綜合考量硬件兼容、最優價格及優質服務，為用戶輸出更具深度的決策支持。

將推薦問題轉化為商業化廣告問題，需要對行業邏輯的演進進行深刻反思。

在生成式大模型時代，傳統的以“曝光”為核心的廣告售賣邏輯已逐漸式微。廣告主的需求已從單純的商品展現，演進為將品牌深度植入大模型的推理與決策鏈條中，從而實現對消費者的精準引導。這意味著傳統的“淺層注意力”正在失效，而能夠直接觸達用戶轉化行為的“深層注意力”，已成為廣告主最核心且迫切的訴求。

這種商業化轉型的挑戰在市場中已初現端倪。以 Perplexity 為例，盡管其在技術積累與流量曝光上表現出色，但在 2024 年第四季度的廣告營收表現仍反映出新舊模式切換的陣痛。與此同時，近期智能手機領域的行業討論也揭示了傳統流量獲取成本居高不下的困境。無論是傳統媒體應用還是大模型原生應用，在驅動后端深層行為方面都面臨著極高的成本門檻。因此，如何架設起流量與深層轉化之間的橋梁，已成為當前商業巨頭們共同探索的關鍵技術方向與商業解決方案。

除商業化路徑的變革外，大模型在廣告落地與業務增長中的實際成效也備受討論。直接將通用開源模型應用于廣告場景面臨著顯著局限：首先，通用模型難以深入理解垂直行業的特有邏輯與業務特性，導致適配性不足；其次，模型輸出的建議雖邏輯正確，卻往往因缺乏對受眾心理的深度洞察，而難以產生共鳴，導致實際采納率較低；最后，數據缺失與業務冷啟動等痛點，無論對大模型還是人類專家而言，依然是制約業務突破的關鍵瓶頸。

針對上述挑戰，我們提出了名為GRAM的解決方案。其核心設計思路，旨在深度挖掘大語言模型在語義理解與邏輯推理方面的潛能。基于這一推理機制，我們構建了“召排一體”的統一模型框架，并對系統中的參數化與非參數化組件進行了深度重構。在業務應用層面，GRAM 方案解決了冷啟動難題以及用戶理解偏差等行業痛點。同時，考慮到廣告業務對低延遲與高吞吐的極致要求，我們在模型研發初期便引入了算法與工程的協同設計理念。

關于模型訓練與微調的實施路徑，我們采取了多層次的演進策略。首先在底層基座的選擇上，我們并行推進兩條技術路線：一方面，充分利用業界成熟的預訓練模型以發揮其通用能力；另一方面，基于在特定場景下驗證有效的模型結構進行自主訓練，并在過程中深度注入大量的營銷與廣告領域專業知識。最后，我們每日乃至每周持續注入十億級規模的業務日志。從脫敏后的性能數據來看，已實現了顯著提升。

如上圖是GRAM系統設計思路的架構示意。

在傳統的搜索推薦場景中，系統以用戶的搜索詞或歷史瀏覽記錄為輸入，通過召回、排序、機制及展示等環節組成的級聯架構進行層層篩選。這一傳統模式的核心邏輯在于解決三個關鍵問題：匹配的相關性、點擊率與轉化率的預估準確度，以及業務特性與規則的集成。

GRAM的創新之處在于將上述復雜的級聯過程整合進統一的模型作用域中。通過引入深度推理機制，實現了用戶意圖與最終解碼輸出的 SKU 之間的直接語義對齊。

在編碼與請求對齊的實現過程中，雖然相關架構示意圖在業內已有一定共識，但 GRAM 在信息的深度集成與對齊邏輯上展現了顯著的差異化優勢。除了常規的提示詞、Query 及標題信息外，該模型還整合了更多的模態甚至用戶偏好信息。

在對齊邏輯上，我們將傳統的雙模態對齊定義為基礎對齊，隨著視頻、圖像以及復雜的業務促銷規則（如階梯滿減等）等信息的注入，語義對齊的難度也隨之從簡單的雙模態匹配，演進為跨越 n 個層次的高維對齊，我們將其定義為“超級對齊”。

在 Generator 的運行機制中，在線與離線鏈路的協同發揮著關鍵作用。在線部分通過極致的工程優化，已將響應延遲壓縮至極低水平；離線部分則針對海量數據處理需求，構建了分鐘級的實時進線系統。當商業化平臺涌現新商品、廣告或捕獲到新的用戶行為時，系統能夠在分鐘級內為其生成專屬編碼。這些編碼經由 Query-Code Generator 觸發檢索過程，從而高效、精準地推導出用戶當前的語義意圖。

關于上述技術架構的學術細節與公式推導，我們已在今年的多家頂級學術會議發表了相關論文，通過關鍵詞檢索即可獲取詳盡信息。

在業務實踐層面，這些技術方案的核心目標是攻克小樣本與長尾分布下的冷啟動難題。雖然進線系統能實現新商品的快速錄入，但在缺乏用戶行為數據的情況下，系統往往難以對其進行準確表征與理解。

為突破這一瓶頸，我們構建了多維度的解決方案。首先，利用生成式技術對內容進行先驗加工，并結合對比學習，在后訓練或微調階段將關鍵信息注入模型；其次，依托多年零售行業深厚沉淀，我們將海量的行業經驗轉化為大規模零售知識庫，顯著提升了模型對商品屬性與零售邏輯的理解深度。

具體而言，系統會將屬性、類目及趨勢相似的熱銷商品，加工為特定的高維空間編碼。以尚未上市的新型激光筆為例，即便沒有任何歷史銷量與點擊數據，系統仍能挖掘存量商品庫，找到在光源顏色、規格尺寸、價格區間、產地或材質等方面特征相似的關聯商品，進而快速刻畫這款新品。這種基于關聯特征的跨商品表征方式，大幅縮短了新商品的業務冷啟動周期。

在這一過程中，高質量的數據加工被視為技術演進的基石。在推理階段，確保模型能夠有效地“習得”、“檢索”并“感知”這些深度數據，是提升決策質量的關鍵。此外，若初始決策或推薦未達預期，系統會將該反饋納入連續決策流程，驅動模型進行持續的思考、理解及推薦。

生成式算法工程、知識工程實踐

從基于通用智能體到基于知識的智能體

在算法與知識工程的落地實踐中，我們必須跨越時效性、合規性與業務需求多樣化這三道門檻。廣告領域對延遲的要求近乎苛刻，且虛假營銷涉及法律紅線，這要求系統在追求深度推理的同時，必須兼顧響應速度與內容嚴謹性。為了在深度常識推理與極致時效性之間取得平衡，我們在大規模知識注入的基礎上，采用了投機解碼與并行生成等前沿技術。

我們在底層工程優化層面，實施了一系列針對性定制化方案，通過引入PD 分離、多級緩存及智能調度技術，顯著降低了多輪推理的整體時延。同時，我們結合計算硬件特性，重新改造設計模型架構，尤其通過“概率空間裁剪”技術大幅削減推理實際計算量，在保障低延遲的基礎上，實現了高吞吐量。此外，針對企業出海面臨的全球化信息與數據安全挑戰，我們在調度層提前布局可信安全計算技術，為應對嚴苛的國際信息安全合規要求，筑牢了堅實的技術儲備。

業務實踐證明，多模態信息已成為當前移動端應用的主流，對推薦效果有著決定性影響。如果不能將視頻、圖像與復雜的促銷信息，有機融入大模型的推理流程，推薦質量就會大打折扣。為此，我們搭建了包含“預訓練、微調及業務指標對齊”的三階段任務框架。

從數據特征體系到知識工程體系演進

相比過去十年占據主流的傳統特征工程，我們認為 2025 年算法演進的關鍵支點已轉向“知識工程”。我們發現，傳統特征庫存在明顯局限，其一便是特征維度十分有限；

其二，傳統特征的高頻更新對大模型究竟是正向助力還是負向干擾？經過大量實驗驗證，這類更新往往帶來更多負面效果。反觀知識層面的輸入與注入，對大模型的適配性與增益效果則要顯著得多；

其三，行業內也頻繁提出疑問：若未來采用大模型實現端到端生成，模型輸出的可解釋性與歸因邏輯又該如何實現與驗證？以零售場景為例，商品本身的洞察信息、業務機制相關信息以及各類場景化信息都相對直觀易懂。但除此之外，還存在大量內隱知識，這類知識在企業內部長期存在，卻很少被清晰梳理、提煉為適配大模型使用的結構化知識。

我們將知識工程體系系統化地劃分為十二個核心類別，旨在為企業提供清晰且易于落地的構建路徑。以零售行業為例，這一體系不僅涵蓋了商品深度洞察、業務運行機制及多元化場景信息等關鍵維度，更側重于對“內隱性知識”的挖掘。這些知識往往在企業內部沉淀已久，雖具有極高的業務價值，卻長期缺乏系統性的梳理，難以直接為大模型所利用。

除內隱知識外，該體系還包含更易于整理與感知的顯性知識。例如，利用生成式技術構建的動態用戶畫像，能夠更精準地刻畫消費者需求；而垂直場景知識則聚焦于特定流程的邏輯，如快遞物流中從下單到派送等閉環操作。此外，行業通識，如 3C 強制認證等標準規范，也被納入其中，作為模型決策的基礎背景。

從傳統訓推系統到深度定制的模型系統

在知識的存儲與查詢維度，我們超越了傳統兩三層結構的淺層知識圖譜，構建了具備深層級聯邏輯的新型圖譜系統。該系統的核心在于空間改造與統一映射，通過將商品、用戶及行業知識映射至同一語義空間，實現了異構信息在高維維度的深度融合。

在更新機制上，我們明確區分了參數化更新（如模型的預訓練與微調）與非參數化更新（如外掛知識庫的檢索增強）。這種非參數化路徑具備極強的實時性，在實戰測試中，面對千萬級規模的數據，系統能夠在5ms內完成高效的更新與查詢。

另外，多模態信息的對齊同樣是知識工程的關鍵環節，視頻與圖像信息被有機地整合并映射至圖譜節點中。相較于傳統的規則引擎，通過其特有的“護欄效應”，知識圖譜在抑制大模型幻覺方面展現出獨特優勢。

在創意知識的應用層面，我們將相關能力深度整合于賣點域、素材創作等核心領域。以商家側廣告投放場景為例，傳統的投放流程通常包含數十個復雜步驟，且一旦效果不佳，往往需要繁瑣的復盤與重調。通過將多維知識庫與大模型深度融合，我們顯著簡化了這一鏈路，使廣大中小商家能夠在模型知識的賦能下，無需復雜的手工干預即可快速獲取優質的投放結果。

總結與展望

結合此前我們對過去一年工作的梳理，有三個核心觀點值得重點關注。

其一，不少企業及團隊在交流中表示，希望能夠一步到位，直接打造大型模型——這是行業內普遍存在的訴求。但實踐表明，這種“一步到位”的模式往往會忽略諸多有價值的中間環節。例如，部分團隊希望直接構建知識增強后的領域大模型，雖具備可行性，但實施難度極高，且無法獲得階段性收益。

對此，我們更建議從通用模型入手，先通過業務場景驗證其適用性，明確短板與不足后，再逐步構建垂直領域模型，最終落地垂直領域知識增強模型。這種階梯式推進模式，應用曲線更為平緩，且每個階段均能快速驗證業務收益，實現穩步迭代。

第二，過去一年，我們無論是在推薦與流量領域落地GRAM應用，還是在 B 端場景將大模型封裝為智能體及配套工具，均取得了一定效果。未來，我們希望進一步打通更多業務環節與鏈路。

第三，團隊常常需要回應核心問題：相關工作的價值如何體現？以往價值衡量多局限于單一維度，而單一維度的優化并不可怕，真正的問題在于，單一維度的改進可能對其他維度產生損害。過去我們開展了大量單維度、單點優化工作，如今回看，這些單點實踐最終仍需回歸廣告主、用戶與平臺三方的加權綜合指標。

過去一年行業熱議端到端大模型，但它在實際業務場景中是否足夠好用、足夠完善？答案并非肯定。

首先一個核心問題是模型幻覺，目前仍無法完全消除。過度依賴生成式大模型，也是我們曾經歷的誤區——我們一度認為模型經過充分訓練與調優即可無所不能，而實際情況是，大量客訴源于模型輸出看似正確，實則隱含幻覺、缺乏約束，帶來了較高業務風險。

其次，廣告主、合作伙伴及代理商均具備行業專屬的專家知識，若生成式大模型在機制設計上未為上下游參與方預留干預與操作入口，業務推進將極為困難。原因在于，平臺無法承接其偏好、思路與操作訴求，也就難以真正達成其營銷目標。

此外，盡管我們已融合大量知識信息、場景信息與傳統特征工程，但黑天鵝事件仍無法完全避免，僅能通過屏蔽與跳過進行處理。經過多輪探討，我們認為一條可行的路徑是：在現有知識增強能力的基礎上，以規則體系兜底，并通過人機協同實現更穩健的運行。為此，集團內部正大力培養與引進 AI 產品經理，核心目標正是通過產品設計與算法工程能力建設，預留充足的人工介入規則與操作空間，讓大模型系統在廣告場景中真正實現人機協同。

最后一點，即便前序環節均已實現，端到端方案也并非終點。端到端技術仍存在幾個典型局限：一是可控性不足；二是投入產出效益有待驗證，大量人力與 GPU 資源投入后，ROI 并未達到理想水平。不少團隊計劃上線百億、千億乃至萬億參數模型用于線上推理，但在商業化場景中，成本收益未必能夠平衡。

當前，我們的體系中，經過生成式賦能的算法模塊，仍與大量判別式算法協同工作。生成式模型在創新場景中具備獨特優勢，能夠帶來全新思路；而判別式模型經過十余年迭代，在精準點值預估與規則化預估方面已形成成熟可靠的能力。

會議推薦

測完 MBTI，快來解鎖技術人專屬 AITI ！前沿探索家、大模型工程師、Agent 實戰拆解師、行業賦能師… 你是哪一種？6.26-27 # AICon 上海站等你面基同頻人！世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構等 14 大專題全面開啟，誠摯邀請你登臺分享實戰經驗。AICon 2026，期待與你同行。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.