網易首頁 > 網易號 > 正文申請入駐

GIM和港大這篇ACL主會，把量化因子挖掘重做了一遍

2026-05-05 14:21:56　來源: 機器之心Pro

河北舉報

分享至

如果把量化投資里最難的一件事挑出來，很多人都會指向同一個詞：Alpha。

說白了，就是那些能提前告訴你"這只股票后面大概率怎么走"的有效信號。

問題也恰恰出在這里。市場噪聲太大，數據維度太高，真正有用的信號又少得可憐。人手搓因子，慢；遺傳編程容易在局部打轉，產出一堆長得差不多、經濟意義也不強的東西；深度學習雖然猛，但很多時候你知道它有效，卻說不清它為什么有效，換個市場、換個周期，就不一定穩了。

現在，一篇來自香港大學和 Grace Investment Machine（GIM）的工作想把這件事換個做法。

他們做了一個叫 CogAlpha 的框架，入選 ACL 2026 推薦 Oral。

一句話概括：不再讓大模型只當"寫公式的助手"，而是把它當成會分工、會反思、會迭代、還會自己改代碼的研究員團隊，去自動挖掘 Alpha。

在來自中美港三個市場的 5 個數據集上，這套方法穩定跑贏了 21 個基線方法。主實驗 CSI300、10 天預測任務上，年化超額收益達到 16.39%，信息比率1.8999。

這事有點意思了。

論文標題：
Cognitive Alpha Mining via LLM-Driven Code-Based Evolution
論文作者：
Fengyuan Liu, Yi Huang, Sichun Luo, Yuqi Wang, Yazheng Yang, Xinye Li, Zefa Hu, Junlan Feng, Qi Liu, Grace Investment Machine
論文鏈接：
https://arxiv.org/abs/2511.18850

這篇論文到底做了什么？

CogAlpha 的第一個關鍵變化，是把 Alpha 從"公式"升級成了"代碼"。

這不是小改動。用公式表達因子，表達能力受限。一旦換成 Python 代碼，因子的搜索空間會一下被打開——大模型不再只是吐一個數學表達式，而是能寫出帶注釋、帶邏輯、能執行、能檢查的候選因子程序。

然后，作者又在這個基礎上，給大模型搭了一個"研究組織架構"。

整個系統里最抓眼球的部分，是一個7 層、21 個智能體的探索體系。這 7 層不是隨便分的，而是按量化研究的思考方式，從宏觀到微觀一路拆下去：

第 1 層看市場結構與周期，比如長期趨勢和階段切換；
第 2 層盯極端風險和脆弱性，比如尾部風險和崩盤前兆；
第 3 層研究價量關系，流動性、買賣失衡；
第 4 層看趨勢延續、短期反轉、波動聚集；
第 5 層處理多尺度復雜性，比如回撤結構和分形粗糙度；
第 6 層做穩定性和狀態門控，讓信號按不同市場狀態決定要不要激活；
第 7 層負責幾何特征和融合，K 線形態、多因子合成、非線性改寫。

你可以把它理解成：不是讓一個大模型悶頭想因子，而是讓一整個分工明確的研究團隊，同時從不同角度去挖。

它不是生成一次就完了，而是會"進化"

這篇論文最像人類研究流程的地方，不在生成，而在后面那套迭代機制。

CogAlpha 走了一條很像研究員反復打磨的路徑：先生成一批候選 Alpha，再檢查代碼能不能跑、邏輯有沒有問題，然后用 IC、RankIC、ICIR、RankICIR 和互信息 MI 五個指標做篩選，接著把好的候選拿去做變異、交叉和進化，最后不斷迭代，把差的淘汰，把更有潛力的留下來。

篩選分兩檔：超過同代 65 分位的算合格因子，超過 80 分位的算精英，后者進入下一輪演化。

為了防止系統越來越保守、最后只會圍著幾個套路打轉，作者還設計了多樣化提示策略：輕度改寫保證穩定，中度改寫引入自然變體，創造性改寫則鼓勵模型從不同研究角度重新理解同一個方向。

這個設計很關鍵。Alpha 挖掘最怕的，不是找不到一個好因子，而是老在同一類因子里繞圈。

結果有多強？消融實驗說得很清楚

論文最硬的一組結果，來自 CSI300 成分股、10 天預測任務。

在這里，CogAlpha 相比 21 個基線方法拿到了最好的整體表現。

換句話說，CogAlpha 在這項核心實驗里，年化超額收益大約翻倍，IR 也明顯拉開。

值得一提的是，論文里有個不符合直覺的發現：閉源模型并沒有天然更強，推理型模型表現甚至偏弱。Alpha 挖掘不是單純比"誰更聰明"，而是比誰的結構更適合探索、篩選和演化。真正拉開差距的，是這套認知式工作流本身，而不是底層模型的能力上限。

可解釋性，量化圈真正在意的

量化圈一個老問題是：很多因子能跑，但解釋不清。

CogAlpha 生成的每個 Alpha 不只是一個數字結果，而是附帶詳細注釋、完整代碼實現，解釋這個因子的邏輯和想法。論文展示的一個例子，是用"價格上行幅度除以成交量"衡量流動性沖擊——如果股票價格沖得快但成交量并不大，意味著流動性很薄、價格沖擊更大，短期收益也許更值得關注。

不復雜，但講得通。

對機構來說，這點很重要。真正能進研究流程、進交易流程的，不只是高分因子，而是能被理解、能被復核、能被追責的因子。

這篇 ACL，真正有價值的地方是什么？

如果只把它理解成"又一篇用大模型做量化的論文"，有點低估它了。

這篇工作更大的價值，可能在于它給出了一種新范式：讓大模型不只是生成內容，而是參與研究流程本身；不只是給答案，而是組織探索、篩選、反思和進化。

放在量化里，這叫自動化 Alpha 發現。再往外看，更像一種 Agentic Research 的落地案例——把研究任務拆成層級化認知單元，給每個單元設定職責，再讓系統通過反饋做持續演化。

如果這套方法能在 Alpha 挖掘里成立，那別的高噪聲、低信號、需要創造性探索的研究任務，是不是也可以這么干？材料發現、策略生成、實驗設計、復雜工業優化，這個問題值得繼續看。

當然，作者自己也寫得比較克制：回測全在 Qlib 框架里完成，和真實交易環境還有距離；LLM 輸出有隨機性，數據規模越大執行時間越長。CogAlpha 現在更像一個很強的研究引擎，而不是能無腦接到交易端的即插即用系統。

但這不妨礙它的重要性。很多真正改變行業的東西，第一步都不是立刻商用，而是先證明一件此前沒人證明清楚的事：

原來這條路，真的走得通。

量化投資過去幾十年，一直在和同一個問題纏斗：怎么在充滿噪聲的市場里，持續找到新信號。現在，大模型以另一種身份加入了這場游戲——不是聊天機器人，也不是寫摘要的工具，而是一個會分工、會寫代碼、會自查、會進化的研究系統。

CogAlpha 讓人第一次比較具體地看到：AI 也許真的可以參與"發現"本身，而不只是參與"表達"與"執行"。

About GIM

在 GIM（Grace Investment Machine）我們相信，AI技術正處在在重塑資本市場的關鍵節點。因此，我們致力于融合最前沿的AI與大模型技術，打造新一代智能投資范式——不僅是量化方法的升級，更是投資決策邏輯的重構。

我們希望通過智能分析師與交易系統，將金融市場洞察與執行效率提升至全新量級。我們核心團隊來自全球頂尖對沖基金、DeepMind、Meta、Anthropic 等前沿AI實驗室，以及牛津、清華、北大、港大等知名高校。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.