網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

三個臭皮匠頂個諸葛亮？機器學(xué)習(xí)里的"打群架"藝術(shù)

2026-05-01 20:59:06　來源: 薛定諤的BUG

北京舉報

分享至

導(dǎo)讀：單個模型再聰明也會犯傻，但一群"笨蛋"模型湊在一起，反而能做出更靠譜的決策。這不是玄學(xué)，是統(tǒng)計學(xué)。

一、為什么你的模型總在關(guān)鍵時刻掉鏈子

做算法的都懂這種痛：訓(xùn)練集上準(zhǔn)確率98%，上線后跌到60%。模型過擬合了——它把訓(xùn)練數(shù)據(jù)的噪聲當(dāng)成規(guī)律死記硬背，遇到新數(shù)據(jù)就懵圈。

另一個極端是欠擬合，模型太簡單，根本抓不住數(shù)據(jù)里的真實模式。就像用直線去擬合拋物線，再怎么調(diào)參數(shù)也白搭。

集成學(xué)習(xí)（Ensemble Learning）的思路很粗暴：既然一個模型靠不住，那就多訓(xùn)幾個，讓它們投票表決。每個單獨模型都是"弱學(xué)習(xí)器"，但組合起來就成了"強學(xué)習(xí)器"。

原文給的定義很精準(zhǔn)：集成學(xué)習(xí)整合多個模型來提升準(zhǔn)確率、降低方差、消除過擬合。三個目標(biāo)，一套打法。

二、Bagging：讓模型"各看各的數(shù)據(jù)"

Bagging全稱Bootstrap Aggregating，核心操作分兩步：自助采樣（Bootstrapping）+ 聚合（Aggregating）。

自助采樣是個統(tǒng)計老手藝：從原始數(shù)據(jù)里有放回地隨機抽取，生成多個子數(shù)據(jù)集。同一個樣本可能被抽中多次，也可能一次都沒被抽中。原文特別強調(diào)"with replacement"——有放回，這是關(guān)鍵。

每個子數(shù)據(jù)集訓(xùn)練一個獨立的基模型。這些模型互不影響，并行訓(xùn)練，最后把它們的預(yù)測結(jié)果匯總。分類任務(wù)通常投票表決，回歸任務(wù)取平均值。

這樣做的好處很明顯：單個模型看到的只是數(shù)據(jù)的一部分，自然不容易過擬合；多個模型的隨機誤差相互抵消，整體方差就降下來了。

三、代碼實戰(zhàn)：隨機森林的完整流水線

原文用鳶尾花數(shù)據(jù)集（Iris）演示了隨機森林的完整流程。這個數(shù)據(jù)集是機器學(xué)習(xí)界的"Hello World"，150條記錄，4個特征，3個類別。

數(shù)據(jù)加載環(huán)節(jié)：

從sklearn.datasets導(dǎo)入load_iris，直接調(diào)用就能拿到干凈的數(shù)據(jù)。不需要自己處理缺失值、做編碼，適合專注理解算法本身。

數(shù)據(jù)分割環(huán)節(jié)：

用train_test_split按8:2切分訓(xùn)練集和測試集，random_state=42保證結(jié)果可復(fù)現(xiàn)。test_size=0.2是常見比例，既保留足夠訓(xùn)練樣本，又能有效檢驗泛化能力。

模型訓(xùn)練環(huán)節(jié)：

RandomForestClassifier的參數(shù)值得細(xì)品。n_estimators=100表示造100棵決策樹，這是集成規(guī)模；max_depth=5限制樹的深度，防止單棵樹過擬合；random_state=42再次鎖定隨機性。

預(yù)測評估環(huán)節(jié)：

原文同時打印訓(xùn)練準(zhǔn)確率和測試準(zhǔn)確率。如果訓(xùn)練很高、測試很低，說明過擬合；如果兩者都低，說明欠擬合；理想情況是兩者接近且都處于較高水平。

四、決策樹的兩種命運：放縱 vs 約束

原文用對比實驗展示了單棵決策樹的脆弱性。

無約束樹（unconstrained tree）：

不限制max_depth，決策樹會瘋狂生長，直到每個葉子節(jié)點只剩一個樣本。訓(xùn)練集上擬合得天衣無縫，但泛化能力極差——這就是典型的過擬合。

約束樹（constrained tree）：

max_depth=3強行限制樹的高度，模型被迫學(xué)習(xí)更通用的分裂規(guī)則。雖然訓(xùn)練準(zhǔn)確率下降，但測試準(zhǔn)確率更穩(wěn)定，實際業(yè)務(wù)價值更高。

隨機森林的聰明之處在于：單棵樹可以適度過擬合，因為Bagging的聚合機制會把這些"個性"平滑掉。100棵各有過擬合傾向的樹，投票結(jié)果反而穩(wěn)健。

五、從代碼看工程思維

原文的代碼結(jié)構(gòu)透露了幾個實用習(xí)慣：

隨機狀態(tài)固定化——所有涉及隨機的地方都設(shè)random_state=42，確保同事復(fù)現(xiàn)你的結(jié)果時不會抓狂。

分層驗證意識——同時看訓(xùn)練和測試指標(biāo)，而不是只盯著一個數(shù)字自我陶醉。

漸進式復(fù)雜度——先跑通隨機森林，再對比單棵樹的兩種形態(tài)，由整體到局部，理解更透徹。

這些細(xì)節(jié)不 glamorous，但決定了你的代碼是玩具還是生產(chǎn)級。

六、什么時候該用集成學(xué)習(xí)

不是萬能藥。數(shù)據(jù)量太小的時候，Bagging采不出足夠多的差異性子集，集成效果有限。特征維度太低，模型之間容易高度相關(guān)，誤差無法有效抵消。

但遇到這些情況可以優(yōu)先考慮：數(shù)據(jù)噪聲較大、單一模型不穩(wěn)定、對預(yù)測穩(wěn)定性要求高、有充足的計算資源并行訓(xùn)練。

隨機森林在表格數(shù)據(jù)上至今仍是baseline利器。XGBoost、LightGBM這些梯度提升框架，本質(zhì)上也是集成思想的進化版——只不過從并行Bagging轉(zhuǎn)向了串行Boosting，讓后面的模型專門學(xué)習(xí)前面模型的錯誤。

行動號召

打開你的Jupyter Notebook，把正在用的單模型換成RandomForestClassifier，調(diào)一調(diào)n_estimators和max_depth，看看測試集上的波動是不是變小了。集成學(xué)習(xí)的門檻不高，但收益實實在在——畢竟，連模型都知道要"群策群力"，我們寫代碼的憑什么單打獨斗？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.