![]()
系列簡介
這是我們一系列原創技術貼,從易到難,每天學習一點。所有內容均為疾控數據分析、科研論文相關,或者說很多和現在的熱門監測預警相關,所以我們這個系列就叫“監測預警基礎”。
今天是第22節,在前面兩節Serfling回歸的基礎上,講一講更為常用實用的調整Serfling回歸。
我們上一節講完Serfling回歸模型之后,
大家是不是覺得很簡單,豁然開朗。
但最后我們又講了傳統Serfling回歸模型的那么多缺陷,你是不是又有些垂頭喪氣呢?
![]()
好不容易學會了一種方法,居然有這么多缺點,到底還能不能用?
答案是,當然可以。
傳統Serfling回歸模型我們講了這幾節,不是白講的,就是為今天打基礎。
傳統Serfling回歸模型有那么多的缺陷,那就會出來高人將其完善,或者叫調整,這就是我們今天要講的調整Serfling回歸模型。
![]()
核心理念:從“主觀剔除”到“客觀篩選”
傳統方法的矛盾在于:要建立一個純凈的“正常”基線,就得先知道哪些是“異常”的流行期數據;而判斷“異常”的依據,又恰恰依賴于一個尚未建立的“正常”基線。這形成了一個循環,使得剔除過程非常主觀,嚴重依賴分析者的經驗。
調整模型的智慧在于,它不再要求我們“事先”知道答案,而是讓數據通過迭代計算,自動告訴我們最優的基線在哪里。其核心思想是:“正常”的數據點,應該能被模型很好地擬合;而“異常”的流行點,本身就是模型的“噪聲”或“離群值”。
![]()
整個過程就像是一個不斷自我優化的算法,其流程圖和步驟如下:
第一步:首次嘗試,建立基準
不對數據做任何主觀剔除,使用全部歷史數據進行第一次Serfling回歸擬合。這會得到一個初始模型(Model 1),計算其擬合優度R?2,并得到每個時間點的預測值 ?。
關鍵操作:比較每個點的實際值Y和預測值?。只保留那些 Y < ? 的數據點。這些點可以理解為模型“預測得比較準、甚至高估了”的點,它們更可能代表“非流行”的基線狀態。而Y > ?的點,是模型低估的點,很可能就是流行期的異常高點。
第二步:模型競賽,擇優錄用
用上一步篩選出的“較正常”數據,擬合第二個模型(Model 2),得到R?2。
現在的核心判決就是比較R?2和R?2。
如果 R?2 > R?2:這說明把那些“異常高點”留在數據集里,反而讓模型整體的解釋力更高。這可能意味著疾病的“正常”水平本身就包含了一定的波動,或者所謂的“異常”并不極端。此時,選擇第一個模型(用全數據擬合的)作為最終模型,預警閾值就直接用其預測值?。當實際值Y超過預測值?時,發出預警。
如果 R?2 < R?2:這說明剔除一批高值點后,模型對剩余數據的擬合更好了,驗證了我們“存在異常點”的猜想。但剔除得是否足夠“干凈”呢?需要進入迭代優化循環。
第三步:迭代優化,逼近最優基線
進入一個循環,目標是找到R2最高的模型。從第二輪開始,篩選標準變得更嚴格:不再與預測值?比較,而是與預測值的95%置信區間上限??比較。這是一個更寬、更保守的邊界。
循環操作:在上一輪模型的基礎上,只保留 Y < 上一輪模型的95%置信上限?? 的數據點,然后用這批“更加純凈”的數據擬合新模型。比較新舊模型的R2。
循環終止條件:當最新一次擬合的R2不再提高(即低于或等于前一次模型的R2)時,循環停止。選擇R2達到最高的那個模型作為最終模型,并以該模型對應的95%置信上限??作為正式的預警閾值。
這個過程可以簡單用下面的流程圖理解。
![]()
![]()
1.客觀自動化,可重復性強:整個過程中,哪些點被定義為“流行期”數據,是由模型根據R2比較的客觀標準自動篩選的,避免了人為劃定流行期的主觀偏差。任何人用同一套數據、同一個程序,都會得到完全相同的結果。
2.動態確定閾值,邏輯更嚴謹:最終預警閾值(可能是預測值?,也可能是其95%置信上限??)是根據模型競賽結果動態決定的,與所選定的最優基線模型嚴格匹配,邏輯上自洽。
3.提升預警性能:通過這種方法找到的基線,能更純粹地反映疾病的“背景水平”,因此在此基礎上設置的預警閾值通常能更早、更靈敏地捕捉到真正的流行起始,同時保持良好的特異性。
4.應對復雜情況:當疾病的流行季節發生偏移或病原體變異導致模式改變時,這種數據驅動的方法比“固定剔除每年第X-X周”的傳統方法更具適應性。
總結來說,調整Serfling回歸模型的核心貢獻,是將基線構建從一個依賴先驗知識的、主觀的“預處理步驟”,轉變為一個內生于模型擬合過程的、客觀的“優化算法”。它代表著建模思想從“人告訴機器規律是什么”到“讓機器從數據中發現最優規律”的重要進步。
![]()
![]()
編輯:普通疾控人 | 審核:詩酒趁年華
文章來源 | 原創
說明 | 轉載只為分享,如有侵權聯系刪除
?版權聲明 | 部分信息和圖片來自公開網絡
轉載請注明
再次轉載請注明出處
![]()
科普健康 | 宣傳疾控
本號為多位疾控機構從業者運營
重點關注國內外健康事件
致力于疾控科普
在做好科普服務大眾的同時
做好疾控機構的宣傳
讓更多的人了解疾控,擁抱健康
歡迎加「小編」微信(cdcjkr126com)
本文具體說明
本文為原創內容,文章為個人理解所學,不涉及疫情信息及內部保密數據,發表的目的為自我總結及給有需求的人士學習使用。如有不妥之處,歡迎聯系小編修改、刪除。
更多精彩視頻,盡在“CDC疾控人”視頻號
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.