![]()
系列簡(jiǎn)介
這是我們一系列原創(chuàng)技術(shù)貼,從易到難,每天學(xué)習(xí)一點(diǎn)。所有內(nèi)容均為疾控?cái)?shù)據(jù)分析、科研論文相關(guān),或者說很多和現(xiàn)在的熱門監(jiān)測(cè)預(yù)警相關(guān),所以我們這個(gè)系列就叫“監(jiān)測(cè)預(yù)警基礎(chǔ)”。
今天是第21節(jié),這節(jié)課講一講Serfling回歸究竟如何操作,在此之前,我想給大家推薦一個(gè)視頻——黑龍江牡丹江疾控中心做的結(jié)核病宣傳視頻,采用魔術(shù)的方式科普結(jié)核病防控知識(shí),非常用心,很有創(chuàng)意,如果大家覺得不錯(cuò),歡迎轉(zhuǎn)發(fā)點(diǎn)贊!
好的,我們今天就逐步講一講Serfling回歸模型如何具體操作。
![]()
1.計(jì)算自變量
好的,假設(shè)我們有這樣一個(gè)數(shù)據(jù),是各月份某病病例數(shù)的數(shù)據(jù),這個(gè)病每年有一次大循環(huán),又有每半年一次的小循環(huán)。
所以我們需要算這樣6個(gè)自變量
![]()
2.根據(jù)公式直接計(jì)算
計(jì)算結(jié)果如下,病例數(shù)就是因變量,從t開始到cos2這6個(gè)變量就是自變量。
![]()
3.進(jìn)行回歸分析
如何操作我們之前專門分節(jié)說過,所以我們這個(gè)地方就直接看結(jié)果,結(jié)果的解讀我們之前也說過。
![]()
至此,我們就知道了各自變量的系數(shù)和常數(shù)項(xiàng),也就可以建立回歸方程了,建立回歸方程之后根據(jù)方程帶入t值,就可以算出每個(gè)時(shí)間點(diǎn)的預(yù)測(cè)值,然后作圖展示實(shí)際病例數(shù)和預(yù)測(cè)病例數(shù)歲時(shí)間的變化。
![]()
這就是Serfling回歸模型,在這種傳統(tǒng)的 Serfling 回歸模型中,算出來的預(yù)測(cè)值就是預(yù)警值,超過該值就可以認(rèn)為是流行或者說超額。
![]()
1.流行期剔除的主觀性與循環(huán)悖論——這是最根本、最棘手的缺陷。
由于引人了時(shí)間序號(hào)和三角函數(shù),Serfling模型可以有效模擬具有周期性特征的疾病流行曲線。在采用Serfling模型對(duì)疾病的流行起始進(jìn)行預(yù)警時(shí),為避免歷史數(shù)據(jù)中流行期的觀測(cè)值對(duì)流行起始預(yù)警閾值設(shè)置的影響,通常需要剔除流行期的觀測(cè)數(shù)據(jù),在剔除流行期內(nèi)的觀測(cè)值后,使用剩余的非流行期數(shù)據(jù)進(jìn)行Serfling模型擬合,建立基線。
但是如何剔除?一般人為直接剔除之后再進(jìn)行擬合,但這就需要定義流行期才能剔除,如何定義“流行期”?通常就是用“病例數(shù)顯著高于基線”來定義,這就形成了一個(gè)先有雞還是先有蛋的悖論。
或者主觀性剔除,但是這樣往往依賴分析者的主觀判斷(如“連續(xù)2個(gè)月超過基線2個(gè)標(biāo)準(zhǔn)差”),不同人處理可能得到不同的基線,影響結(jié)果的可比性和可重復(fù)性。
2. 基線對(duì)異常值的極度敏感
傳統(tǒng)方法(尤其早期用簡(jiǎn)單線性/多項(xiàng)式回歸時(shí))中,一個(gè)極端值就能顯著扭曲整條基線,即所謂的“高杠桿點(diǎn)”效應(yīng)。即使這個(gè)極端值被判定為“流行”并剔除,它在剔除前的第一次擬合中已經(jīng)扭曲了模型,影響了其他“正常”點(diǎn)的殘差,可能導(dǎo)致錯(cuò)誤的剔除/保留判斷。
3. 季節(jié)模式假設(shè)過于剛性
使用固定的傅里葉項(xiàng)(如sin(2πt/12) + cos(2πt/12))來擬合季節(jié)性,這隱含了一個(gè)強(qiáng)假設(shè):季節(jié)性波形每年都完全相同。
但實(shí)際上肯定不是這樣的,傳染病的季節(jié)性受氣候、人口流動(dòng)、干預(yù)措施等影響,其高峰時(shí)間、幅度、甚至波形都可能逐年變化。剛性模型無法捕捉這種時(shí)變的季節(jié)性,在異常季節(jié)轉(zhuǎn)換年份(如暖冬)表現(xiàn)不佳。
4.長期趨勢(shì)擬合能力不足
傳統(tǒng)上用一個(gè)簡(jiǎn)單的線性項(xiàng)或低階多項(xiàng)式來擬合長期趨勢(shì),這可能會(huì)出現(xiàn)過擬合與欠擬合,多項(xiàng)式階數(shù)選擇主觀。階數(shù)低了(如線性),可能無法捕捉復(fù)雜的趨勢(shì)變化(如發(fā)病率先升后降的“倒U型”);階數(shù)高了,模型會(huì)過度擬合隨機(jī)波動(dòng),導(dǎo)致基線不合理震蕩。
5.對(duì)未來的外推風(fēng)險(xiǎn)大
傳統(tǒng)Serfling模型用于預(yù)測(cè)時(shí),多項(xiàng)式趨勢(shì)會(huì)沿著設(shè)定的曲線無限上升或下降,這可能產(chǎn)生荒謬的長期預(yù)測(cè)(例如,預(yù)測(cè)未來20年后病例數(shù)為負(fù)數(shù))。
![]()
![]()
編輯:普通疾控人 | 審核:詩酒趁年華
文章來源 | 原創(chuàng)
說明 | 轉(zhuǎn)載只為分享,如有侵權(quán)聯(lián)系刪除
?版權(quán)聲明 | 部分信息和圖片來自公開網(wǎng)絡(luò)
轉(zhuǎn)載請(qǐng)注明
再次轉(zhuǎn)載請(qǐng)注明出處
![]()
科普健康 | 宣傳疾控
本號(hào)為多位疾控機(jī)構(gòu)從業(yè)者運(yùn)營
重點(diǎn)關(guān)注國內(nèi)外健康事件
致力于疾控科普
在做好科普服務(wù)大眾的同時(shí)
做好疾控機(jī)構(gòu)的宣傳
讓更多的人了解疾控,擁抱健康
歡迎加「小編」微信(cdcjkr126com)
本文具體說明
本文為原創(chuàng)內(nèi)容,文章為個(gè)人理解所學(xué),不涉及疫情信息及內(nèi)部保密數(shù)據(jù),發(fā)表的目的為自我總結(jié)及給有需求的人士學(xué)習(xí)使用。如有不妥之處,歡迎聯(lián)系小編修改、刪除。
更多精彩視頻,盡在“CDC疾控人”視頻號(hào)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.