![]()
系列簡介
這是我們一系列原創(chuàng)技術(shù)貼,從易到難,每天學習一點。所有內(nèi)容均為疾控數(shù)據(jù)分析、科研論文相關(guān),或者說很多和現(xiàn)在的熱門監(jiān)測預警相關(guān),所以我們這個系列就叫“監(jiān)測預警基礎”。
今天是第18節(jié),接下來兩節(jié)都是講一講回歸的原理和基本操作,其實主要目的是為后面的內(nèi)容做一個基本的鋪墊。
好的,在繼續(xù)后面的內(nèi)容之前,我們先來簡單講一講回歸,什么是回歸?什么是簡單線性回歸和多元回歸?
當然,我們主要講這些內(nèi)容是為了我們后面幾節(jié)的Serfling回歸模型進行一些鋪墊,回歸這個內(nèi)容本身有很多可以講的,如果需要,后面也會專門分幾期講一講。
![]()
“回歸(regression)”不是現(xiàn)代統(tǒng)計學家發(fā)明的名詞,而是英國統(tǒng)計學家Francis Galton(高爾頓) 在1886年提出的。他研究的是一個非常樸素的問題:父母的身高與孩子的身高之間,是否存在某種可預測的關(guān)系?
弗朗西斯·高爾頓(Francis Galton,1822—1911),是19世紀典型的“百科全書式科學家”,在統(tǒng)計學、遺傳學、心理測量學和地理探索等多個領(lǐng)域都留下了奠基性貢獻。他提出了“回歸”(regression)和“相關(guān)”(correlation)等統(tǒng)計學核心概念,引入四分位距、散點圖等基礎工具,并推動了現(xiàn)代統(tǒng)計方法的系統(tǒng)化發(fā)展。他一生發(fā)表了300多篇論文和15本書,橫跨多個學科。
高爾頓同時也是查爾斯·達爾文的表弟,其母親是達爾文的親姑姑。深受達爾文進化論思想影響,高爾頓嘗試將“遺傳”和“變異”的概念數(shù)學化,進而推動了數(shù)量遺傳學與早期心理測量方法的發(fā)展。可以說,他在統(tǒng)計學上的創(chuàng)新,既源于對自然科學規(guī)律的敏銳觀察,也體現(xiàn)了達爾文思想在定量研究中的延伸。
“回歸”這個詞聽起來有點抽象,但其實它的核心思想很簡單:探究一個或多個因素如何影響某個我們關(guān)心的結(jié)果,并利用這種關(guān)系進行預測。
1.類比
就像我們根據(jù)一個人的“受教育年限”、“工作經(jīng)驗”來預測他的“收入”一樣。在衛(wèi)生領(lǐng)域,我們可能根據(jù)一個人的“年齡”、“吸煙史”、“膽固醇水平”來預測其“患心臟病的風險”。
2.回歸的核心目的包括
第一,解釋:確定哪些因素(自變量)與結(jié)局(因變量)有關(guān),以及影響的方向和大小。
第二,預測:建立一個數(shù)學公式(回歸方程),用已知的自變量來預測未知的因變量。
第三,控制:在多元回歸中,可以在“控制”其他因素的情況下,考察某個特定因素的“獨立”影響。
3.在回歸分析中,我們研究的就是因變量和自變量
因變量就是我們關(guān)心的結(jié)果指標,例如:血壓值、血糖值、住院天數(shù)、生存時間。
自變量就是可能影響結(jié)果的因素,例如:年齡、性別、藥物劑量、是否吸煙。
4.總體回歸的基本形式是
這不是一條數(shù)學上的精確直線,而是一個概率關(guān)系。
它表示在真實世界中,Y 的平均變化趨勢可以用 β? + β? X 描述,而所有無法完全解釋的部分被放入誤差項 ε。
也就是說β? 描述的是“平均規(guī)律”,不是“每個人的規(guī)律”,ε 則包含了所有“我們無法觀測或無法解釋的東西”
在現(xiàn)實世界中收入不僅受教育影響,還受家庭背景、行業(yè)、城市發(fā)展水平、能力等影響;銷量不僅受廣告影響,還受競爭、季節(jié)、價格變化影響;健康不僅受空氣污染影響,還受生活習慣、基因差異、醫(yī)療資源影響
這些復雜因素不可能全部進入模型,因此:
總體回歸方程是一個“平均規(guī)律 + 不可控擾動”的組合。
![]()
1. 簡單線性回歸
定義:研究一個連續(xù)型自變量與一個連續(xù)型因變量之間線性關(guān)系的方法。
模型:
Y = β? + β?X + εY: 因變量X: 自變量β?: 截距(當X=0時Y的平均值)β?:回歸系數(shù),是核心!表示X每增加1個單位,Y平均變化β?個單位。ε: 隨機誤差
結(jié)果解讀:
回歸系數(shù) β?: 有統(tǒng)計學意義(p<0.05)時,說明X對Y的影響顯著。
決定系數(shù) R2: 表示X能解釋Y變異的百分比。R2越大(越接近1),模型擬合越好。
例子:探究“每日運動時間(X)”對“空腹血糖值(Y)”的影響。
2. 多元線性回歸
定義:研究多個自變量與一個連續(xù)型因變量之間線性關(guān)系的方法。這是衛(wèi)生研究中更常用、更貼近現(xiàn)實的分析工具。
模型:
Y = β? + β?X? + β?X? + ... + β?X? + ε核心優(yōu)勢:
控制混雜因素: 可以同時將多個可能的影響因素放入模型,從而考察在“固定其他變量不變”的情況下,某個特定自變量的“凈效應”。這是其最重要的價值!
例子: 在探究“吸煙(X?)”對“肺癌風險(Y)”的影響時,我們必須把“年齡(X?)”和“職業(yè)粉塵暴露(X?)”也放入模型,否則“吸煙”的效應可能會被這些混雜因素夸大或掩蓋。
結(jié)果解讀:
偏回歸系數(shù): 每個自變量的系數(shù)(如β?),表示在控制其他所有自變量的情況下,該自變量對Y的獨立影響。
調(diào)整后的R2: 比簡單R2更穩(wěn)定,表示所有自變量共同能解釋Y變異的百分比。
![]()
![]()
編輯:普通疾控人 | 審核:詩酒趁年華
文章來源 | 原創(chuàng)
說明 | 轉(zhuǎn)載只為分享,如有侵權(quán)聯(lián)系刪除
?版權(quán)聲明 | 部分信息和圖片來自公開網(wǎng)絡
轉(zhuǎn)載請注明
再次轉(zhuǎn)載請注明出處
![]()
科普健康 | 宣傳疾控
本號為多位疾控機構(gòu)從業(yè)者運營
重點關(guān)注國內(nèi)外健康事件
致力于疾控科普
在做好科普服務大眾的同時
做好疾控機構(gòu)的宣傳
讓更多的人了解疾控,擁抱健康
歡迎加「小編」微信(cdcjkr126com)
本文具體說明
本文為原創(chuàng)內(nèi)容,文章為個人理解所學,不涉及疫情信息及內(nèi)部保密數(shù)據(jù),發(fā)表的目的為自我總結(jié)及給有需求的人士學習使用。如有不妥之處,歡迎聯(lián)系小編修改、刪除。
更多精彩視頻,盡在“CDC疾控人”視頻號
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.