![]()
![]()
馬文
南京大學
新聞傳播學院
助理研究員
![]()
陳云松
南京大學
社會學院
教授
重返描述:定量研究中的數據深描
來源 | 《社會學研究》2026年第2期
作者 | 馬文、陳云松
責任編輯 |趙夢瑤
在定量研究中,描述因缺乏解釋能力被逐漸邊緣化,而數智技術的發展為其重返研究核心提供了新的可能。本文提出不同于回歸模型假設檢驗的“數據深描”方法,旨在運用多模態數據和算法技術,對社會現象及過程的時空結構和潛在關系進行清晰呈現。數據深描通過可視化結構展示、數智化指標測量、局部描述關聯累積與算法模型因果預示,分別形成關于結構感知的“景深”、概念指標的“進深”、關聯呈現的“層深”與潛在因果的“縱深”,從而為定量研究從描述性理解向解釋性理解的轉變搭建橋梁,也體現了構建中國自主知識體系的方法自覺。
一、引言
在社會科學實證研究中,描述是一種不可或缺的研究方法。它主要通過展陳和敘述實證材料中的具象信息,形成對研究對象的全面深入認知。描述所呈現的社會現象和過程,有助于我們理解世界的異質特征與發展規律。根據社會科學的傳統,定量描述被視為一種通過展示數據樣本分布來歸納結論的方法,區別于推論統計和因果分析等推理路徑。例如,《牛津社會學詞典》將定量描述中的描述性統計定義為“描述變量以及變量關系的強度和性質”(Scott,2014:726),即旨在基于樣本分析,概括變量及其關系的特征。
自定量研究方法興起以來,變量特征的描繪與變量關系的理解始終是社會科學研究的核心。在其發展早期,描述曾兼具變量特征刻畫與變量關系理解的雙重功能。隨著多元回歸模型和高級計量方法的發展與成熟,當代定量研究主要致力于厘清變量間的“凈關聯”“凈效應”,以及更嚴格的因果關系識別。由此,定量研究中的描述與解釋在功能和載體上日漸分化。描述一般只限于展示核心變量的關鍵統計量,成為變量關聯分析或因果推斷的前置步驟,其對于理論生成和假說檢驗的學術價值在很大程度上被削弱。這種“因果識別為要,特征描述為輔”的研究模式,已成為近半個世紀以來定量研究的標準化流程。
針對描述在當代社會科學定量研究中的價值和定位,諸多學者進行了持續反思。例如,戈德索普(John H. Goldthorpe)認為,描述性統計方法對變量特征與結構模式的揭示,仍是開展因果分析的前提(Goldthorpe,2001);拉圖爾(Bruno Latour)則強調社會科學的描述需借助類似自然科學的技術實踐來生成可見性(Latour,2005:136);薩維奇(Mike Savage)指出,對大規模數據進行特征與相關關系描述,具有催生新發現的強大潛力(Savage,2024)。這些持有“描述轉向”立場的學者主張,研究者應更重視統計特征值與可視化圖表,從而推動研究從“什么正在發生”向“為什么會發生”深入。然而,現有討論仍多圍繞調查數據中的變量取值及其分布展開,此類描述在理解能力上仍被認為不及因果推斷等解釋方法(Crompton,2008;Gane,2020)。
定量描述在當代社會科學中的定位局限,也與數據條件與分析方法密切相關。根據韋伯對社會學理解的類型劃分,定量研究中的因果分析方法屬于典型的“解釋性理解”,而描述方法則對應“直接觀察性理解”(Weber,1978:8),即后人概括的“描述性理解”(Scott,2014:368-369)。在傳統的定量研究模式下,定量描述往往停留在對統計量的表層概括,難以觸及變量之間的結構性關聯及其因果生成機制。隨著數智時代的到來,特別是機器學習、人工智能等計算技術的發展,研究者得以在多模態、大規模數據中系統呈現社會現象的時空結構,并識別具有穩定性的潛在關系,使描述不再僅僅是經驗背景的鋪陳,而是為理解社會過程“如何發生”提供關鍵線索。因此,數智賦能有望突破當代定量描述的瓶頸,推動描述方法重返定量研究的核心,并重塑其在知識生產體系中的地位。所謂“重返”,既意味著讓韋伯所界定的描述性理解重返定量研究的核心,也旨在探索描述對解釋性理解的貢獻,從而再現其在定量社會學發展早期的活力。
本文將這類方法稱為“數據深描”(deep description)。數據深描通過四種描述進路深化描述性理解,并為通向解釋性理解搭建方法橋梁——借助可視化描述增強結構感知的“景深”,通過數智方法拓展概念指標的“進深”,依托局部描述累積發現總體穩定關系的“層深”,運用算法模型預示潛在因果線索的“縱深”。在構建中國社會學自主知識體系的過程中,該方法能夠很好地與中華文明五千多年的深厚文脈相結合,與中國式現代化的宏偉進程相融匯,與中國超大規模社會中數智賦能的治理優勢相貫通,從而最大限度地發揮描述在知識創新、理論創新和方法創新方面的潛力,充分體現構建中國哲學社會科學自主知識體系的方法自覺(陳云松,2025)。
二、描述的學脈
在社會學的發展歷程中,描述方法尤其是定量描述方法,經歷了從繁榮到式微的變化。盡管學界始終存在重新界定描述方法功能的呼聲,但受限于數據形態與分析手段,將描述重新帶回定量研究核心位置的愿景始終未能實現。下文將對這一進程進行簡要的回顧。
(一)描述的早期應用
在社會科學發展的早期階段,研究者通常綜合運用觀察、訪談、統計等多種方法,對社會現象進行細致刻畫與理論提煉。尤其在19世紀下半葉,隨著眾多社會科學領域逐步建立為獨立學科,描述方法不僅作為實證研究的基礎工具,更成為社會科學理論體系的重要支撐。早期的描述研究多圍繞具體社會情境展開,通過對個案的深入剖析與經驗數據的整合歸納,推動社會科學從哲學思辨轉向經驗分析。在此期間,描述方法大致可分為兩類:一是側重經驗意義挖掘的定性方法,如人類學中的民族志,以及其他關注事件和行動的圖文呈現;二是側重于變量關系呈現的定量描述。在經典社會科學著作中,這兩類方法互為補充,共同塑造了社會科學理論知識的早期形態。
對于韋伯而言,“描述性理解”著眼于社會行為本身所呈現的直接意涵,而“解釋性理解”則通過將該行為置于更完整的意義與動機脈絡中,使其在具體情境中獲得可理解性(Weber,1978:8)。質性研究者始終高度重視理解社會行為背后的意義結構,甚至提出了“厚描”(thick description,又譯“濃描”)等概念(Geertz,1973),以突顯差異性和地方性在通過描述進行知識生產中的意義。雖然厚描仍屬于韋伯所說的直觀觀察或描述性理解,但它為從簡單描述走向解釋性理解建立了重要的中介路徑。
與定性描述類似,定量描述亦屬于描述性理解,只是更側重于通過系統化數據對社會現象及其過程中的指標和簡單關聯進行描繪。例如,涂爾干在《自殺論》中比較法國與其他歐洲國家的自殺率,以揭示不同自殺類型與社會整合程度(如婚姻、宗教)之間的系統關聯,從而呈現共變關系背后的社會機制(Durkheim,2005/1952)。又如芝加哥學派的帕克(Robert E. Park)和伯吉斯(Ernest W. Burgess)在《城市》(The City)中結合人口普查、地圖繪制與田野調查,繪制著名的“同心圓模型”,用來描述芝加哥城市擴張的結構分層及不同區域中群體互動關系的差異(Park & Burgess,2019/1925)。總體而言,在缺乏現代統計回歸與因果推斷工具的條件下,早期定量研究在通過展示變量的統計特征以實現描述性理解時,也在努力借助簡單的共變關系分析嘗試邁向解釋性理解。這一做法雖不夠嚴謹,但為定量研究的后續發展奠定了基礎。
定性描述與定量描述的理解取向,體現了研究者在精確性與廣泛性之間的權衡。定性描述往往將現象成因的探索嵌入“敘事”過程,注重對符號與語義系統的多層次闡釋,在理解個體行為意義與社會情境復雜互動的基礎上提煉概念、建構理論。然而,在形成宏觀普遍結論時,定性描述常需依賴推論,或承擔較高的調查成本。相比之下,定量描述通過“描述變量”對樣本特征及相關關系進行提綱挈領地刻畫,以期形成具有普遍適用性的解釋方案,在效率和可比性方面具有優勢,但過度簡化的數據形式也可能導致微觀經驗被忽視,從而削弱對社會現象復雜性的把握。更重要的是,若定量描述僅停留于特征和分布的靜態呈現,或局限于二元變量關系的簡單展示,往往難以揭示社會現象發生的機制邏輯,更難以支撐理論生成。正因如此,致力于實現解釋性理解的新型研究方法逐步超越了過去單純的數據描述路徑。
(二)定量描述的式微
為實現韋伯所倡導的解釋性理解,定量分析逐漸將重心轉向對因果機制的揭示。《美國社會學雜志》(American Journal of Sociology,以下簡稱AJS)在創刊時即指出,雖然社會學方法的第一步是描述性分析,但第二步因果分析更為重要、有趣且富有挑戰(Barringer et al.,2013)。19世紀末到20世紀初,受技術條件所限,研究者難以識別變量間的時序與機制,只能“退而求其次”地依賴簡單的變量描述和相關分析來把握社會現象。20世紀40年代以來,多元統計回歸模型的興起為社會學家在一定前提假設下進行因果識別提供了可能。定量研究者逐漸從描述性統計和二元相關分析,轉向利用多元回歸模型控制干擾因素、揭示關聯乃至因果關系,并進一步發展出諸多處理內生性問題的因果推斷方法(陳云松、范曉光,2010)。在此演進中,定量描述曾試圖承擔的解釋性理解功能迅速被日益發展的模型化因果分析所取代。
傳統定量描述之所以式微,根本原因在于其高度依賴極值、均值、標準誤等有限的統計特征值對變量屬性進行概括,難以深入揭示社會現象及其內在機制,因此被視為缺乏解釋力與理論啟發性。然而,描述方法本身并不等同于淺層的統計呈現。在定性研究傳統中,描述始終具備直接啟發理論的能力。韋伯提出的“理想類型”在邏輯上甚至近似于回歸模型的反事實思維:通過比較經驗中難以實現的理想建構(如“君子”)與實際觀察對象(如“普通讀書人”),提出“適當原因”概念,來說明特定條件如何提高某一結果相對于理想類型的發生概率(Weber,1951;Barringer et al.,2013)。不過,韋伯運用理想類型并非為了概率計算,而是借助這種理想化比較來揭示現象的意義邏輯,從而進入解釋層面。由此可見,在定性研究中,描述方法既是理論發現的起點,也是生成解釋的橋梁甚至“助產士”,始終居于研究方法的核心位置。與之形成對比的是,定量研究的發展過程實則導致了變量描述與機制解釋的逐漸分化。
定量研究對機制解釋的追求,大致經歷了從二元相關分析、多元回歸模型到因果推斷的演進過程。其中,基于多元回歸模型的關聯分析與基于高級計量模型的因果推斷,既是緊密相連,又代表著對因果關系的不同理解路徑,二者分別對應“穩健依賴”與“干預操控”(Goldthorpe,2001)。“穩健依賴”強調通過穩定的變量關系識別因果機制,代表性方法包括拉扎斯菲爾德(Paul F. Lazarsfeld)發展的通過變量控制提升因果推斷有效性的多元回歸(Lazarsfeld,1958),以及格蘭杰(Clive W. J. Granger)利用時間序列模型識別因果方向的探索(Granger,1969)。該路徑體現了驗證主義的基本立場:若某一關系在控制干擾變量后仍保持統計顯著,則可被視為“穩健因果”。然而,這類方法依賴對潛在干擾因素的充分識別與測量,在數據受限或理論尚未明晰時,往往難以深入把握因果過程,也無法真正解決內生性問題。相較之下,“干預操控”將因果視為條件干預所引發的結果變化(Holland,1986),代表著更為嚴格且被廣泛視為更重要的因果推斷路徑,其典型思路是魯賓(Donald B. Rubin)提出的反事實框架,通過比較現實中的結果與假設未發生干預的反事實結果來估計因果效應(Rubin,1974)。在實踐中,研究者依此發展出工具變量、赫克曼模型、自然實驗、斷點回歸、雙重差分、多重差分等一系列方法,以處理遺漏變量偏誤、自選擇偏誤和雙向因果等內生性問題(陳云松、范曉光,2010;謝宇,2024),從而逐步接近對解釋機制的完全認知。
盡管簡單關聯描述已不足以支持因果判斷,但因果推斷仍依賴對情境與制度環境的充分呈現,以此作為解釋線索(Goldthorpe,2001)。因此,描述方法并未被上述兩條路徑排斥。但是,在社會科學研究實踐中,解釋逐漸被收縮為“識別因果效應”的單一目標,而這一目標難以通過傳統定量描述實現,導致描述方法被逐漸邊緣化于因果推斷的核心環節之外。具體而言,在“穩健依賴”路徑中,由于數據覆蓋有限,研究者難以呈現所有可能影響結果的情境因素,也無法充分控制各類不可觀測變量,因此難以確定某一結果的穩健原因。在“干預操控”路徑中,與自然科學可以在實驗室中設定并細致描述干預條件不同,社會科學面對的是復雜且動態的社會系統,研究者既不能完全控制結果生成過程,亦難以有效比對現實觀察與反事實結果。在此背景下,關聯分析側重回歸模型設定和控制變量選取,因果推斷則致力于尋找外生沖擊,甚至開展實驗以識別“凈效應”,描述似乎日益淪為與解釋脫節的程式化步驟,其理論價值不斷被削弱。
(三)重啟定量描述的動因
因果推斷方法的成熟固然顯著提升了定量研究的解釋能力,但對描述的輕視也帶來新的局限:若固守程式化的因果識別路徑,定量研究可能弱化對新規律的敏銳捕捉、對深層結構特征的識別以及對理論創新的啟發作用。這種潛在的理論貧乏促使學界重新審視描述的價值。特別是,厚描方法在描述性理解與解釋性理解之間的橋梁作用啟示我們,定量描述完全有可能重返研究的核心,只要它能在因果推斷之前,為研究對象提供更清晰的結構刻畫與情境定位,或在傳統描述與因果解釋之間建立起更具建設性的連接。對結構和關聯的系統描述,雖不能替代解釋性理解,卻足以催生概念、啟發理論,佐證全局關聯甚至為因果推斷提供線索。
隨著描述對象在數據規模和類型上的持續擴張,以及描述方法本身的日益多元,定量描述的功能正迎來重新界定的契機。這一轉向主要源于三方面推動:方法論層面的持續反思、對定性研究的參考借鑒,以及數據資源和技術條件的不斷成熟。對定量描述的再次呼喚,有望推動社會科學在認識論層面實現更新,并促使研究者更積極地融合跨學科的方法與技術。由此,定量描述與因果分析或可超越長期以來“淺顯”與“深刻”的二元對立,走向并行協作的知識生產路徑。
首先是針對因果分析程式化的反思。越來越多社會科學家開始警惕因果分析實踐中的程式化傾向。受美國實證主義傳統影響,對自變量與因變量之間變量關系的強度與統計顯著性的檢驗日益成為定量研究的核心焦點,這可能導致社會科學對現實世界認知的滯后(Savage & Burrows,2007)。作為該體系的關鍵工具,因果分析技術雖提升了研究的科學性與規范性,卻也不可避免地簡化了事件生成過程、預設了理想社會環境;其技術復雜性甚至在某些語境下成為評判研究優劣的單一標準,從而抑制了新思想的涌現與傳播。在此背景下,學者重新發掘定量描述的潛力,嘗試借助更宏大的時空視野、更豐富的指標體系、更結構化的刻畫方式與更靈活的可視化工具,在既定因果識別框架之外開拓一條旨在發現新現象和揭示結構模式的知識生產路徑(陳云松,2022;Savage,2024)。
社會科學家也從社會科學各分支乃至自然科學的定量研究中汲取經驗,進一步反思描述在知識生產中的基礎作用。在社會科學的部分領域(尤其是在人口學)以及若干自然科學學科中,結構性與過程性描述往往占據核心位置,甚至直接構成研究的主要結論。例如,人口學通過對婚姻狀況、代際流動趨勢等現象的描述揭示中國社會結構的深層變遷(Xie et al.,2022);臨床醫學與護理學則借助病情發展的描述性分析追溯病因(Fisher & Marshall,2009)。受此類研究啟發,以戈德索普為代表的學者在“穩健依賴”和“干預操控”之外提出了“生成過程”的因果觀,強調應通過過程性與結構性的細致描繪來展現因果的運作邏輯,并指出任何單一因素均不足以完全決定結果,因而因果推斷必須建立在對各類潛在因素的全面考察之上(Goldthorpe,2001)。這一思路延續了涂爾干、韋伯、馬克思等經典社會理論家關于多重因果與辯證因果的思想傳統,使定量描述不僅成為界定因果可能性的重要條件,也因其對因果線索的系統梳理與識別,成為研究發現的關鍵來源。
其次是對定性研究方法的借鑒。人文學科中的定性研究方法為定量描述的深化提供了重要參照。如前所述,厚描強調在敘述性描述中展現行動背后多層嵌套的意義結構,幫助跨文化讀者理解文化實踐的象征邏輯與意義密碼。費孝通的“行行重行行”系列研究也表明,需通過跨地域材料的積累和情境的細致呈現,才能揭示隱藏在日常實踐背后的穩定意義線索(費孝通,2014)。與此呼應,賀雪峰(2014)提出的“飽和經驗法”主張不預設問題、反復進入現場、持續累積材料,在反復體察與修正中形成對經驗的整體把握。
無論是厚描的意義細讀,還是飽和經驗法對經驗質感的塑造,都表明描述具備剖析結構、呈現規律、催生理論的能力。特別是通過材料的持續積累、切分與比較,描述可使原本隱性的、局部的、個體層面的結構模式與意義邏輯逐漸顯現,并在此基礎上累積、躍遷,形成超越表面現象的理論生產邏輯和學術分析潛力。這一描述邏輯為定量描述的重構提供了重要啟示:一方面,可借助數據挖掘方法進行模式提取與結構識別,揭示數據內部潛藏的社會結構,從而拓展描述在結構層面的分析深度;另一方面,通過在不同樣本、層級、地域與文化情境中開展持續、局部的觀察與比較,使潛在關聯在多種經驗條件下反復呈現和累加,進而增強描述結果在整體層面的穩健性。這種穩健性雖不等同于因果,但往往能導向因果、助產理論。如果從這一角度拓展描述的維度,定量描述有望重新在知識生產中發揮核心作用。
最后是對新型數智資源的運用。數智時代社會數據的持續積累與算法技術的迅速發展,為定量描述方法的功能拓展提供了前所未有的支撐。隨著日常活動通過智能終端不斷被數字化,文本、圖像、音頻、視頻與空間軌跡等多模態信息得以持續積累,逐漸構成現實社會的“數字孿生”。定量描述得以在變量維度更高、觀察層級更豐富的數據環境中展開,從而顯著提升社會現象探索的深度并拓展其廣度。所謂“深度”,在此指從復雜的多模態數據中清晰呈現社會現象的時空結構及其潛在關聯,這接近胡塞爾(Edmund Husserl)的表述,即通過系統的方法操作,使原本被表層經驗遮蔽的結構逐步變得清晰可讀(Husserl,1970:32)。在方法層面,跨時間與跨區域的數據整合有助于更完整地呈現社會時空結構的長期變遷趨勢;同時,通過展示多維度指標之間的共變關系,能夠拓展對非線性或隱性關系等復雜關系形態的觀察視角,從而為描述性理解過渡到解釋性理解提供關鍵的經驗線索。所謂“廣度”,則指定量描述在社會現象類型上的覆蓋范圍與多樣程度。傳統問卷和實驗所獲數據往往體量有限、覆蓋面狹窄,難以觸及彌散性的文化議題。而互聯網平臺通過在線問卷和實驗顯著擴大了可觀測樣本規模,并持續產出網絡日志、交易記錄、社交媒體文本與傳感器軌跡等,全面記錄了數十億人跨越時空的社會交往實踐及其衍生的話語、觀念等文化建構。通過對多模態材料的持續積累與結構化分析,數據深描得以在更大尺度與更多維層面上呈現社會現象的時空結構與潛在關系,其能力突破了傳統描述性統計的局限。
三、數智時代的數據深描
在數智時代,信息載體與分析工具的全面更新,為描述在定量社會科學研究中的回歸提供了現實基礎。在此背景下,定量描述已不再停留于表層特征的簡單呈現,而是逐步發展為“數據深描”,進一步拓展了知識生成的路徑。下文將對數據深描進行概念化界定,從四個具體進路展開系統論述。
(一)數據深描的定義
本文以“數據深描”指代一類定量研究方法,這類方法運用多模態數據與智能算法等技術,對社會現象及其過程的時空結構與潛在關系進行清晰呈現。它秉承韋伯所界定的“描述性理解”傳統,研究目標并非傳統的假設檢驗,研究路徑也不依賴基于回歸模型的參數估計或基于高級計量方法的因果推斷。
參照《牛津社會學詞典》對“描述”的廣義界定,本文提出,數據深描包含以下四種研究進路:以可視化描述發現社會結構,通過直觀、豐富的視覺呈現,清晰揭示復雜密集數據中的整體格局與內部差異,增強結構感知的“景深”;以隱性變量描述構建新社會指標,將抽象社會現象轉化為可測量、可比較的分析對象,拓展概念測量的“進深”;以局部描述累積呈現穩定共變關系,在飽和材料中反復識別相關關系,通過從局部到總體的疊加,形成穩定關系的“層深”;以潛在因果描述啟發研究假設,運用算法模型梳理多變量關聯結構,勾勒可能的作用鏈條,為后續解釋提供“縱深”。為更清晰地闡明數據深描的定位,下文將其與三類傳統研究方法進行對比分析。
第一,與傳統以描述性統計方法為核心的定量描述相比,數據深描在數據來源與分析方式上均實現了顯著拓展。在數據層面,傳統定量描述主要依賴問卷調查與官方統計數據,數據的規模和類型較為有限;數據深描則整合調查數據與文本、圖像、音頻、視頻與空間軌跡等多模態信息,將描述對象所依托的材料從有限樣本擴展至規模更大、結構更復雜的數據,從而更全面地展現整體社會情境。在方法層面,傳統定量描述多集中于均值、比例、方差等統計特征的展示,難以系統反映多變量特征及其相互關系的整體結構;數據深描則進一步引入計算方法,對多模態數據中不同變量的結構特征與關聯模式進行系統性刻畫,尤其注重通過可視化增強結構表達的清晰度。
第二,與以厚描為代表的定性描述相比,數據深描與定性厚描在材料結構、分析邏輯與知識目的上存在本質區別。定性厚描以生活史、儀式、符號與地方知識等“文本”為基礎,致力于闡釋其背后的意義框架(Geertz,1973:6、452)。厚描之“厚度”源于對材料的逐層展開,指向行動者的意義世界,旨在生成解釋性理解。數據深描的材料則由大規模、多模態行為數據構成,其“深度”源自對數據結構的持續挖掘,包括特征維度拆解、結構模式提取等在內的直接服務于結構呈現的數據分析方法,仍屬于描述性理解的范疇。盡管數據深描通過局部描述累積識別全局層面穩定關聯這一進路,與厚描在方法邏輯上有一定相通之處,但其研究重心在于整體呈現社會現象及其過程的時空結構與相關關系,并不涉及對因果機制的探討。數據深描因此形成了一條與厚描并行的知識探索路徑。
第三,與以回歸模型為代表的因果分析相比,數據深描并不以因果效應的解釋與驗證為目標,而是通過對結構與關聯的系統呈現,探索并提示可能的關聯與因果路徑。例如,數據深描可基于算法模型(Breiman,2001),在不預設變量關系的前提下,比較變量的預測貢獻及其交互結構,從而推測因果的可能線索。尤其在可解釋性機器學習的輔助下,研究者能夠直觀把握各變量在預測結構中的相對位置與作用方式,進而生成具有解釋潛力的假設。數據深描并不從屬于因果分析,也不旨在取代因果分析,其所揭示的穩定關系結構,既可獨立作為研究結論,又能為后續的因果識別提供探索性基礎,從而在通往解釋性理解的研究進程中發揮重要的橋梁作用。
(二)數據深描的進路
在闡明數據深描的概念內涵后,本文將從其功能深化的不同維度出發,系統闡述四種研究進路。這四種進路均屬于描述性理解范疇,前兩者側重于結構呈現,后兩者則導向因果線索的發現,共同構成一個遞進的連續體。四種進路共同拓展了定量描述的功能,旨在提升對復雜社會現象的表達深度與解釋潛力。本文通過梳理中外相關研究,分別說明各進路的應用形態,以此呈現數據深描在社會科學知識發現中所具備的方法價值。
1.以可視化方式展陳社會結構
可視化方法通過直觀且富有美感的表達方式,在有限的視覺空間中整合多維信息,增強定量描述對社會現象結構層級與時空分布的呈現能力,從而提升對社會結構感知的“景深”。當圖像的尺寸、顏色、形狀與數據分布形成協調的視覺對應時,科學發現的表達將更為鮮明生動。相較于以觀察記錄為核心的自然科學,社會科學中的可視化多用于整理統計結果與輔助理解復雜模型。盡管密度圖、等值線圖、箱型圖等較復雜的圖表形式已得到應用,但模型結果仍常以表格呈現,因為直觀圖像常被認為過于簡單、難以承載多維信息,顯得過于簡化(Healy & Moody,2014)。
隨著互聯網痕跡數據與大規模文本數據的廣泛應用,社會科學研究所面對的數據復雜性顯著提升,已超出傳統方法的處理范疇。研究者因而需要借助無監督學習等智能方法對數據進行系統挖掘,并通過計算與表達相結合的方式,呈現社會現象及其過程的結構與分布。可視化方法因而能夠在有限的視覺空間中提升信息密度、降低理解成本,使關鍵結構線索得以清晰呈現與有效傳遞,從而深化對社會結構的理解。本文從單一變量特征與多變量關系結構兩個維度,對相關代表性研究進行系統梳理(詳見表1)。
![]()
在數據深描的研究路徑中,對單一變量結構的可視化呈現是常見形式之一。此類研究多通過時間趨勢圖、區域分布圖與熱力圖等方式,刻畫特定議題、概念或情緒的時間演變與空間分布。隨著可視化技術的發展,部分研究進一步運用桑基圖等強調流動性的圖形及視頻等動態形式,呈現信息、資源或話語在不同時空節點間的轉移與擴散過程。
在多變量關系結構的呈現方面,復雜可視化方法同樣發揮著重要作用。早在《區隔》(Distinction)中,布迪厄(Pierre Bourdieu)便通過多重對應分析將社會地位與生活方式相連接,成為關系結構可視化的經典范例(Bourdieu,1984)。近年來,相關描述方法持續拓展,例如將詞向量投影至語義空間以呈現概念間的距離與聚類關系,或借助社會網絡分析刻畫個體與群體間的互動結構,并結合聚類結果及節點度數、中心性等指標對網絡形態進行可視化。這類方法有助于直觀呈現關系結構的整體格局,為理解社會分化與群體差異提供重要的描述性參照。
2.以數智方法測量社會指標
概念的操作化是社會科學研究的關鍵環節。由于理論概念、社會現象與數據測量之間常存在差距,研究者往往面臨測量不足的挑戰。在定量研究中,測量指標通常需轉化為邊界清晰、可操作的變量,以作為宏大社會現象的局部映射。受傳統定量研究微觀旨趣的影響,加之技術條件限制下宏觀數據的缺乏,此類測量多集中于微觀層面的可觀測行為變量(陳云松,2022)。
數據深描旨在建立一種從非結構化數據到社會指標的生成邏輯。該邏輯依托大規模數據與計算方法,通過將抽象社會概念拆解為可觀測的多維結構,推動測量從依賴單一代理變量轉向對社會現象內部構成與總體特征的系統刻畫,這顯著提升了社會測量在描述層面的“進深”。一方面,數據深描方法可對個體層面的海量調查數據和行為數據進行多維整合,豐富微觀指標的表達維度并在統一的多維描述空間中系統呈現原本分散的行為與心態變量,從而增強對個體差異及其潛在關聯結構的識別能力;另一方面,該方法也使“文化”“心態”等宏觀概念的直接測量成為可能,使宏觀指標能夠更充分地刻畫社會現象的整體特征,并減少對微觀數據匯總生成宏觀指標的依賴。表2展示了運用數智方法構建微觀和宏觀社會指標的代表性研究。
![]()
數智方法為經典社會學概念的測量開辟了新路徑。數據深描的代表性研究已開始運用生成式人工智能技術,通過對大規模非結構化文本進行語義分析,將文化氛圍、社會心態等抽象概念轉化為可比較的指標體系。該方法將非結構化文本映射至統一的語義表示空間,并在相關社會學維度上對其進行連續賦值與比較,從而在不依賴人工編碼的前提下,實現對彌散性社會現象的宏觀測量。
數據深描中的宏觀指標側重于呈現社會現象的結構特征、時空分布和群體差異;微觀指標則通過揭示個體行為與偏好在不同情境中的分布形態,豐富對社會現象微觀層面的經驗刻畫。隨著數智技術尤其是生成式人工智能的持續發展,社會科學研究將進一步整合文本、視頻、圖像、傳感器軌跡與地理信息等多源異構數據,依托大模型的語義映射與連續賦值能力,對更廣泛的文化氛圍與社會心態進行多維刻畫。通過對這些現象時空分布特征的持續描繪,該方法可為突發事件的實時響應與精準治理提供實證支持。
3.以局部描述累積全局關聯
如果說社會指標的可視化與測量主要對應描述性理解的起點,那么對變量間關聯的局部描述累積則處于通往解釋性理解的后期階段。通過在不同條件的數據中反復呈現同一關系形態,研究得以從局部觀察中逐步累積出穩定的總體關聯,從而形成關系理解的“層深”。該方法邏輯不依賴單一案例的闡釋,而是在多種社會情境中反復呈現關鍵現象,使相關關系在層層比較中逐漸清晰。因此,該進路與“穩健依賴”的因果思維一脈相承(Goldthorpe,2001),也與費孝通、賀雪峰等學者基于飽和材料的定性研究傳統具有內在一致性。
在結構復雜的數據情境中,傳統因果推斷方法往往在模型設定與變量控制方面面臨局限(Burrows & Savage,2014),這促使部分研究轉向操作成本較低、更為靈活的關聯描述路徑。所謂“飽和”,指的是同一關聯在時間、空間、社會因素等存在多重差異的樣本中持續顯現。借助這類自然差異,研究者可在比較過程中實現對潛在遺漏變量的非模型化條件控制。即便僅依賴基礎的二元關聯描述,通過跨時期、跨地域或跨群體的多重比較,研究者亦可對穩定關系作出經驗判斷。該路徑不依賴嚴格的因果假設,雖不直接識別因果機制,但能從局部累積至整體,靈活呈現社會結構中的穩定關聯。表3展示了社會科學與自然科學領域中,通過局部描述累積識別全局關聯的代表性研究。
![]()
對穩定關系的探索,往往依托大規模、跨地域的歷史材料,通過長期與跨地域的描述累積,形成對社會結構的整體把握。相較于學術論文,社會科學專著在關聯呈現上通常更為細致,往往綜合運用定量數據與定性材料,結合比較分析與歷史分析等方法,從而賦予社會理論跨越時空的穩健性。法國經濟學家皮凱蒂(Thomas Piketty)的《21世紀資本論》(Capital in the Twenty-First Century)雖未采用數智方法,但其基于跨國、跨歷史時期的大規模數據形成的描述累積,為理解社會結構與長期不平等格局提供了重要的方法啟示(Piketty,2014)。隨著數智技術的發展,已有學者在著作中進一步整合多模態數據,對社會現象間的關聯進行系統性呈現。由此,社會科學學者在新的技術條件下重新接近韋伯、涂爾干等先驅寫作“鴻篇巨制”的研究理想,既有助于推動學術研究深化,也有助于促進公共知識更新與社會進步。
4.以算法模型預示潛在因果
算法模型通過呈現變量預測貢獻的結構性分布,為變量之間可能存在的關聯鏈條提供方向性線索,從而形成導向解釋性理解的“縱深”路徑。由于可預測性被視為因果機制成立的“必要不充分條件”(Watts,2014),穩定的預測貢獻結構因而具有因果啟發意義。當變量數量較多且結構較為復雜時,傳統回歸模型往往存在預測性能不佳的問題。而可解釋性機器學習模型能夠有效揭示變量的邊際預測貢獻,推動研究由“推理—驗證”模式轉向以數據驅動理論發現的“預測—歸納”模式(陳茁、陳云松,2023)。
“預測—歸納”的因果預示路徑通過對數據樣本中所有可能解釋變量的預測貢獻進行深描,為識別潛在生成機制提供了系統性的輸入,最大限度地體現了作為一種“生成過程”的因果思維(Goldthorpe,2001),其實現路徑包括:對情境變量的整體刻畫,通過監督學習模型識別復雜結構,以及借助可解釋性機器學習方法拆解模型“黑箱”,比較各變量的邊際預測貢獻,從而識別具有因果分析潛力的關聯模式(Lundberg & Lee,2017)。在此過程中,研究者的理論洞見既被用于界定算法模型可納入的變量范圍,也被用于甄別模型結果,降低數據偶然性與過度擬合的風險。數據深描的過程亦可能揭示新的關聯模式與潛在因果線索,從而進一步成為理論洞見的來源。
當前,越來越多社會科學研究開始運用可解釋性機器學習等算法模型對變量預測貢獻進行深描,以探索潛在機制線索。需注意的是,算法模型輸出的貢獻度并不等同于回歸系數,它是對預測貢獻的量化刻畫,旨在識別潛在的結構關系。表4展示了沙普利值解釋法(SHapley Additive exPlanations,簡稱SHAP)和局部可解釋模型無關方法(Local Interpretable Model-agnostic Explanations,簡稱LIME)在社會科學中的應用案例。
![]()
沙普利值解釋法和局部可解釋模型無關方法在功能上各有側重。沙普利值解釋法從整體層面揭示變量預測貢獻的相對排序,適用于高維、非線性且交互關系復雜的社會科學數據情境。局部可解釋模型無關方法則聚焦于特定樣本的預測結構,旨在揭示個體層面的決策邏輯(Bueff et al.,2025),因而更常用于個體層面的可追溯分析,以提高決策透明度,如社會政策評估等場景。可解釋性機器學習方法作為數據深描中因果預示路徑的重要工具,為潛在生成機制的識別與后續因果分析提供關鍵啟示。
(三)數據深描的價值
數據深描在學科發展、知識傳播與社會治理中展現出重要價值,它有助于突破學科知識邊界、推動知識普及,并為社會治理能力的提升提供新的方法路徑。作為一種方法創新,數據深描既能夠回應“國之大者”,也能扎根具體的社會實踐,在知識傳播與轉化過程中有效參與社會文明建設。
1.學科發展價值
數據深描既回應了經典理論關切,也在數智條件下拓展了中國社會科學的知識版圖與研究邊界,其學科發展價值主要體現在以下三個方面。
一是重返經典。韋伯認為,社會科學的認識特質在于使社會現象在經驗層面獲得可理解性,而非以因果關系的確認為直接起點(Weber,1978:8-9,15)。數據深描正是在此意義上,對韋伯經典立場進行當代定量轉化:它不以因果檢驗為目標,而是通過清晰呈現社會現象的結構與關聯,構建可理解的描述性圖景,并為通向解釋性理解提供經驗線索。
二是重塑主體。作為一種方法創新,數據深描體現了技術層面的學術自覺,更內嵌于“如何構建中國哲學社會科學自主知識體系”的方法自覺之中(陳云松,2025)。依托中國悠久的歷史文脈、廣袤的地理空間以及長期積累的跨時期、跨層級數據資源,數據深描能夠系統呈現中華文明在不同歷史時期與社會條件下的結構形態,為正確理解和大力推進中國式現代化提供經驗參照,并在全球知識體系中提升中國社會科學作為理論與知識生產者的主體性地位。
三是拓展邊界。數據深描通過整合歷史與當代、國內與國外等多元經驗材料,使社會科學研究能夠在更長時間尺度與更廣空間范圍內比較社會結構與關聯模式,為構建具有全球視野的中國理論框架奠定經驗基礎。同時,數據深描對數智技術與情境理解邏輯的系統運用,也有助于推動社會科學與人文學科、自然科學之間進行更緊密的跨學科對話。
2.知識普及價值
數據深描通過對社會現象進行直觀而生動的呈現,顯著提升了學術知識的可讀性,有助于緩解學術研究成果向公共認知轉化長期受限的狀況。其知識普及價值主要體現在以下方面。
一是提高公眾素養。數據深描能夠將抽象復雜的研究發現轉化為結構清晰、邏輯可讀的知識形態,為公眾理解數智時代的社會現象與開展自主學習提供現實條件,有助于彌合數智知識層面的認知鴻溝。
二是培育社會興趣。研究議題的專業性與分析復雜性,往往構成青年人理解社會科學問題的認知門檻。數據深描方法在保持學術嚴謹性的同時,有效降低了青年人的理解成本,為青年群體參與公共議題討論與形成科學的社會認知提供了必要的知識支撐。
三是推動文化傳承。在把馬克思主義基本原理同中國具體實際相結合、同中華優秀傳統文化相結合的過程中,數據深描能夠清晰呈現中華文明的歷史脈絡與結構特征,為中華優秀傳統文化的創造性轉化與創新性發展提供堅實的經驗支持。
3.社會治理價值
數據深描不依賴復雜理論預設和模型設定,能夠靈活整合非結構化數據,其結果呈現也相對直觀。因此,作為一種低成本、可擴展的研究模式,數據深描能夠為治理決策提供高效支持,其社會治理價值主要體現在以下方面。
一是降本增效。相較于對模型設定與數據條件要求較高的因果分析方法,數據深描依托真實社會情境中廣泛且低成本的數據來源,通過多維、連續的分析方式響應治理實踐需求,有助于提升治理決策的執行效率與實際效果。
二是實時響應。借助移動端體驗采樣和傳感器軌跡等多模態數據,數據深描能夠實時刻畫信息流動與社會結構變化,識別社會風險的早期信號及其演化趨勢,從而推動社會治理從被動應對轉向主動預警與動態監測。
三是促進區域協同。不同地區在社會結構與治理需求上存在差異。數據深描通過動態刻畫區域差異,既可以為國家層面的宏觀決策提供依據,也可以為因地制宜的地方治理提供支持,進而促進國家與地方在治理層面的有效協同。
四、結語
皮凱蒂在《21世紀資本論》中高度贊賞文學作品對不同階層財富收入的生動展現,認為簡·奧斯汀(Jane Austen)等小說家所描繪的社會不平等現象“逼真而具有強烈感染力,是任何統計或理論分析都無法比擬的”(Piketty,2014:2)。薩維奇進一步提出,定量描述也應具備這種感召力,通過新穎的觀看、閱讀和感受方式,將潛在含義傳遞給讀者(Savage,2024)。數據深描正是對這一期待的回應,它不僅憑借新視角與復合方法傳遞美學感知,更通過對表象之下時空結構和潛在關系的系統刻畫,使復雜社會現實在數據層面變得可讀、可感與可理解。
歷經多次論爭,社會科學界已普遍認同因果分析與描述方法應互為補充、彼此支撐(Crompton,2008;Gane,2020;Savage,2020)。本文提出的數據深描方法在西方“描述轉向”討論的基礎上更進一步,強調在數智時代的大規模數據與技術條件下,定量描述已不再只是因果解釋的輔助手段。它能夠在描述性理解框架內獨立承擔結構識別與關系探索的任務,并在描述性理解與解釋性理解之間發揮橋梁作用,從而為韋伯所界定的描述性理解,提供一條植根于當代數智環境的實踐進路。
需要說明的是,本文所歸納的四種描述進路并未窮盡數據深描的所有可能形態。隨著生成式人工智能等技術的持續進步,數據深描仍具有廣闊的拓展空間。未來,這類方法或可在無需直接進入因果推斷的前提下,為解釋性理解提供更為系統而豐富的經驗線索。數據深描的深化發展,或許正是米爾斯(C. Wright Mills)所倡導的“社會學的想象力”在新時代的具體實踐——通過扎實的數據經驗把握社會現象的歷史進程與結構脈絡,重新激活將個人困擾與公共議題相聯結的想象力(陳云松,2025;馬文、陳云松,2025)。
習近平總書記指出:“世界百年未有之大變局加速演進,世界進入新的動蕩變革期,迫切需要回答好‘世界怎么了’、‘人類向何處去’的時代之題……加快構建中國特色哲學社會科學,歸根結底是建構中國自主的知識體系。”對社會科學而言,這一使命不僅意味著研究議題的拓展或理論立場的重申,更關鍵的是在方法層面形成清晰而自覺的知識生產路徑。重返描述,并非以描述取代解釋,而是通過豐富和深化描述性分析,為抵達解釋性理解奠定基礎、搭建橋梁。在這一意義上,數據深描超越了單純技術工具的集合,成為立足數智時代、深化描述性理解的一種方法自覺(陳云松,2025)。數據深描能夠從中華民族數千年的歷史文脈與當代復雜社會現實中,發掘更具深度的理論線索,為建立具有高度文化自覺的中國范式奠定方法基礎。由此,當代定量研究有望既突破思維和方法定式的藩籬,又轉化為對現實的理解與治理能力,進而在文化根基與數智力量的交融中,形成服務于文明發展的持續知識積累。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.