Generalized Poisson Dynamic Network Models
廣義泊松動態網絡模型
https://arxiv.org/pdf/2604.05838
![]()
![]()
摘要:
計數加權時序網絡通常在邊權重上表現出離散程度不均的現象,僅通過在條件均值中引入潛因子來刻畫觀測異質性無法對此作出完全解釋。因此,我們提出了一類利用廣義泊松分布的新型動態網絡模型,以同時捕捉欠離散與過離散現象。我們考慮了三種不同的動態設定:潛因子動態、自回歸動態與潛位置動態,并研究了這些隨機網絡的部分理論性質,揭示了離散參數對隨機網絡連通性的影響。在闡述參數識別策略后,我們提出了一套貝葉斯推斷程序及相應的后驗抽樣算法。數值算例驗證了所設計算法的有效性,并給出了在忽略離散程度不均時的模型誤設偏差估計。隨后,我們將新模型應用于已有文獻中考察過的兩個相關動態數據集:一組共享單車動態網絡與一組動態媒體網絡。研究結果凸顯了顯式建模過離散現象對于實現準確的樣本內擬合與提升樣本外表現的重要性。
關鍵詞:過離散;集中不等式;貝葉斯推斷;潛空間;可識別性。
1 引言
時序網絡已在生物學(Pastor-Satorras 等 2015)、神經科學(Betzel & Bassett 2017, Vá?a & Mi?i? 2022)、經濟學(Jackson & Watts 2002, Friel 等 2016)以及社會科學(Barberá 2015, Casarin 等 2025)等眾多學科中引起了廣泛關注(Holme & Saram?ki 2012)。時序網絡的顯著特征在于節點之間的連接并非靜態的,而是隨時間發生變化。近年來,越來越多的研究開始聚焦于計數加權時序網絡,即每條邊的權重代表一個計數的動態網絡(Sewell & Chen 2016)。實例包括在線媒體交互網絡(Casarin 等 2025)、電子郵件通信網絡(Yin 等 2017)、交通網絡(He 等 2025)以及大腦連接網絡(Zhang 等 2019)。已有充分證據表明,計數加權網絡數據通常表現出過離散(例如見 Zheng 等 2006, Corsini & Viroli 2022)與欠離散(Lord & Mannering 2010, Lux 2020)特征。然而,許多建模方法往往忽略了這一特征,從而導致估計偏差和誤導性推斷。
本文的貢獻是多方面的。首先,我們基于廣義泊松(Generalized Poisson, GP)分布族提出了一種適用于整數權重網絡的靈活模型,并推導了GP網絡模型的理論性質,包括期望節點強度與節點中心性。其次,我們為廣義泊松網絡模型引入了三種動態設定。第三,我們提供了一個貝葉斯推斷框架,以及一種高效的后驗近似過程。所提出的近似過程通過廣泛的模擬研究進行了評估,隨后應用于兩個實證案例。第一個應用聚焦于紐約市的共享單車數據(Citibike 2019),第二個應用考察了媒體交互網絡的演化(Casarin 等 2025)。對這些數據的分析可在眾多領域和社會層面產生重要影響。
關于權重分布,我們假設其服從GP分布。該分布族由Consul & Jain(1973a,b)引入,能夠同時捕捉過離散與欠離散、超額峰態,并將泊松分布作為其特例。關于該分布的介紹,可參閱Consul & Famoye(2006, 第9章)及Famoye & Lee(2020)。GP分布在文獻中已有深入研究,并廣泛應用于健康與流行病學(Zamani 等 2016)、體育統計(Shahtahmassebi & Moyeed 2016),以及經濟、金融與保險領域(Wang & Famoye 1997, Ambagaspitiya & Balakrishnan 1994, Famoye & Consul 1995, Famoye 等 2004, Lin 2004, Finner 等 2015)。
GP已成功應用于計數時間序列分析(Zhu 2012, Shahtahmassebi & Moyeed 2014, Chen & Lee 2016, Carallo 等 2024),并自然地出現在源自分支過程的隨機圖理論中(例如見 Aldous & Pitman 1998, Aldous 2004, Bertoin 2012)。與其他允許過離散和欠離散的分布族不同,GP在推導相關隨機網絡性質時保持了良好的解析可處理性。其他常用的計數數據模型,如負二項分布、泊松-伽馬分布和泊松-對數正態分布,存在一定局限性:它們僅允許過離散,且在處理低樣本均值和小樣本時表現不佳。康威-麥克斯韋-泊松分布同樣具有吸引力,因為它將泊松分布作為特例,屬于指數族,并允許共軛分布(Boatwright 等 2006, Shmueli 等 2005)。然而,其矩不具備解析可處理性,這阻礙了其在網絡模型性質解析研究中的應用。
關于模型的動態設定,我們提出了三種不同的公式,以不同方式捕捉時間依賴性。第一種設定引入了一個同時影響所有邊的共同動態潛因子(例如 Br?uning & Koopman 2020)。第二種設定更為簡約,并引入了網絡強度的滯后度量。在此設定中,過去的全局網絡特征影響當前的連接強度,從而在網絡中產生自回歸動態(例如 Tsikerdekis 等 2021, Jiang 等 2023)。最后,第三種設定假設了一個具有時變潛節點坐標的潛空間(Latent Space, LS)模型(Hoff 等 2002),這些坐標驅動了連接動態(Sewell & Chen 2016, Rastelli 等 2016, Artico & Wit 2023, Casarin 等 2025)。我們基于集中不等式(Vershynin 2018)推導了模型的一些理論性質(如節點中心性),這些不等式展示了離散參數如何影響隨機網絡的連通性。
我們采用貝葉斯推斷框架,因為它通過數據增廣原理和完全數據似然函數(Robert 2007),為處理非線性和潛變量模型提供了更大的靈活性,并能有效容納預測中的不確定性(McCabe 等 2011)。我們提供了潛變量可識別性的充分條件,以及用于后驗分布的高效馬爾可夫鏈蒙特卡洛(MCMC)采樣器(Robert & Casella 2013)。
Citibike(Citibike 2019)和媒體網絡數據集(Schmidt 等 2018)提供了時序網絡中離散程度不均與邊持續性的兩個實例。這兩個應用表明,GP網絡模型比泊松模型擬合效果更好,并能捕捉所考慮網絡的顯著全局與局部特征。
本文結構如下。第2節介紹了Citibike和媒體網絡數據集,并闡明了網絡權重中的離散特征。第3節介紹了所提出的廣義泊松網絡模型,提供了一些模型性質以及貝葉斯推斷過程。第4節展示了模擬研究的結果。第5節說明了該模型在兩個網絡數據集上的性能。最后,第5節進行總結。(注:原文此處“Section 5 concludes”疑為排版筆誤,按學術慣例應為“第6節”)
2 動態網絡中的過離散現象
我們考慮兩個與眾多領域相關且對社會具有影響的數據集:Citibike數據集(Citibike 2019)和媒體網絡數據集(Schmidt 等 2018)。雖然如前者這樣的共享單車數據在交通(Noland 等 2016)、地理學(An 等 2019)、城市規劃(Yu 等 2018)以及可持續性研究(Chen 等 2022)中受到關注,但如后者這樣的媒體網絡則與媒體與傳播研究(Xu 2022)、政治科學(Eady 等 2025)以及計算社會科學(Del Vicario 等 2017, Cinelli 等 2021)密切相關。這兩個數據集最近都引起了網絡統計建模文獻的關注(例如,參見 He 等 2025, Casarin 等 2025)。
Citibike數據集包含了紐約市任意兩個Citibike站點之間的騎行信息,并可用于構建計數加權的對稱時序網絡,其中節點代表紐約市的社區,邊代表社區之間共享單車連接的數量。媒體網絡數據集則包含了法國、德國、意大利和西班牙的國家及地方新聞機構在Facebook上的活動信息,并可用于構建時序網絡,其中節點代表新聞機構的頁面,邊權重表示在給定時間間隔內對一對新聞機構頁面發表評論的唯一用戶數量。
圖1左面板報告了Citibike數據集與意大利媒體網絡數據集在兩個子時段內每條邊的對數均值與對數方差的比較。相對于45度參考線,我們觀察到一定的異質性:少數邊的權重表現出欠離散,而大多數則表現出過離散。此外,有證據表明邊的對數離散度與滯后1階自相關之間存在關系(右面板)。這種行為在不同子時段內具有一致性。初步結果表明,有必要采用一種能夠容納不等離散性與動態特征的邊緣條件分布。我們在補充材料(第C節)中報告了進一步的結果,這些結果不僅支持了Citibike和意大利媒體網絡數據集的證據,也支持了法國、德國和西班牙媒體網絡的證據。
![]()
3 GP動態網絡模型
本節對GP(廣義泊松分布)進行了定義,并推導了GP網絡的一些性質。文中引入了GP模型類,并給出了相應的推斷方法。本節相關結果的證明均置于補充材料(A節)中。
3.1 廣義泊松網絡
![]()
![]()
![]()
![]()
以下命題陳述了 GP 變量的次指數性質,并為矩生成函數的對數提供了一個有用的界。
![]()
![]()
過離散參數不僅對于每個時間點的隨機圖模型的性質至關重要,而且對于推斷網絡動態性質也至關重要。如下幾節所示,先驗地假設等離散( θ = 0 )可能會產生顯著的設定錯誤偏差。
3.2 動態設定
![]()
![]()
![]()
![]()
這產生了隨時間靈活演變的過程:水平可以逐漸漂移,而 ![]()
控制趨勢的平滑度(較小的值意味著基線密度變化緩慢,而較大的值允許更急劇的轉變)。此類模型需要謹慎的推斷過程,且計算成本不可忽略。這種設定與時間序列分析中常用的狀態空間模型有關(例如,Xing 等 2010, Mazzarisi 等 2020, Br?uning & Koopman 2020, Buccheri & Mazzarisi 2024)。
![]()
![]()
![]()
![]()
3.3 先驗分布與模型性質
![]()
![]()
![]()
![]()
3.4 參數可識別性
![]()
![]()
![]()
![]()
![]()
4 后驗近似
我們推導了吉布斯(Gibbs)采樣后驗近似中所使用的全條件分布,并進行了模擬實驗以評估我們算法的效率和有效性。此外,我們通過數值模擬證明,當將泊松模型應用于具有不等離散(unequal dispersion)的數據時,會出現顯著的模型設定錯誤偏差(misspecification bias)和預測誤差。
4.1 吉布斯采樣器
![]()
![]()
![]()
可以增加一個額外的步驟,通過 MCMC 采樣方案提供強度后驗點預測和網絡分布預測,具體遵循 Carallo 等人 (2024) 和 Chen & Lee (2016) 的方法。
我們在 C++ 中實現了 MCMC 算法,并利用 Rcpp 包 (Eddelbuettel 2013) 以便與 R 環境輕松集成。對于 GP 分布的隨機數生成器和似然函數,我們改編了 VGAM 包 (Yee 2015) 中開發的代碼。
4.2 近似效率與設定錯誤偏差
我們通過蒙特卡洛模擬評估了所提出的估計過程的性能。數據是在廣義泊松框架下,從三種替代設定![]()
生成的,這些設定包含了動態潛因子、自回歸動態和時變潛坐標。在所有設計中,MCMC 算法(5,000 次迭代,2,000 次預燒期,每 5 次抽樣稀釋一次)顯示出良好的混合性和收斂性,這一點已通過圖形診斷、有效樣本量和 Geweke 檢驗得到證實。后驗分布準確地恢復了真實的結構和離散參數,僅在最復雜的潛坐標設定中存在輕微偏差。總體而言,結果表明所提出的方法能夠可靠地恢復潛在的數據生成參數。關于模擬實驗的完整細節,請參見補充材料中的 B 節。
在模型中忽略欠離散或過離散特征可能導致參數估計出現顯著偏差以及不確定性量化不精確。圖 3 報告了當數據生成過程假設 GP 似然時,![]()
在泊松(上方面板)和 GP 設定(下方面板)下的后驗分布(淺藍色)以及一些特征參數的真實值。由設定錯誤的泊松模型引起的估計偏差清晰顯現(上方面板與下方面板對比)。
![]()
![]()
5 應用
![]()
5.1 Citibike 數據集
在第一個應用中,我們考慮了 Citibike 數據集(Citibike 2019),該數據集包含了紐約市 Citibike 共享單車服務任意兩個站點之間的騎行信息。該數據集的一部分——2019 年的一個工作日——此前已在 He 等人(2025)中進行了研究,作者在那里提出了一種半參數動態泊松潛空間(LS)網絡模型。在本應用中,我們以月度頻率考慮了 2019 年全年的共享單車活動。我們將任意兩個站點之間的騎行計數聚合到鄰里制表區(Neighborhood-Tabulation-Area, NTA)級別。因此,我們獲得了一個包含 61 個節點的計數加權對稱網絡,這些節點代表 61 個 NTA 區域,邊代表共享單車服務。
![]()
![]()
圖4左上方面板顯示了與61個紐約市社區(NTA)各自相關的 α i參數的后驗均值。我們觀察到,知名且具有旅游吸引力的NTA(例如位于曼哈頓島的默里山-基普斯灣、東村和聯合廣場)表現出較高的 α i 值,這與將這些參數解釋為節點中心性的結論是一致的。右上方面板展示了平均期望強度隨時間變化的后驗預測(PP)結果。該模型準確捕捉到了網絡的年度季節性特征。春季和夏季的騎行活動量較高,而秋季和冬季的活動量則有所下降。
![]()
在下方面板中,我們展示了 2019 年 4 月在泊松(Poisson)和廣義泊松(GP)設定下維度 d = 2 的潛空間估計比較。進一步的估計結果報告在補充材料(C 節)中。我們觀察到,潛空間表示使得恢復節點的相對地理位置成為可能(與左方面板比較)。位于曼哈頓島(Manhattan Island)的站點聚集在一起,位于布朗克斯(Bronx)和皇后區(Queens)的站點也是如此。在泊松設定下,潛坐標更加分散,因為泊松模型難以捕捉過離散,而潛坐標較高的后驗方差部分緩解了這種設定錯誤。這一結果與第 4 節(另見圖 3)討論的關于潛坐標的設定錯誤偏差是一致的。
5.2 媒體網絡數據集
作為第二個應用,我們考慮了時變媒體網絡數據集(Schmidt 等 2018, Casarin 等 2025)。該數據集使得構建時序網絡成為可能,其中節點代表新聞機構,每條邊的權重是在所考慮的時間窗口內與一對新聞機構互動的獨立評論者(unique commenters)的數量。在本應用中,我們考慮了按月聚合的媒體網絡,總計 24 個網絡,時間跨度為 2015 年和 2016 年。
![]()
![]()
由于 GP 潛空間 (LS) 模型在 DIC 指標上表現最佳,我們將報告并評論該設定下的估計結果。為了說明起見,我們在正文中展示了法國的結果(見圖 5)。左面板展示了新聞機構的空間表示(位于其總部所在地),其中點的大小和顏色與 α i 成比例。正如預期的那樣,我們發現通常位于這四個國家最突出城市的國家級新聞機構在網絡中更具中心性,而地方級新聞機構在地理層面上傾向于更邊緣化。我們還觀察到最中心新聞機構在地理分布上的差異。通過跨國比較(見補充材料中的圖 C.3-C.4),法國和西班牙更為集中,突出的新聞機構位于各自的首都城市;而德國和意大利則表現出更異質性的中心新聞機構地理分布。這可能是由于這四個國家在單中心發展與多中心發展方面眾所周知的歷史原因所致。關于這四個不同媒體環境的完整描述,參見 Tezis (2008) 和 Newman 等 (2015)。
圖 5 右上方面板展示了 2016 年 1 月新聞機構的潛空間表示。存在兩種形式的聚類。首先,具有相似編輯方針的國家級新聞機構在潛空間中距離較近。其次,地理位置上較近的新聞機構傾向于聚類。這種效應在地方級新聞機構中更強。在數據集中的其他國家也發現了類似的證據(見補充材料中的圖 C.5-C.6 的上圖)。
![]()
關于坐標的動態變化,有證據表明各國存在異質的趨勢行為(見補充材料中圖 C.5-C.6 下方面板中的潛因子估計)。對于法國和德國,均有上升趨勢的證據。在意大利,該因子在樣本初期表現出顯著的上升趨勢,于 2015 年 7 月達到頂峰,隨后逐漸下降,并在 2016 年 3 月左右達到最低點。此后,潛因子再次增加,表明整體連通性在增強。西班牙的時變潛因子相對更穩定,其峰值出現在 2015 年 7 月、2015 年 12 月、2016 年 2 月和 3 月,以及 2016 年 10 月。總體而言,該趨勢行為證實了 Casarin 等 (2025) 獲得的結果,后者擬合了一個具有大量隱藏狀態的泊松馬爾可夫轉換 LS 模型。
我們通過樣本外預測練習來結束我們的分析。由于 LS 模型在邊權重插補方面顯示出強大的能力,我們在每個國家的最后一個鄰接矩陣中隨機注入 3 個缺失值 (NA)。然后,我們測試了估計的 LS 模型在泊松和 GP 設定下插補缺失值的能力。表 3 報告了在兩種似然假設下按國家分類的預測指標,這些指標是 10 次模擬的平均值。在處理點對點預測 (MAE, MSE, RMSE) 時,我們注意到結果是混合的(GP 在法國和德國優于泊松,而在意大利和西班牙則相反)。在處理分布預測時,我們注意到 GP 模型始終顯示出更令人滿意的覆蓋率(> 90.0%)。至于尾部概率,GP 模型似乎校準得更好(尾部概率的均值和方差分別接近 1/2 和 1/12),代價是在所有情況下區間寬度更高。總之,泊松模型盡管提供了具有競爭力的點對點預測,但也過于自信(overconfident),而 GP 在不確定性量化方面明顯勝出。
6 結論
本文提出了針對計數加權時序網絡的新型模型類別。廣義泊松(GP)分布能夠捕捉邊權重的欠離散與過離散特征,而滯后的網絡特征或潛變量則驅動了邊權重的動態變化。文中推導了潛變量可識別性的充分條件,并構建了一個貝葉斯推斷框架,配套提出了高效的后驗抽樣算法。數值分析結果表明,若忽略權重的過離散特征,將導致顯著的模型誤設偏差及后驗預測誤差。共享單車與媒體時序網絡的實證應用證明,GP 潛空間模型不僅能有效適應不等離散特征,還能同時捕捉季節性、趨勢及空間效應等其他網絡屬性。
原文鏈接:https://arxiv.org/pdf/2604.05838
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.