周曉華:如何用數學語言來描述進行因果分析?


周曉華:如何用數學語言來描述進行因果分析?
文章圖片
導語
我們的生活中充滿因果推斷問題 , 比如打疫苗的效果怎樣 , 一種治療方案結果如何 。 但僅僅依靠數據 , 往往只能觀察到兩個變量之間的相關性 , 要如何更進一步 , 確定它們的因果性呢?如何用數學語言將這些實際問題轉化為因果推斷問題 , 進行分析并指導實際決策?
為了更多地推動因果科學學科的發展 , 聚集國內外因果科學的一線科研工作者 , 共同討論因果科學的最新進展 , 北京大學講席教授、北京大學公共衛生學院生物統計系系主任、北京大學北京國際數學研究中心生物統計和信息研究事室主任周曉華等發起了泛太平洋因果推斷大會 。 2021泛太平洋因果推斷大會將于2021年9月11日-12日全程在線舉辦 , 詳情見文末 , 歡迎感興趣的朋友報名參與!
研究領域:因果科學 , 因果推斷
1.因果推斷的數學基礎
一種新藥在特定人群中是否有效?犯罪率改變是否由政策引起?從公立學校換到私立學校能否提高學習成績?這些都是因果推斷的問題 。 事實上 , 如果僅僅依靠數據 , 我們無法回答上述問題 。 因為很多時候 , 數據生成機制對觀測者是未知的 , 我們只能觀察到相關性 。 因果性在相關性的基礎上更進一步:相關性可以由觀察到的變量聯合分布來描述 , 而對于因果性的分析需要知道數據的生成機制 , 或者條件改變時變量分布的變化 。
如何用數學語言來描述進行因果分析呢?Rubin因果模型包含四個部分:(U,K,Y,Z) , 其中 , U是個體 , K是一組可能的處理集合 , Y是從K×U到實數的映射 , Z是從U到K的映射 , 表示個體實際接受的處理 。 個體u在處理t下的潛在結果記作Yt(u) 。 對于個體u來說 , 處理t相對于處理c的作用是Yt(u)-Yc(u);對于整個人群來說 , 平均的因果作用就是E[Yt(u)-Yc(u)] 。 因果推斷的基本問題是 , 這兩種潛在結果Yt(u)和Yc(u)是無法同時觀測的 , 因此我們必須依賴于額外的假設或條件才能識別出因果作用 。
統計學家Fisher曾提出隨機化的概念 。 在一個隨機化試驗中 , 每個個體都被隨機地分配到兩種處理方案中的一種 , 那么平均因果作用就可以識別了 。 在隨機化試驗中 , 潛在結果可以轉化為觀測結果 , 即E[Yt(u)]=E[Y(u)|Z=t] , 因此平均因果作用可以用觀測數據來估計 。
但實際上 , 隨機化條件有可能被破壞 。 例如 ,
(1)非依從性:患者并沒有按照原來安排的治療方案進行治療;
(2)缺失數據:沒有觀察到結局(結局有定義);
(3)死亡截斷:在收集到結局之前患者死亡(結局無定義) 。
2.非標準條件下的因果推斷之非依從性
用Zi表示第i個個體被隨機分配的處理方案 , Di(Zi)表示個體i是否依從于分配(實際接受的處理) , Yi(Zi,Di(Zi))表示潛在結果 。 在處理效應穩定假設(SUTVA)——個體之間不會互相干擾——下 , Z對Y的個體因果作用為Yi(1,Di(1))-Yi(0,Di(0)) , Z對Y的平均因果作用(意向治療作用)為E[Yi(1,Di(1))-Yi(0,Di(0))] 。 如果我們關心的是D對Y的因果作用 , 也就是實際接受的處理對結局的因果作用 , 我們還需要更多的假設 。
首先 , 我們把人群分為四層:依從組c(Di(z)=z)、永遠服藥組a(Di(z)=1)、永不服藥組n(Di(z)=0)、絕不依從組d(Di(z)=1-z) 。 只有c組和d組包含了兩種處理方案的結局數據 , 因此只能在這兩組中定義因果作用 , 以c組為例 , 考慮依從組平均因果作用CACE=E[Yi(1,1)-Yi(0,0)] 。 觀察到的數據為:分配方案Zi、實際接受的處理Di=Di(Zi)、結局Yi=Yi(Zi) 。 需做如下假設:
(1)可忽略性假設 , 即兩種潛在結果和分配方案獨立;