流行病學和公共衛生評論

全文

簡短的溝通
傾向-得分匹配是糾正觀察性研究中自我選擇偏差的靈丹妙藥

Echu劉

聖路易斯大學衛生管理和政策係,美國密蘇裏州聖路易斯63104

*通訊作者:劉楚,聖路易斯大學衛生管理與政策係,美國密蘇裏州聖路易斯63104,電話:(314)977-1304;電子郵件:echuliu@slu.edu


摘要

觀察性研究往往存在自選擇問題,這是由於選擇治療和對照組的對象具有非隨機性。因此,依靠普通最小二乘(OLS)回歸等傳統方法無法精確估計治療效果。許多公共衛生領域的研究者為了得到治療效果的準確估計,使用傾向評分匹配來糾正自我選擇問題中的偏差。然而,傾向-得分匹配並不是解決自我選擇問題的靈丹妙藥。本文解釋了為什麼傾向-得分匹配有時可能不起作用,並向公共衛生實證研究者溫和地介紹了糾正自我選擇問題的其他方法,這些方法在該領域並不為人所知。

簡介

公共衛生領域越來越多的實證研究人員對利用觀察數據評估治療效果感興趣,如政策、服務或程序。使用觀察數據研究治療效果有幾個優點,如研究者收集數據的時間和精力更少,研究樣本量更大。然而,觀察研究的缺點之一是對效果的估計可能存在偏差,這一直是許多實證研究者關注的問題。這種偏差的來源是將對象選擇為“處理組”的非隨機性,“處理組”指的是數據集中受某些政策影響、接受某些服務或接受某些程序的對象。非隨機選擇最終導致治療組和對照組不可比較,這在文獻中稱為“自我選擇問題”,簡單比較兩組的平均感興趣結果,會導致對治療效果的誤判。這是因為沒有辦法知道平均結果的差異——如果有差異,或者在統計意義上是否顯著——是由於治療還是由於這兩組之間的內在差異。

為了在觀察性研究中獲得無偏估計的治療效果,Rosenbum PR和Rubin DB[1]提出了一種“傾向-得分匹配”的方法,在進行估計時考慮到治療組和對照組之間存在的基本差異。其思路如下。如果治療組和對照組之間的內在差異可以根據一個“可觀察到的”特征向量來定義,那麼我們就可以根據這個向量為研究中的每個對象計算一個分數,並在計算感興趣的平均結果之間的差異時隻包括那些得分相同的觀察,因為這些觀察基於這個分數將是“可比較的”。因此,在控製得分後,偏差將被消除,在文獻中稱為“傾向性-得分”。

Rosenbum PR和Rubin DB[1]提出的方法很簡單,包括STATA在內的一些統計軟件都有用戶編寫的模塊,可以實現這種方法。然而,在實現方麵有一些注意事項和考慮事項。首先,計算傾向評分時應包括的可觀察特征的數量始終是一個具有挑戰性的決定。其次,研究人員幾乎不可能在處理組和對照組中找到傾向分數相同的觀察結果,特別是當計算傾向分數的變量數量增加時。所有感興趣的讀者可以參考Becker SO和Ichino A[2]對這些問題和潛在解決方案的更詳細的討論。

這個問題

根據我迄今與許多實證研究人員在公共衛生領域的互動,他們中的許多人認為使用傾向評分是解決自我選擇問題的靈丹妙藥。然而,如前所述,Rosenbum PR和Rubin DB[1]假設治療組和對照組之間的差異是由於一些可觀察到的特征。這意味著,如果治療組和對照組之間的差異也是由於一些未觀察到的特征,如偏好,那麼Rosenbum PR和Rubin DB[1]提出的方法將是不合適的1

當治療組和對照組之間的差異是由於觀察結果的可觀察和不可觀察的特征時,仍有可能估計治療效果。例如,如果研究人員使用的數據集隻有一年,估計治療指標效果的最直觀的方法t(如果觀察屬於治療組,則等於1;否則等於0)是通過控製可觀察特征的向量來運行以下回歸x使用這些數據”

在哪裏y是因變量,ε是誤差項,β是係數的矢量,γ是定義處理效果的係數,下標I指th觀察。如果存在一些不可見的因素影響個體接受治療的決定,並且這些變量在式(1)中顯然是無法控製的,那麼它們就會被隱藏在ε.因此,之間的相關性t而且ε將不等於零,在普通最小二乘(OLS)中γ的估計將不再是“真實”效應的精確估計ty,因為OLS估計的γ會結合直接的影響ty和間接影響的不可觀察因素y.此外,β和γ的係數估計的顯著性統計檢驗可能存在I型或II型誤差。

糾正由於不可觀測因素導致的自我選擇問題

由於不可觀測性而導致的自我選擇問題的一個潛在解決方案是工具變量(IV)回歸。該方法已被廣泛應用於經濟學的許多應用領域,用於評估治療效果,但在公共衛生領域的學者較少了解。IV回歸的思想可以用式(1)為例來說明。假設存在一個變量向量。zz決定了t,但隻影響y通過它對t.換句話說,zt但不相關的ε.然後可以分兩步進行IV回歸。第一步,回歸t在I x和z,而預測值呢tϒˆt計算。第二步,t式(1)中,用“_”代替t回歸到yx和ˆt,得到的係數估計ϒ將是對治療效果的無偏估計。IV回歸背後的直觀解釋如下。因為兩者之間的相關性t而且ε式(1)中不等於零時,由於不可觀測性而存在的自選擇問題,則替換t與ˆt哪一個是根據不相關的變量計算的ε在式(1)中消去相關性t而且ε並對係數進行了精確的估計ϒ可能的。Cameron和Trivendi[3]對IV回歸及其背後的直覺進行了溫和的介紹,大多數統計軟件包都有可以用於執行IV回歸的命令。

雖然IV回歸是直觀且容易實現的,但有時很難找到有效的IV。當獲取IV不可用時,另一種可能的解決選擇問題的方法是使用麵板數據(如果可用)估計固定效應模型。麵板數據是指我們在幾個不同的時間點觀察被試的特征的數據集,即我們對同一被試有幾個觀察結果,使用麵板數據的最簡單固定效應模型可以描述為式(2)

在下標th觀察與下標t指tth時期。α是一個特定於個體的參數,它是時不變的,並作為個體間不可觀察的異質性的代理。因此,麵板固定效應模型允許我們控製被試未觀察到的特征,以獲得對效應的精確估計t

一般來說,對於如式(2)所示的麵板固定效應回歸模型,我們可以采用兩種方法進行估計,包括第一差分和最小二乘虛擬變量(LSDV)。Cameron和Trivendi[3]對這兩種方法的假設和實現給出了簡單易懂的解釋。大多數用於統計的軟件包,包括SAS和STATA,都具有可用於執行這兩種方法的命令。然而,需要記住的是,無論采用哪種方法,任何短麵板(很少的時間段和許多個體)數據集都不適合麵板固定效應模型,因為該模型利用被試對象的時間維度來控製未觀察到的對象。如果時間維度不夠高,那麼α例如,在式(2)中,未被識別。

結論

不可能像自然科學那樣建立一個實驗室,用觀察研究進行實驗。因此,由於治療組和對照組的選擇具有非隨機性,許多治療效果估計工作的結果存在偏差。本文的目的是提醒公共衛生領域的實證研究人員,根據對非隨機性來源的假設(“對可觀察對象的選擇”與“對不可觀察對象的選擇”),可應用的統計方法是不同的。傾向評分匹配隻是這些方法中的一種。此外,一些更先進的治療評估統計方法的討論,如差異中的差異(DID)和回歸不連續設計,在本文中沒有涉及。有興趣的讀者可以參考卡梅倫和特裏維迪[4]。

參考文獻
  1. Rosenbum PR, Rubin DB(1983)傾向評分在因果效應觀察研究中的中心作用。生物統計學70:41-55。[Ref。
  2. Becker SO, Ichino A(2002)基於傾向評分的平均治療效果估計。科學通報2:358-377。[Ref。
  3. Cameron AC, Trivedi PK(2010)使用Stata的微觀計量經濟學。Stata出版社,College Station TX。[Ref。
  4. Cameron AC, Trivedi PK(2005)微觀計量經濟學:方法和應用。劍橋大學出版社,紐約。[Ref。

在此下載臨時PDF

PDF

條信息

文章類型:簡短的溝通

引用:劉娥(2016)傾向-得分匹配是糾正觀察性研究中自我選擇偏差的靈丹妙藥。流行病學公共衛生版1(2):doi http://dx.doi.org/10.16966/2471-8211.109

版權:©2016 Liu E.這是一篇開放獲取的文章,根據創作共用署名許可協議(Creative Commons Attribution License)發布,該協議允許在任何媒體上不受限製地使用、發布和複製,前提是注明原作者和來源。

出版的曆史:

  • 收到日期:2015年12月24日

  • 接受日期:2016年2月01

  • 發表日期:2016年2月05