Angrist & Pischke, Mostly Harmless Econometrics — Sections 4.4–4.5
Chapter 4 Part 2: LATE & 이질적 효과
English핵심 메시지
처치효과가 이질적일 때(사람마다 처치 혜택이 다를 때), IV는 국소 평균 처치효과(LATE)를 추정한다 — 도구변수에 의해 처치 상태가 바뀌는 하위집단인 순응자(compliers)에 대한 인과효과.
이 파트의 핵심 질문들:
- 이질적 효과에서 IV는 무엇을 추정하는가? → LATE (순응자에 대한 효과)
- 순응자는 누구인가? → 도구변수에 따라 처치가 바뀌는 사람들
- LATE와 ATE, ATT의 관계는? → 일반적으로 다르지만, 특수한 경우에 일치
- 2SLS는 어떻게 일반화되는가? → 공변량별 LATE의 가중평균
4.4 이질적 잠재적 결과에서의 IV
이질성이 중요한 이유
동질적 효과(y1i − y0i = ρ, 모든 i)는 비현실적. 사람마다 처치 혜택이 다르다. 이는 두 가지 우려를 제기:
- 내적 타당성: IV가 정확히 무엇을 추정하는가?
- 외적 타당성: 결과가 다른 집단으로 일반화되는가?
4.4.1 LATE 정리 (Imbens & Angrist, 1994)
네 가지 가정
| 가정 | 수식 | 직관 |
|---|---|---|
| A1: 독립성 | {yi(d,z), d1i, d0i} ⊥ zi | 도구변수가 무작위 배정과 같음 |
| A2: 배제 | yi(d, 0) = yi(d, 1) | 도구변수는 처치를 통해서만 결과에 영향 |
| A3: 1단계 | E[d1i − d0i] ≠ 0 | 도구변수가 평균적으로 처치에 영향 |
| A4: 단조성 | d1i ≥ d0i, 모든 i | 도구변수가 누구도 처치에서 멀어지게 하지 않음 |
LATE 정리:
IV 추정량 = 순응자의 평균 인과효과
증명 스케치
분자 (축약형):
E[yi|z=1] − E[yi|z=0] = E[(y1i−y0i)(d1i−d0i)]
단조성에 의해 (d1i−d0i)는 0 또는 1이므로:
= E[y1i−y0i | d1i>d0i] × P[d1i>d0i]
분모 (1단계): E[d1i−d0i] = P[d1i>d0i]
나누면 순응 확률이 소거되어 LATE가 남는다.
왜 단조성이 필요한가?
단조성이 없으면 "거역자(defiers)" (d1i < d0i)가 존재. 축약형이:
양의 효과가 거역자에 의해 상쇄될 수 있어 축약형이 오도적일 수 있다.
4.4.2 순응자 하위집단
도구변수는 모집단을 세 그룹으로 분할:
| 그룹 | 정의 | 징병 추첨 예시 |
|---|---|---|
| 순응자 | d1i=1, d0i=0 | 징병 대상 때문에 복무 |
| 항상-처치자 | d1i=d0i=1 | 어차피 자원입대 |
| 비순응자 | d1i=d0i=0 | 어차피 면제/연기 |
일반적으로 LATE ≠ ATE ≠ ATT:
- ATT (처치자에 대한 효과) = 항상-처치자와 순응자 효과의 가중평균
- ATE (평균 처치효과) = 세 그룹 모두의 효과 가중평균
- LATE = 순응자에 대한 효과만
특수한 경우
| 시나리오 | 예시 | 이유 |
|---|---|---|
| 항상-처치자 없음: E[d|z=0]=0 | JTPA 훈련 실험 | 처치자 = 순응자만 → LATE = ATT |
| 비순응자 없음: d1i=1, 모든 i | 쌍둥이 도구변수 | 비처치자 = 순응자만 → LATE = E[y₁−y₀|d=0] |
4.4.3 무작위 실험에서의 IV (Bloom 1984)
일방적 비순응(처치 배정받은 일부가 거부, 통제군은 처치 불가)이 있는 무작위 실험에서:
Bloom의 결과: E[di|zi=0] = 0이면:
예시: JTPA 훈련 실험
| 훈련 여부별 (OLS) | 배정 여부별 (ITT) | IV 추정치 (ATT) | |
|---|---|---|---|
| 남성 | $3,970 | $1,117 | $1,825 |
| 여성 | $2,133 | $1,243 | $1,942 |
OLS(실제 훈련 여부)는 선택 편의로 과대추정. ITT는 60%만 순응하여 과소추정. IV = ITT ÷ 0.6 = 순응자 인과효과 = ATT.
4.4.4 순응자의 크기와 특성 파악
순응자 특성 비율: 이진 특성 x1i에 대해,
이 비율 > 1이면 순응자가 해당 특성을 가질 확률이 불균형적으로 높다.
4.5 LATE의 일반화
4.5.1 다중 도구변수
두 도구변수 z1i, z2i가 각자의 순응자 그룹을 가질 때, 2SLS는:
도구변수별 LATE의 가중평균. 1단계가 강한 도구변수에 더 큰 가중치 부여.
4.5.2 이질적 효과 모형에서의 공변량
도구변수가 공변량 Xi에 조건부로만 유효할 때:
조건부 독립성: {y1i, y0i, d1i, d0i} ⊥ zi | Xi
포화 및 가중 정리 (Angrist & Imbens 1995)
완전 포화 1단계와 포화 공변량 모형으로 2SLS하면:
공변량별 LATE의 가중평균. 도구변수가 처치에 더 많은 변동을 만드는 X 값에 더 큰 가중치.
Abadie의 카파 가중 (Abadie 2003)
2SLS는 순응자의 인과 반응 함수 E[yi | di, Xi, 순응자]를 근사한다. P(z=1|X)에 선형 모형을 사용하면 Abadie 추정량 = 2SLS.
4.5.3 다중값 처치의 평균 인과 반응
처치가 다중값(예: 교육연수 s ∈ {0, 1, …, S})일 때:
ACR 정리 (Angrist & Imbens 1995):
인과 반응 함수를 따라 단위 인과효과의 가중평균. 가중치는 해당 지점에서의 처치 CDF 이동에 비례.
적용: 의무교육법
Acemoglu & Angrist (2000)는 아동노동법과 의무교육법이 주로 8~12학년 범위에서 교육 분포를 이동시키고, 대학 교육에는 영향이 없음을 보여준다. 따라서 이 도구변수를 사용한 IV는 고등학교 수준의 교육 수익률을 포착한다.
연속 처치: 평균 미분
처치가 연속(예: 가격)이면 IV 추정량은 가중 평균 미분:
예: Angrist, Graddy & Imbens (2000)는 날씨 도구변수를 사용하여 Fulton 어시장의 수요 탄력성을 추정. 폭풍이 가격을 올리고, IV는 폭풍으로 인한 가격 변동 범위에 걸쳐 평균화된 수요 탄력성을 복원.
적용: Angrist & Evans (1998) — 출산과 노동공급
연구 질문: 셋째 자녀 출산이 여성의 노동공급을 인과적으로 감소시키는가?
식별 문제
자녀 2명 vs 3명 이상인 어머니의 단순 OLS 비교는 인과관계와 선택을 혼동: 자녀가 많은 여성은 본래 가정 중심적 선호가 강할 수 있어 자녀 수와 노동공급 모두에 영향.
셋째 자녀를 위한 두 가지 도구변수
자녀가 2명 이상인 어머니를 대상으로, 두 가지 외생적 변동 활용:
| 둘째 출산 시 쌍둥이 | 첫 두 자녀 동성 | |
|---|---|---|
| 논리 | 쌍둥이가 기계적으로 자녀 ≥3명을 만듦 | 부모가 성별 다양성을 선호 → 셋째 시도 확률 ↑ |
| 1단계 | 0.625 (매우 강함) | 0.067 (약함) |
| 타당성 | 쌍둥이 출산은 본질적으로 무작위 | 자녀 성별 구성은 무작위 |
추정 결과
| 결과변수 | OLS | Twins IV | Same-sex IV |
|---|---|---|---|
| 취업 여부 | −0.167 | −0.083 | −0.135 |
| 연간 근로주수 | −8.05 | −3.83 | −6.23 |
추정치가 다른 이유: 순응자가 다르다
각 도구변수는 서로 다른 순응자 하위집단의 효과를 식별:
Twins 순응자 = 쌍둥이가 아니었으면 셋째를 낳지 않았을 어머니들
- 나이 많고, 교육 수준 높고, 커리어 확립
- 2명만 계획 → 쌍둥이로 강제 3명
- → 노동공급 감소가 작음 (커리어 애착이 충격을 완충)
Same-sex 순응자 = 성별 다양성 선호로 셋째를 낳게 된 어머니들
- 젊고, 교육 수준 낮고, 커리어 초기 단계
- 가족 구성에 대한 강한 선호
- → 노동공급 감소가 큼 (낮은 커리어 애착, 높은 기회비용)
ATE / ATT / ITT / LATE 관점에서의 매핑
| 추정량 | 정의 | 이 연구에서 |
|---|---|---|
| ATE | E[Y(1)−Y(0)], 전체 모집단 | 2자녀 모든 어머니가 셋째를 낳으면 — 직접 관측 불가 |
| ATT | E[Y(1)−Y(0)|D=1], 처치자 | 실제로 셋째를 낳은 어머니 — OLS(−0.167)가 추정 시도하나 선택 편의 |
| ITT | E[Y|Z=1]−E[Y|Z=0], 할당별 | 쌍둥이/동성에 "배정"된 것의 효과 — 축약형, 항상 불편 |
| LATE | E[Y(1)−Y(0)|순응자] | Twins: −0.083 | Same-sex: −0.135 — 다른 순응자 → 다른 LATE |
수학적 관계
ATE = E[Y₁−Y₀|C]·πC + E[Y₁−Y₀|AT]·πAT + E[Y₁−Y₀|NT]·πNT
ATT = E[Y₁−Y₀|C]·πC/(πC+πAT) + E[Y₁−Y₀|AT]·πAT/(πC+πAT)
ITT = LATE × πC (항상 불편, |ITT| ≤ |LATE|)
LATE = E[Y₁−Y₀ | 순응자] = ITT / 1단계
크기 관계 요약
| 관계 | 조건 |
|---|---|
| |ITT| < |LATE| | 항상 (순응률 < 1일 때) |
| ATT ≥ ATE (보통) | 효과 큰 사람이 선택적으로 참여 |
| LATE = ATT | 항상-처치자 없음 (Bloom 1984) |
| LATE₁ ≠ LATE₂ | 다른 IV → 다른 순응자 (Angrist & Evans) |
| LATE = ATE | 동질적 처치효과 (모든 사람에게 효과 동일) |
방법론 → 추정량 연결
| 방법론 | 추정하는 효과 | 일반화 범위 |
|---|---|---|
| RCT (완전 순응) | ATE | 넓음 |
| RCT (비순응) + IV | LATE | 순응자 한정 |
| DID / Matching / PSM | ATT | 처치군과 비슷한 집단 |
| RDD | LATE at cutoff | Cutoff 근처 한정 |
Angrist & Evans의 핵심 교훈:
- LATE ≠ ATE ≠ ATT. OLS(−0.167), Twins IV(−0.083), Same-sex IV(−0.135) 모두 같은 연구 질문에 다른 숫자.
- 다른 도구변수 → 다른 순응자 → 다른 LATE. 도구변수 선택이 누구의 효과를 추정하는지를 결정.
- 순응자 특성이 차이를 설명. 추정치 차이는 무작위가 아니라 각 순응자 집단의 인구통계학적 구성으로 체계적으로 설명됨.
- 정책적 함의가 달라진다. 취업 효과 −8% vs −17%는 완전히 다른 보육정책 결론으로 이어짐.
Part 2 요약
| 개념 | 핵심 포인트 |
|---|---|
| LATE | IV = E[y₁−y₀ | 순응자], 일반적으로 ATE나 ATT와 다름 |
| 네 가지 가정 | 독립성, 배제, 1단계, 단조성 |
| 단조성 | 거역자 없음; 영향받는 모든 사람이 같은 방향으로 이동 |
| Bloom의 결과 | 일방적 비순응 → LATE = ATT |
| 다중 도구변수 | 2SLS = 도구변수별 LATE의 가중평균 |
| ACR 정리 | 다중값 처치 → 반응 함수를 따른 단위 인과효과의 가중평균 |
실용적 시사점: 다른 도구변수는 다른 하위집단에 대한 효과를 추정한다. 순응자가 누구인지 이해하는 것이 IV 추정치의 의미와 일반화 가능성을 해석하는 데 핵심적이다.
Suhyeon Lee