Angrist Ch.4-2 - LATE & 이질적 효과

Chapter 4 Part 2: LATE & 이질적 효과

English

Angrist & Pischke, Mostly Harmless Econometrics — Sections 4.4–4.5

핵심 메시지

처치효과가 이질적일 때(사람마다 처치 혜택이 다를 때), IV는 국소 평균 처치효과(LATE)를 추정한다 — 도구변수에 의해 처치 상태가 바뀌는 하위집단인 순응자(compliers)에 대한 인과효과.

이 파트의 핵심 질문들:

이질적 효과에서 IV는 무엇을 추정하는가? → LATE (순응자에 대한 효과)
순응자는 누구인가? → 도구변수에 따라 처치가 바뀌는 사람들
LATE와 ATE, ATT의 관계는? → 일반적으로 다르지만, 특수한 경우에 일치
2SLS는 어떻게 일반화되는가? → 공변량별 LATE의 가중평균

4.4 이질적 잠재적 결과에서의 IV

이질성이 중요한 이유

동질적 효과(y_1i − y_0i = ρ, 모든 i)는 비현실적. 사람마다 처치 혜택이 다르다. 이는 두 가지 우려를 제기:

내적 타당성: IV가 정확히 무엇을 추정하는가?
외적 타당성: 결과가 다른 집단으로 일반화되는가?

4.4.1 LATE 정리 (Imbens & Angrist, 1994)

네 가지 가정

가정	수식	직관
A1: 독립성	{y_i(d,z), d_1i, d_0i} ⊥ z_i	도구변수가 무작위 배정과 같음
A2: 배제	y_i(d, 0) = y_i(d, 1)	도구변수는 처치를 통해서만 결과에 영향
A3: 1단계	E[d_1i − d_0i] ≠ 0	도구변수가 평균적으로 처치에 영향
A4: 단조성	d_1i ≥ d_0i, 모든 i	도구변수가 누구도 처치에서 멀어지게 하지 않음

LATE 정리:

[E(y_i|z_i=1) − E(y_i|z_i=0)] / [E(d_i|z_i=1) − E(d_i|z_i=0)]

= E[y_1i − y_0i | d_1i > d_0i]

IV 추정량 = 순응자의 평균 인과효과

증명 스케치

분자 (축약형):

E[y_i|z=1] − E[y_i|z=0] = E[(y_1i−y_0i)(d_1i−d_0i)]

단조성에 의해 (d_1i−d_0i)는 0 또는 1이므로:

= E[y_1i−y_0i | d_1i>d_0i] × P[d_1i>d_0i]

분모 (1단계): E[d_1i−d_0i] = P[d_1i>d_0i]

나누면 순응 확률이 소거되어 LATE가 남는다.

왜 단조성이 필요한가?

단조성이 없으면 "거역자(defiers)" (d_1i < d_0i)가 존재. 축약형이:

E[(y_1i−y_0i)|순응자]·P[순응자] − E[(y_1i−y_0i)|거역자]·P[거역자]

양의 효과가 거역자에 의해 상쇄될 수 있어 축약형이 오도적일 수 있다.

4.4.2 순응자 하위집단

도구변수는 모집단을 세 그룹으로 분할:

그룹	정의	징병 추첨 예시
순응자	d_1i=1, d_0i=0	징병 대상 때문에 복무
항상-처치자	d_1i=d_0i=1	어차피 자원입대
비순응자	d_1i=d_0i=0	어차피 면제/연기

일반적으로 LATE ≠ ATE ≠ ATT:

ATT (처치자에 대한 효과) = 항상-처치자와 순응자 효과의 가중평균
ATE (평균 처치효과) = 세 그룹 모두의 효과 가중평균
LATE = 순응자에 대한 효과만

특수한 경우

시나리오	예시	이유
항상-처치자 없음: E[d\|z=0]=0	JTPA 훈련 실험	처치자 = 순응자만 → LATE = ATT
비순응자 없음: d_1i=1, 모든 i	쌍둥이 도구변수	비처치자 = 순응자만 → LATE = E[y₁−y₀\|d=0]

4.4.3 무작위 실험에서의 IV (Bloom 1984)

일방적 비순응(처치 배정받은 일부가 거부, 통제군은 처치 불가)이 있는 무작위 실험에서:

Bloom의 결과: E[d_i|z_i=0] = 0이면:

ITT / 순응률 = E[y_1i−y_0i | d_i=1] = ATT

예시: JTPA 훈련 실험

	훈련 여부별 (OLS)	배정 여부별 (ITT)	IV 추정치 (ATT)
남성	$3,970	$1,117	$1,825
여성	$2,133	$1,243	$1,942

OLS(실제 훈련 여부)는 선택 편의로 과대추정. ITT는 60%만 순응하여 과소추정. IV = ITT ÷ 0.6 = 순응자 인과효과 = ATT.

4.4.4 순응자의 크기와 특성 파악

순응자 비율: P[d_1i > d_0i] = E[d_i|z_i=1] − E[d_i|z_i=0] = 1단계

순응자 특성 비율: 이진 특성 x_1i에 대해,

P[x_1i=1 | 순응자] / P[x_1i=1] = (x_1i=1 하위집단의 1단계) / (전체 1단계)

이 비율 > 1이면 순응자가 해당 특성을 가질 확률이 불균형적으로 높다.

4.5 LATE의 일반화

4.5.1 다중 도구변수

두 도구변수 z_1i, z_2i가 각자의 순응자 그룹을 가질 때, 2SLS는:

ρ_2SLS = λ·ρ₁ + (1−λ)·ρ₂

도구변수별 LATE의 가중평균. 1단계가 강한 도구변수에 더 큰 가중치 부여.

4.5.2 이질적 효과 모형에서의 공변량

도구변수가 공변량 X_i에 조건부로만 유효할 때:

조건부 독립성: {y_1i, y_0i, d_1i, d_0i} ⊥ z_i | X_i

포화 및 가중 정리 (Angrist & Imbens 1995)

완전 포화 1단계와 포화 공변량 모형으로 2SLS하면:

ρ_2SLS = E[ω(X_i) · LATE(X_i)]

공변량별 LATE의 가중평균. 도구변수가 처치에 더 많은 변동을 만드는 X 값에 더 큰 가중치.

Abadie의 카파 가중 (Abadie 2003)

2SLS는 순응자의 인과 반응 함수 E[y_i | d_i, X_i, 순응자]를 근사한다. P(z=1|X)에 선형 모형을 사용하면 Abadie 추정량 = 2SLS.

4.5.3 다중값 처치의 평균 인과 반응

처치가 다중값(예: 교육연수 s ∈ {0, 1, …, S})일 때:

ACR 정리 (Angrist & Imbens 1995):

IV 추정량 = Σ_s ω_s · E[Y_s − Y_s−1 | s_1i ≥ s > s_0i]

인과 반응 함수를 따라 단위 인과효과의 가중평균. 가중치는 해당 지점에서의 처치 CDF 이동에 비례.

적용: 의무교육법

Acemoglu & Angrist (2000)는 아동노동법과 의무교육법이 주로 8~12학년 범위에서 교육 분포를 이동시키고, 대학 교육에는 영향이 없음을 보여준다. 따라서 이 도구변수를 사용한 IV는 고등학교 수준의 교육 수익률을 포착한다.

연속 처치: 평균 미분

처치가 연속(예: 가격)이면 IV 추정량은 가중 평균 미분:

IV = ∫ q'(t) · ω(t) dt

예: Angrist, Graddy & Imbens (2000)는 날씨 도구변수를 사용하여 Fulton 어시장의 수요 탄력성을 추정. 폭풍이 가격을 올리고, IV는 폭풍으로 인한 가격 변동 범위에 걸쳐 평균화된 수요 탄력성을 복원.

적용: Angrist & Evans (1998) — 출산과 노동공급

연구 질문: 셋째 자녀 출산이 여성의 노동공급을 인과적으로 감소시키는가?

식별 문제

자녀 2명 vs 3명 이상인 어머니의 단순 OLS 비교는 인과관계와 선택을 혼동: 자녀가 많은 여성은 본래 가정 중심적 선호가 강할 수 있어 자녀 수와 노동공급 모두에 영향.

핵심 문제: 출산은 내생적 — 관찰 불가능한 선호가 자녀 수와 노동공급 결정을 동시에 주도.

셋째 자녀를 위한 두 가지 도구변수

자녀가 2명 이상인 어머니를 대상으로, 두 가지 외생적 변동 활용:

	둘째 출산 시 쌍둥이	첫 두 자녀 동성
논리	쌍둥이가 기계적으로 자녀 ≥3명을 만듦	부모가 성별 다양성을 선호 → 셋째 시도 확률 ↑
1단계	0.625 (매우 강함)	0.067 (약함)
타당성	쌍둥이 출산은 본질적으로 무작위	자녀 성별 구성은 무작위

추정 결과

결과변수	OLS	Twins IV	Same-sex IV
취업 여부	−0.167	−0.083	−0.135
연간 근로주수	−8.05	−3.83	−6.23

핵심 관찰: |OLS| > |Same-sex IV| > |Twins IV|. 같은 처치, 같은 결과변수인데 추정치가 다르다. 왜?

추정치가 다른 이유: 순응자가 다르다

각 도구변수는 서로 다른 순응자 하위집단의 효과를 식별:

Twins 순응자 = 쌍둥이가 아니었으면 셋째를 낳지 않았을 어머니들

나이 많고, 교육 수준 높고, 커리어 확립
2명만 계획 → 쌍둥이로 강제 3명
→ 노동공급 감소가 작음 (커리어 애착이 충격을 완충)

Same-sex 순응자 = 성별 다양성 선호로 셋째를 낳게 된 어머니들

젊고, 교육 수준 낮고, 커리어 초기 단계
가족 구성에 대한 강한 선호
→ 노동공급 감소가 큼 (낮은 커리어 애착, 높은 기회비용)

ATE / ATT / ITT / LATE 관점에서의 매핑

추정량	정의	이 연구에서
ATE	E[Y(1)−Y(0)], 전체 모집단	2자녀 모든 어머니가 셋째를 낳으면 — 직접 관측 불가
ATT	E[Y(1)−Y(0)\|D=1], 처치자	실제로 셋째를 낳은 어머니 — OLS(−0.167)가 추정 시도하나 선택 편의
ITT	E[Y\|Z=1]−E[Y\|Z=0], 할당별	쌍둥이/동성에 "배정"된 것의 효과 — 축약형, 항상 불편
LATE	E[Y(1)−Y(0)\|순응자]	Twins: −0.083 \| Same-sex: −0.135 — 다른 순응자 → 다른 LATE

수학적 관계

ATE = E[Y₁−Y₀|C]·π_C + E[Y₁−Y₀|AT]·π_AT + E[Y₁−Y₀|NT]·π_NT

ATT = E[Y₁−Y₀|C]·π_C/(π_C+π_AT) + E[Y₁−Y₀|AT]·π_AT/(π_C+π_AT)

ITT = LATE × π_C (항상 불편, |ITT| ≤ |LATE|)

LATE = E[Y₁−Y₀ | 순응자] = ITT / 1단계

크기 관계 요약

관계	조건
\|ITT\| < \|LATE\|	항상 (순응률 < 1일 때)
ATT ≥ ATE (보통)	효과 큰 사람이 선택적으로 참여
LATE = ATT	항상-처치자 없음 (Bloom 1984)
LATE₁ ≠ LATE₂	다른 IV → 다른 순응자 (Angrist & Evans)
LATE = ATE	동질적 처치효과 (모든 사람에게 효과 동일)

방법론 → 추정량 연결

방법론	추정하는 효과	일반화 범위
RCT (완전 순응)	ATE	넓음
RCT (비순응) + IV	LATE	순응자 한정
DID / Matching / PSM	ATT	처치군과 비슷한 집단
RDD	LATE at cutoff	Cutoff 근처 한정

Angrist & Evans의 핵심 교훈:

LATE ≠ ATE ≠ ATT. OLS(−0.167), Twins IV(−0.083), Same-sex IV(−0.135) 모두 같은 연구 질문에 다른 숫자.
다른 도구변수 → 다른 순응자 → 다른 LATE. 도구변수 선택이 누구의 효과를 추정하는지를 결정.
순응자 특성이 차이를 설명. 추정치 차이는 무작위가 아니라 각 순응자 집단의 인구통계학적 구성으로 체계적으로 설명됨.
정책적 함의가 달라진다. 취업 효과 −8% vs −17%는 완전히 다른 보육정책 결론으로 이어짐.

Part 2 요약

개념	핵심 포인트
LATE	IV = E[y₁−y₀ \| 순응자], 일반적으로 ATE나 ATT와 다름
네 가지 가정	독립성, 배제, 1단계, 단조성
단조성	거역자 없음; 영향받는 모든 사람이 같은 방향으로 이동
Bloom의 결과	일방적 비순응 → LATE = ATT
다중 도구변수	2SLS = 도구변수별 LATE의 가중평균
ACR 정리	다중값 처치 → 반응 함수를 따른 단위 인과효과의 가중평균

실용적 시사점: 다른 도구변수는 다른 하위집단에 대한 효과를 추정한다. 순응자가 누구인지 이해하는 것이 IV 추정치의 의미와 일반화 가능성을 해석하는 데 핵심적이다.