Angrist Ch.4-1 - IV 기초, Wald & 2SLS

Chapter 4 Part 1: IV 기초, Wald & 2SLS

English

Angrist & Pischke, Mostly Harmless Econometrics — Sections 4.1–4.3

핵심 메시지

도구변수(IV)는 결과에 처치를 통해서만 영향을 미치는 변수(도구변수)를 활용하여 누락변수 편의를 해결한다. IV 추정량은 축약형(도구변수 → 결과)을 1단계(도구변수 → 처치)로 나눈 비율이다.

이 파트의 핵심 질문들:

IV가 유효하려면 어떤 가정이 필요한가? → 배제제약 + 1단계
2SLS는 어떻게 작동하는가? → 내생변수를 1단계 적합값으로 대체
Wald 추정량이란? → 이진 도구변수를 사용하는 가장 단순한 IV
집단 데이터와 2SLS의 관계는? → 더미 도구변수의 2SLS = 집단 평균의 GLS

4.1 IV와 인과관계

IV가 해결하는 문제

필요한 모든 통제변수가 포함된 "긴 회귀식(long regression)"이 아래와 같다고 가정하자:

y_i = α + ρs_i + A_i'γ + v_i

여기서 A_i("능력")가 교육연수 s_i와 v_i의 상관을 제거한다. A_i가 관측 불가능하면, "짧은 회귀식" y_i = α + ρ̃s_i + ε_i의 OLS는 편의를 가진다. IV는 A_i를 관측하지 않고도 이 문제를 해결한다.

IV 설정 (동질적 효과)

도구변수 z_i는 두 가지 조건을 만족해야 한다:

조건	수식	의미
관련성 (1단계)	Cov(s_i, z_i) ≠ 0	도구변수가 실제로 처치에 영향을 미침
배제제약	Cov(ε_i, z_i) = 0	도구변수는 처치를 통해서만 결과에 영향

IV 추정량

ρ = Cov(y_i, z_i) / Cov(s_i, z_i) = 축약형 / 1단계

인과효과는 두 회귀계수의 비율이다:

축약형(Reduced form): y_i를 z_i에 회귀 (도구변수가 결과에 미치는 영향)
1단계(First stage): s_i를 z_i에 회귀 (도구변수가 처치에 미치는 영향)

예시: 출생 분기 (Angrist & Krueger 1991)

논리: 취학연령 규칙 + 의무교육법 → 연초 출생 아동이 약간 적은 교육을 받음.

처치: 교육연수 (s_i)
도구변수: 출생 분기 (z_i)
결과: 로그 주급 (y_i)

왜 유효한가? 생년월일은 본질적으로 무작위이며, 교육을 통해서만 소득에 영향을 미친다고 볼 수 있다.

두 개의 방정식

1단계: s_i = X_i'π₁₀ + π₁₁z_i + η_1i

축약형: y_i = X_i'π₂₀ + π₂₁z_i + η_2i

IV 추정량은 ρ = π₂₁ / π₁₁이며, 이를 간접최소제곱(ILS) 추정량이라고도 한다.

4.1.1 2단계 최소제곱법 (2SLS)

1단계: 내생변수를 도구변수와 공변량에 회귀하여 적합값을 구한다.

ŝ_i = X_i'π̂₁₀ + π̂₁₁z_i

2단계: 결과변수를 적합값과 공변량에 회귀한다.

y_i = δ'X_i + ρŝ_i + [ε_i + (s_i − ŝ_i)]

왜 작동하는가?

ŝ_i는 도구변수에 의해 발생한 변동만 보존
이 준실험적 변동은 오차항과 무상관
도구변수가 하나이면, 2SLS = ILS (축약형 ÷ 1단계)

다중 도구변수

세 개의 출생 분기 더미(z_1i, z_2i, z_3i)를 사용하면 1단계는:

s_i = X_i'π₁₀ + π₁₁z_1i + π₁₂z_2i + π₁₃z_3i + η_1i

2SLS는 여러 도구변수를 최적으로 결합하여 하나의 적합값을 만든다.

결과: 교육의 수익률

모형	OLS	2SLS	도구변수
통제변수 없음	0.075	0.103 (0.024)	QOB=1 더미
YOB + SOB 더미	0.072	0.108 (0.019)	QOB 더미 3개
+ QOB×YOB 교호작용	0.072	0.089 (0.016)	30개 도구변수

2SLS 추정치가 OLS보다 약간 크므로, 이 경우 능력 편의가 교육-소득 관계를 주도하지 않음을 시사한다.

4.1.2 Wald 추정량

가장 단순한 IV: 단일 이진 도구변수, 공변량 없음.

Wald 공식:

ρ = [E(y_i|z_i=1) − E(y_i|z_i=0)] / [E(s_i|z_i=1) − E(s_i|z_i=0)]

= 결과 평균의 차이 ÷ 처치 평균의 차이

예시 1: 교육의 수익률

	Q1–Q2 출생	Q3–Q4 출생	차이
ln(주급)	5.8916	5.9051	−0.01349
교육연수	12.6881	12.8394	−0.1514
Wald 추정치			0.0891 (0.021)

예시 2: 베트남 징병 추첨 (Angrist 1990)

설정: 무작위 징병 추첨번호 → 징병 대상 → 군 복무 → 소득

도구변수: 징병 대상 여부 (무작위, 이진)
처치: 참전 여부
징병 대상자는 복무 확률이 15.9%p 높았음
Wald 추정치: 군 복무로 1981년 소득 약 $2,741 감소

타당성 검증: 1969년 소득(추첨 이전)에는 효과 없음 → 도구변수가 깨끗함.

예시 3: 출산과 노동공급 (Angrist & Evans 1998)

자녀 2명 이상인 여성에서 셋째 출산에 대한 두 가지 도구변수:

결과	OLS	쌍둥이 IV (1단계: 0.625)	동성 IV (1단계: 0.067)
취업	−0.167	−0.083	−0.135
근로 주수	−8.05	−3.83	−6.23

다른 도구변수가 다른 추정치를 제공 → 이질적 효과를 예고 (Part 2에서 다룸).

4.1.3 집단 데이터와 2SLS

핵심 통찰: 더미 도구변수의 2SLS = 집단 평균의 GLS = 모든 가능한 Wald 추정량의 효율적 선형 결합.

도구변수가 이산값 (j = 1, …, J)을 취할 때, 집단 평균 ȳ_j와 p̂_j를 정의한다. 집단 회귀:

ȳ_j = α + ρp̂_j + ε̄_j

집단 크기 n_j로 가중한 GLS = 집단 더미를 도구변수로 사용한 2SLS.

시각적 도구변수 (VIV)

VIV 도표는 도구변수 셀별로 평균 결과 vs. 처치 확률을 보여준다. 이 점들을 통과하는 직선의 기울기가 IV 추정치이다. IV 전략의 강력한 시각적 점검 도구.

4.2 2SLS의 점근적 추론

표준오차

주의: "수동 2SLS" (y를 ŝ에 OLS 회귀)는 잘못된 표준오차를 제공한다. 올바른 오차 분산은 구조적 잔차 ε_i의 분산이지, 2단계 잔차 ε_i + (s_i − ŝ_i)의 분산이 아니다.

과대식별 검정

도구변수가 내생변수보다 많을 때(과대식별), 모든 도구변수가 같은 답을 주는지 검정할 수 있다.

과대식별 검정 통계량: H₀: E[Z_iε_i] = 0 하에서, 최소화된 2SLS 목적함수는 χ²(q−1) 분포를 따른다.

계산: 2SLS 잔차를 모든 도구변수와 공변량에 회귀한 R²에 N을 곱한 값.

주의사항: 과대식별 검정의 실용적 가치는 제한적이다.

IV 추정치가 부정확하면, 검정력이 낮아 나쁜 도구변수도 기각하지 못함
IV 추정치가 정확하면, 기각은 도구변수 실패가 아닌 처치효과 이질성 때문일 수 있음

4.3 2표본 IV와 분할표본 IV

2표본 IV (TSIV)

IV는 표본 적률만으로 구성할 수 있다. 1단계와 축약형 데이터가 같은 데이터셋에서 올 필요가 없으며, 같은 모집단에서 추출되면 된다.

TSIV가 유용한 경우: 단일 데이터셋에 필요한 모든 변수가 없을 때. 예:

데이터셋 1 (SSA 기록): 소득 + 추첨번호 → 축약형
데이터셋 2 (군사 기록): 참전 여부 + 추첨번호 → 1단계

분할표본 IV (SSIV)

Angrist & Krueger (1995)가 제안한 계산적으로 간단한 TSIV 추정량:

데이터셋 2에서 1단계 추정: π̂ = (Z₂'Z₂)⁻¹Z₂'W₂
교차 표본 적합값 구성: Ŵ₁₂ = Z₁π̂
데이터셋 1에서 y₁을 Ŵ₁₂에 회귀

SSIV는 과대식별 모형의 편의 감소에도 도움이 된다 (Part 3에서 논의).

Part 1 요약

개념	핵심 포인트
IV 추정량	ρ = Cov(y, z) / Cov(s, z) = 축약형 ÷ 1단계
배제제약	z는 s를 통해서만 y에 영향
2SLS	내생변수를 1단계 적합값으로 대체
Wald 추정량	결과 평균 차이 ÷ 처치 평균 차이 (이진 z)
집단 데이터 = 2SLS	더미 도구변수의 집단 평균 GLS = 2SLS

IV 레시피:

(a) 처치와 상관되고, (b) 오차항과 무상관인 도구변수 찾기
1단계 추정 — 약하면 걱정 (Part 3에서 상세 논의)
축약형 확인 — 도구변수의 인과효과로, 항상 비편향
IV = 축약형 ÷ 1단계 계산