Angrist & Pischke, Mostly Harmless Econometrics — Sections 4.1–4.3
Chapter 4 Part 1: IV 기초, Wald & 2SLS
English핵심 메시지
도구변수(IV)는 결과에 처치를 통해서만 영향을 미치는 변수(도구변수)를 활용하여 누락변수 편의를 해결한다. IV 추정량은 축약형(도구변수 → 결과)을 1단계(도구변수 → 처치)로 나눈 비율이다.
이 파트의 핵심 질문들:
- IV가 유효하려면 어떤 가정이 필요한가? → 배제제약 + 1단계
- 2SLS는 어떻게 작동하는가? → 내생변수를 1단계 적합값으로 대체
- Wald 추정량이란? → 이진 도구변수를 사용하는 가장 단순한 IV
- 집단 데이터와 2SLS의 관계는? → 더미 도구변수의 2SLS = 집단 평균의 GLS
4.1 IV와 인과관계
IV가 해결하는 문제
필요한 모든 통제변수가 포함된 "긴 회귀식(long regression)"이 아래와 같다고 가정하자:
여기서 Ai("능력")가 교육연수 si와 vi의 상관을 제거한다. Ai가 관측 불가능하면, "짧은 회귀식" yi = α + ρ̃si + εi의 OLS는 편의를 가진다. IV는 Ai를 관측하지 않고도 이 문제를 해결한다.
IV 설정 (동질적 효과)
도구변수 zi는 두 가지 조건을 만족해야 한다:
| 조건 | 수식 | 의미 |
|---|---|---|
| 관련성 (1단계) | Cov(si, zi) ≠ 0 | 도구변수가 실제로 처치에 영향을 미침 |
| 배제제약 | Cov(εi, zi) = 0 | 도구변수는 처치를 통해서만 결과에 영향 |
IV 추정량
인과효과는 두 회귀계수의 비율이다:
- 축약형(Reduced form): yi를 zi에 회귀 (도구변수가 결과에 미치는 영향)
- 1단계(First stage): si를 zi에 회귀 (도구변수가 처치에 미치는 영향)
예시: 출생 분기 (Angrist & Krueger 1991)
논리: 취학연령 규칙 + 의무교육법 → 연초 출생 아동이 약간 적은 교육을 받음.
- 처치: 교육연수 (si)
- 도구변수: 출생 분기 (zi)
- 결과: 로그 주급 (yi)
왜 유효한가? 생년월일은 본질적으로 무작위이며, 교육을 통해서만 소득에 영향을 미친다고 볼 수 있다.
두 개의 방정식
축약형: yi = Xi'π20 + π21zi + η2i
IV 추정량은 ρ = π21 / π11이며, 이를 간접최소제곱(ILS) 추정량이라고도 한다.
4.1.1 2단계 최소제곱법 (2SLS)
1단계: 내생변수를 도구변수와 공변량에 회귀하여 적합값을 구한다.
2단계: 결과변수를 적합값과 공변량에 회귀한다.
왜 작동하는가?
- ŝi는 도구변수에 의해 발생한 변동만 보존
- 이 준실험적 변동은 오차항과 무상관
- 도구변수가 하나이면, 2SLS = ILS (축약형 ÷ 1단계)
다중 도구변수
세 개의 출생 분기 더미(z1i, z2i, z3i)를 사용하면 1단계는:
2SLS는 여러 도구변수를 최적으로 결합하여 하나의 적합값을 만든다.
결과: 교육의 수익률
| 모형 | OLS | 2SLS | 도구변수 |
|---|---|---|---|
| 통제변수 없음 | 0.075 | 0.103 (0.024) | QOB=1 더미 |
| YOB + SOB 더미 | 0.072 | 0.108 (0.019) | QOB 더미 3개 |
| + QOB×YOB 교호작용 | 0.072 | 0.089 (0.016) | 30개 도구변수 |
2SLS 추정치가 OLS보다 약간 크므로, 이 경우 능력 편의가 교육-소득 관계를 주도하지 않음을 시사한다.
4.1.2 Wald 추정량
가장 단순한 IV: 단일 이진 도구변수, 공변량 없음.
Wald 공식:
= 결과 평균의 차이 ÷ 처치 평균의 차이
예시 1: 교육의 수익률
| Q1–Q2 출생 | Q3–Q4 출생 | 차이 | |
|---|---|---|---|
| ln(주급) | 5.8916 | 5.9051 | −0.01349 |
| 교육연수 | 12.6881 | 12.8394 | −0.1514 |
| Wald 추정치 | 0.0891 (0.021) | ||
예시 2: 베트남 징병 추첨 (Angrist 1990)
설정: 무작위 징병 추첨번호 → 징병 대상 → 군 복무 → 소득
- 도구변수: 징병 대상 여부 (무작위, 이진)
- 처치: 참전 여부
- 징병 대상자는 복무 확률이 15.9%p 높았음
- Wald 추정치: 군 복무로 1981년 소득 약 $2,741 감소
타당성 검증: 1969년 소득(추첨 이전)에는 효과 없음 → 도구변수가 깨끗함.
예시 3: 출산과 노동공급 (Angrist & Evans 1998)
자녀 2명 이상인 여성에서 셋째 출산에 대한 두 가지 도구변수:
| 결과 | OLS | 쌍둥이 IV (1단계: 0.625) | 동성 IV (1단계: 0.067) |
|---|---|---|---|
| 취업 | −0.167 | −0.083 | −0.135 |
| 근로 주수 | −8.05 | −3.83 | −6.23 |
다른 도구변수가 다른 추정치를 제공 → 이질적 효과를 예고 (Part 2에서 다룸).
4.1.3 집단 데이터와 2SLS
핵심 통찰: 더미 도구변수의 2SLS = 집단 평균의 GLS = 모든 가능한 Wald 추정량의 효율적 선형 결합.
도구변수가 이산값 (j = 1, …, J)을 취할 때, 집단 평균 ȳj와 p̂j를 정의한다. 집단 회귀:
집단 크기 nj로 가중한 GLS = 집단 더미를 도구변수로 사용한 2SLS.
시각적 도구변수 (VIV)
VIV 도표는 도구변수 셀별로 평균 결과 vs. 처치 확률을 보여준다. 이 점들을 통과하는 직선의 기울기가 IV 추정치이다. IV 전략의 강력한 시각적 점검 도구.
4.2 2SLS의 점근적 추론
표준오차
주의: "수동 2SLS" (y를 ŝ에 OLS 회귀)는 잘못된 표준오차를 제공한다. 올바른 오차 분산은 구조적 잔차 εi의 분산이지, 2단계 잔차 εi + (si − ŝi)의 분산이 아니다.
과대식별 검정
도구변수가 내생변수보다 많을 때(과대식별), 모든 도구변수가 같은 답을 주는지 검정할 수 있다.
과대식별 검정 통계량: H0: E[Ziεi] = 0 하에서, 최소화된 2SLS 목적함수는 χ²(q−1) 분포를 따른다.
계산: 2SLS 잔차를 모든 도구변수와 공변량에 회귀한 R²에 N을 곱한 값.
주의사항: 과대식별 검정의 실용적 가치는 제한적이다.
- IV 추정치가 부정확하면, 검정력이 낮아 나쁜 도구변수도 기각하지 못함
- IV 추정치가 정확하면, 기각은 도구변수 실패가 아닌 처치효과 이질성 때문일 수 있음
4.3 2표본 IV와 분할표본 IV
2표본 IV (TSIV)
IV는 표본 적률만으로 구성할 수 있다. 1단계와 축약형 데이터가 같은 데이터셋에서 올 필요가 없으며, 같은 모집단에서 추출되면 된다.
TSIV가 유용한 경우: 단일 데이터셋에 필요한 모든 변수가 없을 때. 예:
- 데이터셋 1 (SSA 기록): 소득 + 추첨번호 → 축약형
- 데이터셋 2 (군사 기록): 참전 여부 + 추첨번호 → 1단계
분할표본 IV (SSIV)
Angrist & Krueger (1995)가 제안한 계산적으로 간단한 TSIV 추정량:
- 데이터셋 2에서 1단계 추정: π̂ = (Z₂'Z₂)⁻¹Z₂'W₂
- 교차 표본 적합값 구성: Ŵ₁₂ = Z₁π̂
- 데이터셋 1에서 y₁을 Ŵ₁₂에 회귀
SSIV는 과대식별 모형의 편의 감소에도 도움이 된다 (Part 3에서 논의).
Part 1 요약
| 개념 | 핵심 포인트 |
|---|---|
| IV 추정량 | ρ = Cov(y, z) / Cov(s, z) = 축약형 ÷ 1단계 |
| 배제제약 | z는 s를 통해서만 y에 영향 |
| 2SLS | 내생변수를 1단계 적합값으로 대체 |
| Wald 추정량 | 결과 평균 차이 ÷ 처치 평균 차이 (이진 z) |
| 집단 데이터 = 2SLS | 더미 도구변수의 집단 평균 GLS = 2SLS |
IV 레시피:
- (a) 처치와 상관되고, (b) 오차항과 무상관인 도구변수 찾기
- 1단계 추정 — 약하면 걱정 (Part 3에서 상세 논의)
- 축약형 확인 — 도구변수의 인과효과로, 항상 비편향
- IV = 축약형 ÷ 1단계 계산
Suhyeon Lee