Chapter 4 Part 1: IV 기초, Wald & 2SLS

English

Angrist & Pischke, Mostly Harmless Econometrics — Sections 4.1–4.3

핵심 메시지

도구변수(IV)는 결과에 처치를 통해서만 영향을 미치는 변수(도구변수)를 활용하여 누락변수 편의를 해결한다. IV 추정량은 축약형(도구변수 → 결과)을 1단계(도구변수 → 처치)로 나눈 비율이다.

이 파트의 핵심 질문들:

  1. IV가 유효하려면 어떤 가정이 필요한가? → 배제제약 + 1단계
  2. 2SLS는 어떻게 작동하는가? → 내생변수를 1단계 적합값으로 대체
  3. Wald 추정량이란? → 이진 도구변수를 사용하는 가장 단순한 IV
  4. 집단 데이터와 2SLS의 관계는? → 더미 도구변수의 2SLS = 집단 평균의 GLS

4.1 IV와 인과관계

IV가 해결하는 문제

필요한 모든 통제변수가 포함된 "긴 회귀식(long regression)"이 아래와 같다고 가정하자:

yi = α + ρsi + Ai'γ + vi

여기서 Ai("능력")가 교육연수 si와 vi의 상관을 제거한다. Ai관측 불가능하면, "짧은 회귀식" yi = α + ρ̃si + εi의 OLS는 편의를 가진다. IV는 Ai를 관측하지 않고도 이 문제를 해결한다.

IV 설정 (동질적 효과)

도구변수 zi는 두 가지 조건을 만족해야 한다:

조건 수식 의미
관련성 (1단계) Cov(si, zi) ≠ 0 도구변수가 실제로 처치에 영향을 미침
배제제약 Cov(εi, zi) = 0 도구변수는 처치를 통해서만 결과에 영향

IV 추정량

ρ = Cov(yi, zi) / Cov(si, zi) = 축약형 / 1단계

인과효과는 두 회귀계수의 비율이다:

  • 축약형(Reduced form): yi를 zi에 회귀 (도구변수가 결과에 미치는 영향)
  • 1단계(First stage): si를 zi에 회귀 (도구변수가 처치에 미치는 영향)

예시: 출생 분기 (Angrist & Krueger 1991)

논리: 취학연령 규칙 + 의무교육법 → 연초 출생 아동이 약간 적은 교육을 받음.

  • 처치: 교육연수 (si)
  • 도구변수: 출생 분기 (zi)
  • 결과: 로그 주급 (yi)

왜 유효한가? 생년월일은 본질적으로 무작위이며, 교육을 통해서만 소득에 영향을 미친다고 볼 수 있다.

두 개의 방정식

1단계: si = Xi10 + π11zi + η1i

축약형: yi = Xi20 + π21zi + η2i

IV 추정량은 ρ = π21 / π11이며, 이를 간접최소제곱(ILS) 추정량이라고도 한다.

4.1.1 2단계 최소제곱법 (2SLS)

1단계: 내생변수를 도구변수와 공변량에 회귀하여 적합값을 구한다.

ŝi = Xi'π̂10 + π̂11zi

2단계: 결과변수를 적합값과 공변량에 회귀한다.

yi = δ'Xi + ρŝi + [εi + (si − ŝi)]

왜 작동하는가?

  • ŝi는 도구변수에 의해 발생한 변동 보존
  • 이 준실험적 변동은 오차항과 무상관
  • 도구변수가 하나이면, 2SLS = ILS (축약형 ÷ 1단계)

다중 도구변수

세 개의 출생 분기 더미(z1i, z2i, z3i)를 사용하면 1단계는:

si = Xi10 + π11z1i + π12z2i + π13z3i + η1i

2SLS는 여러 도구변수를 최적으로 결합하여 하나의 적합값을 만든다.

결과: 교육의 수익률

모형 OLS 2SLS 도구변수
통제변수 없음 0.075 0.103 (0.024) QOB=1 더미
YOB + SOB 더미 0.072 0.108 (0.019) QOB 더미 3개
+ QOB×YOB 교호작용 0.072 0.089 (0.016) 30개 도구변수

2SLS 추정치가 OLS보다 약간 크므로, 이 경우 능력 편의가 교육-소득 관계를 주도하지 않음을 시사한다.

4.1.2 Wald 추정량

가장 단순한 IV: 단일 이진 도구변수, 공변량 없음.

Wald 공식:

ρ = [E(yi|zi=1) − E(yi|zi=0)] / [E(si|zi=1) − E(si|zi=0)]

= 결과 평균의 차이 ÷ 처치 평균의 차이

예시 1: 교육의 수익률

Q1–Q2 출생 Q3–Q4 출생 차이
ln(주급) 5.8916 5.9051 −0.01349
교육연수 12.6881 12.8394 −0.1514
Wald 추정치 0.0891 (0.021)

예시 2: 베트남 징병 추첨 (Angrist 1990)

설정: 무작위 징병 추첨번호 → 징병 대상 → 군 복무 → 소득

  • 도구변수: 징병 대상 여부 (무작위, 이진)
  • 처치: 참전 여부
  • 징병 대상자는 복무 확률이 15.9%p 높았음
  • Wald 추정치: 군 복무로 1981년 소득 약 $2,741 감소

타당성 검증: 1969년 소득(추첨 이전)에는 효과 없음 → 도구변수가 깨끗함.

예시 3: 출산과 노동공급 (Angrist & Evans 1998)

자녀 2명 이상인 여성에서 셋째 출산에 대한 두 가지 도구변수:

결과 OLS 쌍둥이 IV (1단계: 0.625) 동성 IV (1단계: 0.067)
취업 −0.167 −0.083 −0.135
근로 주수 −8.05 −3.83 −6.23

다른 도구변수가 다른 추정치를 제공 → 이질적 효과를 예고 (Part 2에서 다룸).

4.1.3 집단 데이터와 2SLS

핵심 통찰: 더미 도구변수의 2SLS = 집단 평균의 GLS = 모든 가능한 Wald 추정량의 효율적 선형 결합.

도구변수가 이산값 (j = 1, …, J)을 취할 때, 집단 평균 ȳj와 p̂j를 정의한다. 집단 회귀:

ȳj = α + ρp̂j + ε̄j

집단 크기 nj로 가중한 GLS = 집단 더미를 도구변수로 사용한 2SLS.

시각적 도구변수 (VIV)

VIV 도표는 도구변수 셀별로 평균 결과 vs. 처치 확률을 보여준다. 이 점들을 통과하는 직선의 기울기가 IV 추정치이다. IV 전략의 강력한 시각적 점검 도구.

4.2 2SLS의 점근적 추론

표준오차

주의: "수동 2SLS" (y를 ŝ에 OLS 회귀)는 잘못된 표준오차를 제공한다. 올바른 오차 분산은 구조적 잔차 εi의 분산이지, 2단계 잔차 εi + (si − ŝi)의 분산이 아니다.

과대식별 검정

도구변수가 내생변수보다 많을 때(과대식별), 모든 도구변수가 같은 답을 주는지 검정할 수 있다.

과대식별 검정 통계량: H0: E[Ziεi] = 0 하에서, 최소화된 2SLS 목적함수는 χ²(q−1) 분포를 따른다.

계산: 2SLS 잔차를 모든 도구변수와 공변량에 회귀한 R²에 N을 곱한 값.

주의사항: 과대식별 검정의 실용적 가치는 제한적이다.

  • IV 추정치가 부정확하면, 검정력이 낮아 나쁜 도구변수도 기각하지 못함
  • IV 추정치가 정확하면, 기각은 도구변수 실패가 아닌 처치효과 이질성 때문일 수 있음

4.3 2표본 IV와 분할표본 IV

2표본 IV (TSIV)

IV는 표본 적률만으로 구성할 수 있다. 1단계와 축약형 데이터가 같은 데이터셋에서 올 필요가 없으며, 같은 모집단에서 추출되면 된다.

TSIV가 유용한 경우: 단일 데이터셋에 필요한 모든 변수가 없을 때. 예:

  • 데이터셋 1 (SSA 기록): 소득 + 추첨번호 → 축약형
  • 데이터셋 2 (군사 기록): 참전 여부 + 추첨번호 → 1단계

분할표본 IV (SSIV)

Angrist & Krueger (1995)가 제안한 계산적으로 간단한 TSIV 추정량:

  1. 데이터셋 2에서 1단계 추정: π̂ = (Z₂'Z₂)⁻¹Z₂'W₂
  2. 교차 표본 적합값 구성: Ŵ₁₂ = Z₁π̂
  3. 데이터셋 1에서 y₁을 Ŵ₁₂에 회귀

SSIV는 과대식별 모형의 편의 감소에도 도움이 된다 (Part 3에서 논의).

Part 1 요약

개념 핵심 포인트
IV 추정량 ρ = Cov(y, z) / Cov(s, z) = 축약형 ÷ 1단계
배제제약 z는 s를 통해서만 y에 영향
2SLS 내생변수를 1단계 적합값으로 대체
Wald 추정량 결과 평균 차이 ÷ 처치 평균 차이 (이진 z)
집단 데이터 = 2SLS 더미 도구변수의 집단 평균 GLS = 2SLS

IV 레시피:

  1. (a) 처치와 상관되고, (b) 오차항과 무상관인 도구변수 찾기
  2. 1단계 추정 — 약하면 걱정 (Part 3에서 상세 논의)
  3. 축약형 확인 — 도구변수의 인과효과로, 항상 비편향
  4. IV = 축약형 ÷ 1단계 계산
← Chapter 3: 회귀분석의 이해 Part 2: LATE & 이질적 효과 →
이 노트는 LLM (Claude)의 도움을 받아 작성되었습니다.