Angrist Ch.2 - The Experimental Ideal

Chapter 2: The Experimental Ideal

English

Angrist & Pischke, Mostly Harmless Econometrics

핵심 메시지

가장 신뢰할 수 있고 영향력 있는 연구 설계는 무작위 배정(random assignment)을 사용한다.

2.1 선택 편의 문제 (The Selection Problem)

동기 예시: 병원이 사람들을 더 건강하게 만드는가?

NHIS(National Health Interview Survey) 데이터로 입원 경험에 따른 건강 상태 비교:

그룹	표본 크기	평균 건강 상태	표준오차
입원 경험 있음	7,774	2.79	0.014
입원 경험 없음	90,049	2.07	0.003

차이: 0.71 (t-통계량 = 58.9) → 표면적으로 병원에 가면 더 아파 보임!

왜 이런 결과가? 병원에 가는 사람들은 애초에 더 아픈 사람들이다.

잠재적 결과 프레임워크 (Potential Outcomes Framework)

Rubin Causal Model의 핵심 개념 (Rubin, 1974, 1977; Holland, 1986)

표기법:

D_i ∈ {0, 1}: 처치 여부 (예: 병원 방문)
Y_i: 관측된 결과
Y_1i: 처치를 받았을 때의 잠재적 결과
Y_0i: 처치를 받지 않았을 때의 잠재적 결과

개인 i의 인과효과: Y_1i − Y_0i

관측된 결과:

Y_i = Y_0i + (Y_1i − Y_0i) · D_i

선택 편의의 공식적 분해 (Step by Step)

Step 1: 시작점

우리가 관측할 수 있는 것:

E[Y_i | D_i = 1] − E[Y_i | D_i = 0]

"병원 간 사람들의 평균 건강" − "안 간 사람들의 평균 건강"

Step 2: 관측된 Y를 잠재적 결과로 바꾸기

핵심: D_i = 1인 사람은 Y_1i만 관측, D_i = 0인 사람은 Y_0i만 관측

E[Y_i | D_i = 1] = E[Y_1i | D_i = 1]
E[Y_i | D_i = 0] = E[Y_0i | D_i = 0]

따라서:

E[Y_i|D_i=1] − E[Y_i|D_i=0] = E[Y_1i|D_i=1] − E[Y_0i|D_i=0]

Step 3: 트릭! 같은 항을 더했다 빼기

E[Y_0i | D_i = 1]을 더했다가 빼면 (= 0을 더하는 것):

= E[Y_1i|D_i=1] − E[Y_0i|D_i=1] + E[Y_0i|D_i=1] − E[Y_0i|D_i=0]
↑ 이 두 항은 서로 상쇄 = 0

Step 4: 항을 재배열

Step 5: 각 항의 의미

항	수식	의미
ATT	E[Y_1i − Y_0i \| D_i=1]	처치받은 사람들의 평균 처치효과
Selection Bias	E[Y_0i\|D_i=1] − E[Y_0i\|D_i=0]	처치 안 받았을 때 기저 상태의 차이

직관적 이해

ATT (Average Treatment effect on the Treated):

E[Y_1i | D_i = 1]: 병원 간 사람들의 (병원 간 후) 건강
E[Y_0i | D_i = 1]: 병원 간 사람들이 만약 안 갔다면 가졌을 건강
차이 = 병원의 진짜 효과

Selection Bias:

E[Y_0i | D_i = 1]: 병원 간 사람들이 안 갔어도 가졌을 건강 (원래 아픔)
E[Y_0i | D_i = 0]: 병원 안 간 사람들의 건강 (원래 건강함)
차이 = 애초에 다른 사람들이라서 생기는 차이

숫자 예시

	병원 간 사람	병원 안 간 사람
관측된 건강 E[Y_i\|D_i]	2.79	2.07
안 갔으면 건강 E[Y_0i\|D_i]	3.50 (관측 불가)	2.07

관측된 차이: 2.79 − 2.07 = 0.72

분해:

ATT = 2.79 − 3.50 = −0.71 (병원이 건강하게 만듦!)
Selection Bias = 3.50 − 2.07 = +1.43 (원래 아픈 사람이 병원 감)

0.72 = −0.71 + +1.43
관측 = ATT + Selection Bias

→ 선택 편의(+1.43)가 진짜 효과(−0.71)를 완전히 가려버림!

2.2 무작위 배정이 선택 편의를 해결하는 방법

핵심 원리: 무작위 배정은 D_i를 잠재적 결과와 독립(independent)으로 만든다.

수학적 유도

무작위 배정 하에서:

E[Y_i|D_i=1] − E[Y_i|D_i=0]

= E[Y_1i|D_i=1] − E[Y_0i|D_i=0]

= E[Y_1i|D_i=1] − E[Y_0i|D_i=1] (독립성에 의해)

= E[Y_1i − Y_0i|D_i=1]

= E[Y_1i − Y_0i] (= ATE, 평균 처치효과)

→ 선택 편의가 사라지고, 평균 처치효과(ATE)를 직접 추정 가능!

실증 사례: 비실험 vs 무작위 실험

연구 분야	비실험적 비교	무작위 실험 결과
호르몬 대체 요법 (HRT)	Nurses Health Study: HRT 사용자가 더 건강	Women's Health Initiative: 효과 거의 없음, 심각한 부작용 발견
직업 훈련 프로그램	참가자가 비참가자보다 소득 낮음	대부분 양의 효과 (Lalonde, 1986)

2.3 Tennessee STAR 실험

실험 개요

목적: 학급 규모가 학생 성취도에 미치는 영향 추정
시기: 1985/86년 시작, 4년간 진행 (유치원 → 3학년)
규모: 약 11,600명, 비용 약 $12 million
처치 집단:
1. 소규모 학급 (13-17명)
2. 일반 학급 (22-25명) + 파트타임 보조교사
3. 일반 학급 + 풀타임 보조교사

무작위 배정 검증 (Balance Check)

무작위 배정이 성공했는지 확인하기 위해 사전 특성을 비교:

변수	소규모	일반	일반/보조	P-value
무료 급식	.47	.48	.50	.09
백인/아시아인	.68	.67	.66	.26
1985년 나이	5.44	5.43	5.42	.32
유치원 학급 규모	15.10	22.40	22.80	.00
유치원 백분위 점수	54.70	48.90	50.00	.00

✅ 학생 특성(무료 급식, 인종, 나이)은 집단 간 균형 → 무작위 배정 성공

주요 결과

변수	(1)	(2)	(3)	(4)
소규모 학급	4.82 (2.19)	5.37 (1.26)	5.36 (1.21)	5.37 (1.19)
일반/보조 학급	.12 (2.23)	.29 (1.13)	.53 (1.09)	.31 (1.07)
학교 고정효과	No	Yes	Yes	Yes
학생 특성 통제	No	No	Yes	Yes

핵심 결과:

소규모 학급 효과: 약 5-6 백분위 점수 상승
효과 크기: 약 0.2 표준편차 (σ)
일반/보조 학급 효과: 작고 통계적으로 유의하지 않음

2.4 이탈 문제 (Attrition Problem)

정의

이탈(Attrition): 실험 도중 참가자가 빠져나가는 것

STAR 실험에서의 이탈

시점	학생 수
시작 (유치원)	~11,600명
종료 (3학년)	일부 이탈

이탈 이유:

전학
자퇴
실험 거부
데이터 누락

왜 문제인가?

핵심: 이탈이 무작위가 아닐 수 있다!

시나리오	문제
소규모 학급에서 성적 낮은 학생이 더 많이 전학	남은 학생 평균 ↑ → 효과 과대추정
일반 학급에서 성적 높은 학생이 더 많이 전학	남은 학생 평균 ↓ → 효과 과대추정

→ 무작위 배정이 깨짐! → 선택 편의 다시 발생

수식으로 이해

처음에 무작위 배정 성공:

E[Y_0i | D_i = 1] = E[Y_0i | D_i = 0]

이탈 후:

E[Y_0i | D_i = 1, 남음] ≠ E[Y_0i | D_i = 0, 남음]

→ 남은 사람들끼리는 더 이상 비교 가능하지 않을 수 있음!

이탈 문제 해결 방법

방법	설명
이탈률 비교	처치/통제 그룹 간 이탈률이 비슷한지 확인
이탈자 특성 비교	누가 빠졌는지 분석 (어떤 특성을 가진 사람이 이탈했나?)
Bounds 분석	최악/최선 시나리오로 효과의 범위 추정
ITT 분석	이탈 여부 상관없이 원래 배정 기준으로 분석 (Intent-to-Treat)

ITT (Intent-to-Treat) 분석:

원래 배정된 그룹 기준으로 분석
실제로 처치를 받았는지 여부는 무시
이탈로 인한 선택 편의를 피할 수 있음
단점: 실제 처치 효과를 과소추정할 수 있음

2.5 실험 데이터의 회귀분석

상수 처치효과 모형

처치효과가 모든 개인에게 동일하다고 가정 (Y_1i − Y_0i = ρ):

Y_i = α + ρ D_i + η_i

α = E(Y_0i) ρ = 처치효과 η_i = Y_0i − E(Y_0i)

선택 편의의 회귀적 표현

E[Y_i|D_i=1] − E[Y_i|D_i=0] = ρ + [E[η_i|D_i=1] − E[η_i|D_i=0]]

■ ρ: 처치효과
■ 선택 편의: 오차항 η_i와 설명변수 D_i 간의 상관관계

무작위 배정 시: 선택 편의 = 0 → 회귀계수가 인과효과를 추정

공변량(Covariates)의 역할

긴 회귀모형:

Y_i = α + ρD_i + X_i'γ + η_i

역할	설명	STAR 예시
1. 조건부 무작위 배정 통제	특정 변수 내에서만 무작위 배정된 경우 해당 변수 통제 필요	학교 내에서만 무작위 배정 → 학교 고정효과 포함
2. 추정 정밀도 향상	X_i가 D_i와 상관없더라도 Y_i의 분산을 설명하면 표준오차 감소	인종, 나이, 무료급식 통제 → 표준오차 감소 (1.26 → 1.21)

준실험적 접근: Angrist & Lavy (1999)

무작위 실험이 불가능할 때, 자연실험(Natural Experiment)을 활용

배경: 이스라엘 학급 규모 상한 = 40명 (Maimonides' Rule)

5학년 코호트 40명 → 학급 규모 40명
5학년 코호트 41명 → 학급이 둘로 분리 → 학급 규모 약 20명

핵심 가정

40명 vs 41명 코호트의 학생들은 능력, 가정환경 등에서 유사 → "무작위 배정과 같은(as good as randomly assigned)" 상황

결과 비교

분석 방법	결과
단순 비교 (Naive)	작은 학급 학생들의 점수가 더 낮음 (선택 편의)
준실험적 분석 (RDD)	학급 규모와 성취도 간 강한 양의 관계

Chapter 2 요약

개념	설명
잠재적 결과	Y_1i, Y_0i: 처치 여부에 따른 가상의 결과
인과효과	Y_1i − Y_0i: 개인의 처치효과
선택 편의	처치/비처치 집단 간 기저 특성 차이
무작위 배정	D_i와 잠재적 결과를 독립으로 만들어 선택 편의 제거
자연실험	외생적 변이를 활용하여 무작위 실험을 근사

Appendix: 실험 데이터의 회귀분석 심화

A.1 왜 회귀분석을 쓰는가?

실험에서 처치 효과를 추정하는 가장 간단한 방법:

Ȳ_처치 − Ȳ_통제

이걸 회귀분석으로 하면:

Y_i = α + ρD_i + η_i

여기서 ρ̂가 바로 Ȳ_처치 − Ȳ_통제와 동일!

왜 굳이 회귀분석?

공변량 통제 쉬움
표준오차 계산 편리
다양한 모형 확장 가능

A.2 상수 처치효과 모형의 유도

가정: 모든 사람에게 처치효과가 동일

Y_1i − Y_0i = ρ (상수)

잠재적 결과를 분해하면:

Y_0i = E[Y_0i] + (Y_0i − E[Y_0i])

Y_0i = α + η_i

α = 평균 η_i = 개인별 편차

관측된 결과:

Y_i = Y_0i + (Y_1i − Y_0i) · D_i
= (α + η_i) + ρ · D_i
= α + ρD_i + η_i

항	의미
α	E[Y_0i], 처치 안 받았을 때 평균 결과
ρ	Y_1i − Y_0i, 처치 효과
η_i	Y_0i − E[Y_0i], 개인별 랜덤 오차

A.3 선택 편의의 회귀적 해석

회귀모형에서 조건부 기댓값:

E[Y_i | D_i = 1] = α + ρ + E[η_i | D_i = 1]
E[Y_i | D_i = 0] = α + E[η_i | D_i = 0]

차이를 구하면:

E[Y_i|D_i=1] − E[Y_i|D_i=0] = ρ + (E[η_i|D_i=1] − E[η_i|D_i=0])

■ ρ: 처치효과
■ 선택 편의: 오차항 η_i와 처치변수 D_i 간의 상관관계

이는 앞서 본 선택 편의와 동일:

E[η_i|D_i=1] − E[η_i|D_i=0] = E[Y_0i|D_i=1] − E[Y_0i|D_i=0]

A.4 무작위 배정 → OLS가 인과효과 추정

무작위 배정 시:

D_i ⊥ η_i

따라서:

E[η_i | D_i = 1] = E[η_i | D_i = 0] = E[η_i] = 0

결과:

E[Y_i | D_i = 1] − E[Y_i | D_i = 0] = ρ

→ OLS로 추정한 ρ̂가 인과효과!

A.5 공변량 추가의 두 가지 역할

긴 회귀모형:

Y_i = α + ρD_i + X_i'γ + η_i

역할 1: 조건부 무작위 배정 통제

STAR 실험의 경우:

학교 내에서 무작위 배정
학교 간에는 무작위가 아님 (도시 학교 vs 농촌 학교)

Y_i = α + ρD_i + Σ_j δ_j · 𝟙[School_i = j] + η_i

왜 필요한가?

학교	처치 확률	평균 성적
도시 A	40%	높음
농촌 B	30%	낮음

→ 학교 통제 안 하면 처치효과가 오염될 수 있음

역할 2: 추정 정밀도 향상

핵심 원리: X_i가 Y_i의 분산을 설명하면, 잔차 분산이 줄어들어 ρ̂의 표준오차 감소

Short regression: Y_i = α + ρD_i + η_i

Var(ρ̂) ∝ Var(η_i) / n

Long regression: Y_i = α + ρD_i + X_i'γ + η̃_i

Var(ρ̂) ∝ Var(η̃_i) / n

X_i가 Y_i를 잘 설명하면 Var(η̃_i) < Var(η_i)

STAR 실험 결과:

모형	소규모 학급 효과	표준오차
통제변수 없음	5.37	1.26
학생 특성 통제	5.36	1.21

→ 추정치는 거의 동일, 표준오차만 감소!

A.6 중요한 포인트: Short vs Long Regression

무작위 배정이 성공했으면:

ρ̂_short ≈ ρ̂_long

왜? D_i가 X_i와 상관없으니까!

수학적으로 (Omitted Variable Bias 공식):

ρ̂_short = ρ̂_long + γ̂ · Cov(D_i, X_i) / Var(D_i)
↑ 무작위 배정 시 ≈ 0

A.7 요약

상황	회귀분석 결과
무작위 배정 O	ρ̂ = 인과효과 (ATE)
무작위 배정 X	ρ̂ = 인과효과 + 선택편의
공변량 추가 (무작위 시)	추정치 동일, 표준오차 감소
공변량 추가 (조건부 무작위 시)	반드시 필요 (편의 제거)

참고문헌

Krueger, A. B. (1999). Experimental estimates of education production functions. QJE.
Angrist, J. D., & Lavy, V. (1999). Using Maimonides' rule to estimate the effect of class size. QJE.
Rubin, D. B. (1974). Estimating causal effects of treatments. Journal of Educational Psychology.
Holland, P. W. (1986). Statistics and causal inference. JASA.
Lalonde, R. J. (1986). Evaluating the econometric evaluations of training programs. AER.