Angrist Ch.3 - Making Regression Make Sense

Chapter 3: Making Regression Make Sense

English

Angrist & Pischke, Mostly Harmless Econometrics

핵심 메시지

회귀분석은 조건부 기댓값 함수(CEF)에 대한 최선의 선형 근사를 제공하기 때문에 유용하다. 회귀분석이 언제 인과적인지는 조건부 독립 가정(CIA)에 달려 있다.

이 장의 핵심 질문들:

회귀분석은 무엇을 추정하는가? → CEF (또는 그 근사)
회귀분석은 언제 인과관계를 말해주는가? → CIA가 성립할 때
통제변수를 추가하면 어떻게 되는가? → OVB 공식
어떤 변수를 통제해야 하는가? → Bad control 문제

3.1 회귀분석의 기초

3.1.1 조건부 기댓값 함수 (CEF)

정의

CEF는 X_i가 주어졌을 때 Y_i의 기댓값:

E[Y_i | X_i]

직관: "X가 특정 값일 때, Y의 평균은 얼마인가?"

X = 교육 연수 12년인 사람들의 평균 임금
X = 교육 연수 16년인 사람들의 평균 임금
이런 점들을 모두 연결한 함수가 CEF

예시: 교육 연수별 로그 임금의 CEF

교육을 더 받은 사람이 평균적으로 더 많이 번다
연간 약 10% 수익률 (Mincer equation)
이 관계가 선형인지, 비선형인지는 별개의 문제

반복 기댓값의 법칙 (Law of Iterated Expectations)

무조건부 기댓값은 CEF의 기댓값과 같다:

E[Y_i] = E{ E[Y_i | X_i] }

직관: 전체 평균 = (각 그룹 평균의) 가중평균

수학적 유도:

E[Y_i] = Σ_x E[Y_i | X_i = x] · P(X_i = x)

= E_X[ E[Y_i | X_i] ]

CEF의 세 가지 핵심 성질

성질 1: CEF 분해 (CEF Decomposition Property)

Y_i = E[Y_i | X_i] + ε_i

여기서 ε_i ≡ Y_i − E[Y_i | X_i]

ε_i의 두 가지 중요한 특성:

평균 독립 (Mean Independence): E[ε_i | X_i] = 0
직교성: ε_i는 X_i의 모든 함수 h(X_i)와 상관 없음

증명 (평균 독립):

E[ε_i | X_i] = E[Y_i − E[Y_i | X_i] | X_i]
= E[Y_i | X_i] − E[Y_i | X_i] = 0

→ 모든 확률변수는 "X로 설명되는 부분"(CEF)과 직교하는 잔차로 분해 가능

성질 2: CEF 예측 (CEF Prediction Property)

E[Y_i | X_i] = arg min_m(X) E[(Y_i − m(X_i))²]

CEF는 X가 주어졌을 때 Y의 최소 평균제곱오차(MMSE) 예측자

직관:

X만 알고 Y를 예측해야 한다면?
어떤 함수 m(X)를 써야 예측 오차가 최소?
정답: CEF! (어떤 다른 함수도 CEF보다 잘 예측 못함)

성질 3: ANOVA 정리 (ANOVA Variance Decomposition)

V(Y_i) = V(E[Y_i | X_i]) + E[V(Y_i | X_i)]

총 분산 = X로 설명되는 분산 + 잔차 분산

유도:

→ 이것이 R²의 이론적 기초!

3.1.2 선형 회귀와 CEF

모집단 회귀함수

모집단 회귀계수는 다음 최소화 문제의 해:

β = arg min_b E[(Y_i − X_i'b)²]

1차 조건 (FOC):

∂/∂b E[(Y_i − X_i'b)²] = 0

E[−2X_i(Y_i − X_i'b)] = 0

E[X_iY_i] = E[X_iX_i']b

해:

β = E[X_iX_i']⁻¹ E[X_iY_i]

이변량 회귀의 특수 경우:

β = Cov(X_i, Y_i) / V(X_i)

→ 익숙한 공식!

회귀 해부학 (Regression Anatomy / Frisch-Waugh-Lovell)

다변량 회귀에서 k번째 회귀변수의 계수:

β_k = Cov(Y_i, x̃_ki) / V(x̃_ki)

여기서 x̃_ki는 x_ki를 다른 모든 공변량에 회귀시킨 잔차

Frisch-Waugh-Lovell 정리 (단계별):

Y_i = β₀ + β₁x_1i + β₂x_2i + e_i 에서 β₁을 구하려면:

Step 1: x₁을 x₂에 회귀: x_1i = γ₀ + γ₁x_2i + x̃_1i
Step 2: 잔차 x̃_1i 저장 ("x₂로 설명 안 되는 x₁의 변이")
Step 3: Y를 x̃₁에 회귀: Y_i = α + β₁x̃_1i + error
이 β₁이 원래 다변량 회귀의 β₁과 동일!

해석: 다변량 회귀의 각 계수는 다른 변수들을 "제거(partialling out)"한 후의 이변량 기울기

회귀분석을 정당화하는 세 가지 정리

정리	내용	적용 조건
1. 선형 CEF 정리	CEF가 선형이면, 회귀함수 = CEF	결합 정규분포, 포화 모형
2. 최선 선형 예측자	X'β는 Y의 최선 선형 예측자 (MMSE)	항상
3. 회귀-CEF 정리	X'β는 E[Y\|X]에 대한 최선의 선형 근사	항상 (CEF가 비선형이어도)

정리 1 상세: 선형 CEF

CEF가 선형인 두 가지 경우:

결합 정규분포: (Y_i, X_i)가 결합 정규분포이면 E[Y_i|X_i]는 X_i에서 선형
포화 모형: X가 이산형이고 모든 상호작용을 포함하면 회귀 = CEF

정리 3 상세: 회귀-CEF 정리 (가장 중요!)

β = arg min_b E[(E[Y_i|X_i] − X_i'b)²]

의미: CEF가 비선형이더라도, 회귀분석은 그것에 대한 최선의 선형 근사를 제공한다!

핵심 통찰: 이것이 회귀분석 사용의 가장 일반적인 정당화!

CEF가 실제로 선형인지 몰라도 됨
회귀분석은 항상 CEF에 대한 좋은 요약을 제공
특히 평균 효과(average effects)에 관심 있을 때 유용

3.1.3 점근적 OLS 추론

OLS 추정량

β̂ = (Σ_i X_iX_i')⁻¹ Σ_i X_iY_i

= (X'X)⁻¹X'Y

핵심 점근 결과

결과	수식	의미
대수의 법칙 (LLN)	(1/n)Σ X_iX_i' →^p E[X_iX_i']	표본 적률 → 모집단 적률
중심극한정리 (CLT)	√n(β̂ − β) →^d N(0, V)	점근 정규성
슬러츠키 정리	-	확률 수렴 → 상수 대체 가능
연속 사상 정리	-	확률 극한은 연속 함수 통과
델타 방법	-	점근 정규 변수의 함수도 점근 정규

OLS의 일치성 증명

β̂ = (X'X/n)⁻¹(X'Y/n)

X'Y/n = (1/n) Σ X_iY_i →^p E[X_iY_i] (by LLN)

X'X/n = (1/n) Σ X_iX_i' →^p E[X_iX_i'] (by LLN)

∴ β̂ →^p E[X_iX_i']⁻¹ E[X_iY_i] = β

이분산-강건 표준오차 (Robust SE)

점근 분산:

Avar(β̂) = E[X_iX_i']⁻¹ E[X_iX_i'e_i²] E[X_iX_i']⁻¹

"Meat" (샌드위치의 고기)

왜 강건 SE를 쓰는가?

CEF가 비선형이면, 잔차가 X에 따라 변함 → 이분산은 자연스러움
기본(동분산) SE는 E[e_i² | X_i] = σ² (상수) 가정
강건 SE는 이 가정 없이도 유효
Eicker-Huber-White 표준오차라고도 불림

동분산 가정 하의 단순화:

E[e_i² | X_i] = σ² 이면:

Avar(β̂) = σ² · E[X_iX_i']⁻¹

→ 이게 Stata/SAS가 기본으로 보고하는 SE

3.1.4 포화 모형 (Saturated Models)

정의

포화 모형: X가 취할 수 있는 모든 값에 대해 별도의 파라미터를 갖는 모형

→ 가능한 셀의 수 = 파라미터의 수

예: 두 개의 더미 (x₁ = 대졸, x₂ = 여성):

비포화 (가산) 모형:

Y_i = α + β·x_1i + γ·x_2i + ε_i

포화 모형:

Y_i = α + β·x_1i + γ·x_2i + δ·(x_1i·x_2i) + ε_i

그룹	x₁	x₂	가산 모형	포화 모형
비대졸 남성	0	0	α	α
대졸 남성	1	0	α + β	α + β
비대졸 여성	0	1	α + γ	α + γ
대졸 여성	1	1	α + β + γ	α + β + γ + δ

항	명칭	해석
β, γ	주효과 (Main effects)	각 변수의 개별 효과
δ	상호작용 항 (Interaction)	대졸 효과가 성별에 따라 어떻게 다른지

핵심: 포화 모형은 CEF를 완벽하게 적합시킨다. 왜냐하면 이산형 X에 대해 CEF는 더미 회귀변수에서 선형이기 때문.

모형 계층:

✅ 포화 모형 → CEF와 완벽히 일치
⚠️ 상호작용 없는 가산 모형 → CEF의 근사 (제약을 부과)
❌ 주효과 없이 상호작용만 포함 → 해석 어려움!

3.2 회귀와 인과관계

핵심 질문: 회귀분석이 언제 인과적 해석을 가지는가?

답: 회귀가 근사하는 CEF가 인과적일 때, 즉 조건부 독립 가정(CIA)이 성립할 때.

3.2.1 조건부 독립 가정 (CIA)

설정: 잠재적 결과

교육 연수 s에 대해:

Y_si = f_i(s): 개인 i가 s년 교육을 받았을 때의 잠재적 소득
s_i: 실제 교육 연수
관측된 소득: Y_i = f_i(s_i)

CIA (Conditional Independence Assumption):

{Y_0i, Y_1i, ..., Y_si, ...} ⊥ s_i | X_i

"잠재적 결과는 X가 주어지면 실제 교육 연수와 독립"

CIA의 다른 이름들

Selection on observables (관측 가능 변수에 의한 선택)
Unconfoundedness (무교란성)
Ignorability (무시가능성)
Exogeneity (외생성)

CIA의 의미

핵심 직관:

X_i가 교육과 잠재적 결과가 상관되는 모든 이유를 포착
X가 주어지면, 교육은 "무작위 배정된 것과 같다"
X가 같은 사람들 중에서는 교육 수준이 잠재적 결과와 무관

예시:

X에 포함	왜?
부모 교육 수준	자녀 교육과 능력 모두에 영향
가구 소득	교육 기회와 네트워크에 영향
IQ / 능력 점수	교육 선택과 소득 잠재력에 영향

CIA의 함의

CIA가 성립하면, 조건부 비교는 인과적:

→ 교육 수준 간 평균 소득 차이가 인과적 해석을 가짐!

CIA에서 회귀로

Step 1: 선형 상수 효과 모형 가정

f_i(s) = α + ρs + η_i

여기서:

ρ = 교육 1년의 인과효과 (모든 사람에게 동일)
η_i = 잠재적 소득의 랜덤 부분 (개인별 이질성)

Step 2: η_i를 분해

η_i = X_i'γ + v_i

여기서:

X_i'γ = X로 설명되는 η의 부분
v_i = 설명 안 되는 나머지

Step 3: 인과적 회귀 모형

Y_i = α + ρs_i + X_i'γ + v_i

CIA가 성립하면:

E[v_i | s_i, X_i] = 0
v_i는 s_i와 X_i 모두와 상관 없음
→ OLS로 추정한 ρ̂가 인과효과!

3.2.2 누락변수 편의 (OVB) 공식

설정:

"긴" 회귀 (능력 A_i를 통제):

Y_i = α^l + ρ^ls_i + A_i'γ^l + ε_i^l

"짧은" 회귀 (A_i 없음):

Y_i = α^s + ρ^ss_i + ε_i^s

OVB 공식

ρ^s = ρ^l + γ^l'δ_As

짧은 = 긴 + (누락변수 효과) × (누락변수의 포함변수에 대한 회귀)

여기서 δ_As는 A_i를 s_i에 회귀시킨 계수

OVB 공식 유도 (Step by Step)

Step 1: 짧은 회귀의 계수 정의

ρ^s = Cov(Y_i, s_i) / V(s_i)

Step 2: Y_i에 긴 회귀식 대입

Y_i = α^l + ρ^ls_i + γ^lA_i + ε_i^l

Step 3: Cov(Y_i, s_i) 계산

Cov(Y_i, s_i) = Cov(ρ^ls_i + γ^lA_i + ε_i^l, s_i)
= ρ^l·V(s_i) + γ^l·Cov(A_i, s_i) + 0

Step 4: V(s_i)로 나누기

ρ^s = ρ^l + γ^l · Cov(A_i, s_i) / V(s_i)
↑ = δ_As

OVB의 부호 판단

편의 = γ^l × δ_As

	δ_As > 0	δ_As < 0
γ^l > 0	양의 편의 (과대추정)	음의 편의 (과소추정)
γ^l < 0	음의 편의 (과소추정)	양의 편의 (과대추정)

적용: 교육의 수익률

통제변수	교육 계수	해석
없음	0.132	-
연령 더미	0.131	거의 변화 없음
+ 가족 배경	0.114	↓ 감소
+ AFQT 점수	0.087	↓ 크게 감소
+ 직업 더미	0.066	⚠️ Bad control?

출처: NLSY 데이터

OVB 공식으로 해석:

가족 배경, AFQT를 통제하면 계수 감소
왜? γ > 0 (능력 → 임금 ↑) AND δ_As > 0 (능력 ↔ 교육 양의 상관)
→ 짧은 회귀가 과대추정하고 있었음

3.2.3 나쁜 통제 (Bad Control)

정의:

나쁜 통제: 처치의 결과(outcome)인 변수
좋은 통제: 처치 이전에 결정된 변수

예시 1: 직업 통제

교육 회귀에서 직업을 통제해야 할까?

문제: 대학은 직업 선택에 영향을 미친다!

w_i = 1 (화이트칼라 직업)
대학 → 화이트칼라 가능성 ↑

화이트칼라 내에서 대졸 vs 비대졸 비교:

E[Y_i | w_i=1, c_i=1] − E[Y_i | w_i=1, c_i=0]

= E[Y_1i − Y_0i | w_1i=1] + {E[Y_0i | w_1i=1] − E[Y_0i | w_0i=1]}

↑ 새로운 선택 편의!

왜 편의가 생기나?

화이트칼라인 대졸자 = 평범한 대졸자
화이트칼라인 비대졸자 = 예외적인 비대졸자 (특별히 능력 있음)
→ 다른 종류의 사람들을 비교하는 것!

예시 2: 대리 통제 문제 (Proxy Control)

교육 후에 측정된 "늦은" 능력 변수 (예: 성인 IQ)를 쓰면?

al_i = π₀ + π₁s_i + π₂a_i + u_i

여기서:

al_i = 늦게 측정된 능력
a_i = 진짜 능력
π₁ > 0: 교육이 측정된 능력을 높임

결과: 늦은 능력을 통제하면 교육 계수가 하향 편의

왜? 교육의 일부 효과가 al을 통해 전달되는데, al을 통제하면 이 경로가 차단됨

핵심 원칙

타이밍이 중요하다!

통제변수 종류	통제?	예시
처치 이전에 측정된 변수	✅ 좋은 통제	부모 교육, 어린 시절 IQ
처치의 결과인 변수	❌ 나쁜 통제	직업, 결혼 상태
처치 이후 측정된 변수	⚠️ 주의	성인 IQ, 성인 건강

인과 다이어그램으로 이해

좋은 통제 (X):

X → D → Y
X → Y

X를 통제하면 D→Y 경로만 남음 ✅

나쁜 통제 (M):

D → M → Y
D → Y

M을 통제하면 D→M→Y 경로가 차단됨 ❌

Chapter 3 요약

개념	핵심 포인트
CEF	E[Y\|X] - X가 주어졌을 때 Y의 MMSE 예측자
회귀	CEF에 대한 최선의 선형 근사 (항상!)
회귀 해부학	β_k = 다른 X 제거 후 이변량 기울기 (FWL)
CIA	Y_s ⊥ s \| X - 회귀를 인과적으로 만듦
OVB 공식	짧은 = 긴 + (누락 효과) × (누락의 포함에 대한 회귀)
나쁜 통제	처치의 결과인 변수는 통제하지 말 것

핵심 메시지

회귀는 CEF의 근사: CEF가 비선형이어도 회귀는 유용한 요약
인과성은 CIA에 달림: 관측변수 통제 후 처치가 무작위와 같아야
OVB를 이해하라: 통제변수 추가/제거의 효과를 예측 가능
타이밍이 중요: 처치 이전 변수만 통제할 것

핵심 공식 정리

CEF 분해	Y_i = E[Y_i\|X_i] + ε_i
ANOVA	V(Y) = V(E[Y\|X]) + E[V(Y\|X)]
OLS	β = E[XX']⁻¹E[XY]
OVB	ρ^s = ρ^l + γ'δ

참고문헌

Barnow, B., Cain, G., & Goldberger, A. (1981). Selection on observables. Evaluation Studies Review Annual.
White, H. (1980). A heteroskedasticity-consistent covariance matrix estimator. Econometrica.
Frisch, R., & Waugh, F. (1933). Partial time regressions as compared with individual trends. Econometrica.
Angrist, J. (1998). Estimating the labor market impact of voluntary military service. Econometrica.
Rosenbaum, P., & Rubin, D. (1983). The central role of the propensity score. Biometrika.