Chapter 3: Making Regression Make Sense

English

Angrist & Pischke, Mostly Harmless Econometrics

핵심 메시지

회귀분석은 조건부 기댓값 함수(CEF)에 대한 최선의 선형 근사를 제공하기 때문에 유용하다. 회귀분석이 언제 인과적인지는 조건부 독립 가정(CIA)에 달려 있다.

이 장의 핵심 질문들:

  1. 회귀분석은 무엇을 추정하는가? → CEF (또는 그 근사)
  2. 회귀분석은 언제 인과관계를 말해주는가? → CIA가 성립할 때
  3. 통제변수를 추가하면 어떻게 되는가? → OVB 공식
  4. 어떤 변수를 통제해야 하는가? → Bad control 문제

3.1 회귀분석의 기초

3.1.1 조건부 기댓값 함수 (CEF)

정의

CEF는 Xi가 주어졌을 때 Yi의 기댓값:

E[Yi | Xi]

직관: "X가 특정 값일 때, Y의 평균은 얼마인가?"

  • X = 교육 연수 12년인 사람들의 평균 임금
  • X = 교육 연수 16년인 사람들의 평균 임금
  • 이런 점들을 모두 연결한 함수가 CEF

예시: 교육 연수별 로그 임금의 CEF

  • 교육을 더 받은 사람이 평균적으로 더 많이 번다
  • 연간 약 10% 수익률 (Mincer equation)
  • 이 관계가 선형인지, 비선형인지는 별개의 문제

반복 기댓값의 법칙 (Law of Iterated Expectations)

무조건부 기댓값은 CEF의 기댓값과 같다:

E[Yi] = E{ E[Yi | Xi] }

직관: 전체 평균 = (각 그룹 평균의) 가중평균

수학적 유도:

E[Yi] = Σx E[Yi | Xi = x] · P(Xi = x)

= EX[ E[Yi | Xi] ]

CEF의 세 가지 핵심 성질

성질 1: CEF 분해 (CEF Decomposition Property)

Yi = E[Yi | Xi] + εi

여기서 εi ≡ Yi − E[Yi | Xi]

εi의 두 가지 중요한 특성:

  1. 평균 독립 (Mean Independence): E[εi | Xi] = 0
  2. 직교성: εi는 Xi의 모든 함수 h(Xi)와 상관 없음

증명 (평균 독립):

E[εi | Xi] = E[Yi − E[Yi | Xi] | Xi]
= E[Yi | Xi] − E[Yi | Xi] = 0

→ 모든 확률변수는 "X로 설명되는 부분"(CEF)과 직교하는 잔차로 분해 가능

성질 2: CEF 예측 (CEF Prediction Property)

E[Yi | Xi] = arg minm(X) E[(Yi − m(Xi))²]

CEF는 X가 주어졌을 때 Y의 최소 평균제곱오차(MMSE) 예측자

직관:

  • X만 알고 Y를 예측해야 한다면?
  • 어떤 함수 m(X)를 써야 예측 오차가 최소?
  • 정답: CEF! (어떤 다른 함수도 CEF보다 잘 예측 못함)

성질 3: ANOVA 정리 (ANOVA Variance Decomposition)

V(Yi) = V(E[Yi | Xi]) + E[V(Yi | Xi)]

총 분산 = X로 설명되는 분산 + 잔차 분산

유도:

V(Yi) = E[Yi²] − (E[Yi])²

Yi = E[Yi|Xi] + εi 이고 εi ⊥ E[Yi|Xi] 이므로

V(Yi) = V(E[Yi|Xi]) + V(εi)

= V(E[Yi|Xi]) + E[V(Yi|Xi)]

→ 이것이 의 이론적 기초!

3.1.2 선형 회귀와 CEF

모집단 회귀함수

모집단 회귀계수는 다음 최소화 문제의 해:

β = arg minb E[(Yi − Xi'b)²]

1차 조건 (FOC):

∂/∂b E[(Yi − Xi'b)²] = 0

E[−2Xi(Yi − Xi'b)] = 0

E[XiYi] = E[XiXi']b

해:

β = E[XiXi']−1 E[XiYi]

이변량 회귀의 특수 경우:

β = Cov(Xi, Yi) / V(Xi)

→ 익숙한 공식!

회귀 해부학 (Regression Anatomy / Frisch-Waugh-Lovell)

다변량 회귀에서 k번째 회귀변수의 계수:

βk = Cov(Yi, x̃ki) / V(x̃ki)

여기서 x̃ki는 xki를 다른 모든 공변량에 회귀시킨 잔차

Frisch-Waugh-Lovell 정리 (단계별):

Yi = β0 + β1x1i + β2x2i + ei 에서 β1을 구하려면:

  1. Step 1: x1을 x2에 회귀: x1i = γ0 + γ1x2i + x̃1i
  2. Step 2: 잔차 x̃1i 저장 ("x2로 설명 안 되는 x1의 변이")
  3. Step 3: Y를 x̃1에 회귀: Yi = α + β11i + error
  4. 이 β1이 원래 다변량 회귀의 β1과 동일!

해석: 다변량 회귀의 각 계수는 다른 변수들을 "제거(partialling out)"한 후의 이변량 기울기

회귀분석을 정당화하는 세 가지 정리

정리 내용 적용 조건
1. 선형 CEF 정리 CEF가 선형이면, 회귀함수 = CEF 결합 정규분포, 포화 모형
2. 최선 선형 예측자 X'β는 Y의 최선 선형 예측자 (MMSE) 항상
3. 회귀-CEF 정리 X'β는 E[Y|X]에 대한 최선의 선형 근사 항상 (CEF가 비선형이어도)

정리 1 상세: 선형 CEF

CEF가 선형인 두 가지 경우:

  1. 결합 정규분포: (Yi, Xi)가 결합 정규분포이면 E[Yi|Xi]는 Xi에서 선형
  2. 포화 모형: X가 이산형이고 모든 상호작용을 포함하면 회귀 = CEF

정리 3 상세: 회귀-CEF 정리 (가장 중요!)

β = arg minb E[(E[Yi|Xi] − Xi'b)²]

의미: CEF가 비선형이더라도, 회귀분석은 그것에 대한 최선의 선형 근사를 제공한다!

핵심 통찰: 이것이 회귀분석 사용의 가장 일반적인 정당화!

  • CEF가 실제로 선형인지 몰라도 됨
  • 회귀분석은 항상 CEF에 대한 좋은 요약을 제공
  • 특히 평균 효과(average effects)에 관심 있을 때 유용

3.1.3 점근적 OLS 추론

OLS 추정량

β̂ = (Σi XiXi')−1 Σi XiYi

= (X'X)−1X'Y

핵심 점근 결과

결과 수식 의미
대수의 법칙 (LLN) (1/n)Σ XiXi' →p E[XiXi'] 표본 적률 → 모집단 적률
중심극한정리 (CLT) √n(β̂ − β) →d N(0, V) 점근 정규성
슬러츠키 정리 - 확률 수렴 → 상수 대체 가능
연속 사상 정리 - 확률 극한은 연속 함수 통과
델타 방법 - 점근 정규 변수의 함수도 점근 정규

OLS의 일치성 증명

β̂ = (X'X/n)−1(X'Y/n)

X'Y/n = (1/n) Σ XiYip E[XiYi] (by LLN)

X'X/n = (1/n) Σ XiXi' →p E[XiXi'] (by LLN)

∴ β̂ →p E[XiXi']−1 E[XiYi] = β

이분산-강건 표준오차 (Robust SE)

점근 분산:

Avar(β̂) = E[XiXi']−1 E[XiXi'ei²] E[XiXi']−1

"Meat" (샌드위치의 고기)

왜 강건 SE를 쓰는가?

  • CEF가 비선형이면, 잔차가 X에 따라 변함 → 이분산은 자연스러움
  • 기본(동분산) SE는 E[ei² | Xi] = σ² (상수) 가정
  • 강건 SE는 이 가정 없이도 유효
  • Eicker-Huber-White 표준오차라고도 불림

동분산 가정 하의 단순화:

E[ei² | Xi] = σ² 이면:

Avar(β̂) = σ² · E[XiXi']−1

→ 이게 Stata/SAS가 기본으로 보고하는 SE

3.1.4 포화 모형 (Saturated Models)

정의

포화 모형: X가 취할 수 있는 모든 값에 대해 별도의 파라미터를 갖는 모형

→ 가능한 셀의 수 = 파라미터의 수

예: 두 개의 더미 (x1 = 대졸, x2 = 여성):

비포화 (가산) 모형:

Yi = α + β·x1i + γ·x2i + εi

포화 모형:

Yi = α + β·x1i + γ·x2i + δ·(x1i·x2i) + εi
그룹 x1 x2 가산 모형 포화 모형
비대졸 남성 0 0 α α
대졸 남성 1 0 α + β α + β
비대졸 여성 0 1 α + γ α + γ
대졸 여성 1 1 α + β + γ α + β + γ + δ
명칭 해석
β, γ 주효과 (Main effects) 각 변수의 개별 효과
δ 상호작용 항 (Interaction) 대졸 효과가 성별에 따라 어떻게 다른지

핵심: 포화 모형은 CEF를 완벽하게 적합시킨다. 왜냐하면 이산형 X에 대해 CEF는 더미 회귀변수에서 선형이기 때문.

모형 계층:

  • ✅ 포화 모형 → CEF와 완벽히 일치
  • ⚠️ 상호작용 없는 가산 모형 → CEF의 근사 (제약을 부과)
  • ❌ 주효과 없이 상호작용만 포함 → 해석 어려움!

3.2 회귀와 인과관계

핵심 질문: 회귀분석이 언제 인과적 해석을 가지는가?

답: 회귀가 근사하는 CEF가 인과적일 때, 즉 조건부 독립 가정(CIA)이 성립할 때.

3.2.1 조건부 독립 가정 (CIA)

설정: 잠재적 결과

교육 연수 s에 대해:

  • Ysi = fi(s): 개인 i가 s년 교육을 받았을 때의 잠재적 소득
  • si: 실제 교육 연수
  • 관측된 소득: Yi = fi(si)

CIA (Conditional Independence Assumption):

{Y0i, Y1i, ..., Ysi, ...} ⊥ si | Xi

"잠재적 결과는 X가 주어지면 실제 교육 연수와 독립"

CIA의 다른 이름들

  • Selection on observables (관측 가능 변수에 의한 선택)
  • Unconfoundedness (무교란성)
  • Ignorability (무시가능성)
  • Exogeneity (외생성)

CIA의 의미

핵심 직관:

  • Xi가 교육과 잠재적 결과가 상관되는 모든 이유를 포착
  • X가 주어지면, 교육은 "무작위 배정된 것과 같다"
  • X가 같은 사람들 중에서는 교육 수준이 잠재적 결과와 무관

예시:

X에 포함 왜?
부모 교육 수준 자녀 교육과 능력 모두에 영향
가구 소득 교육 기회와 네트워크에 영향
IQ / 능력 점수 교육 선택과 소득 잠재력에 영향

CIA의 함의

CIA가 성립하면, 조건부 비교는 인과적:

E[Yi | Xi, si = s] − E[Yi | Xi, si = s−1]

= E[Ysi | Xi, si = s] − E[Ys-1,i | Xi, si = s−1]

= E[Ysi | Xi] − E[Ys-1,i | Xi] (by CIA)

= E[Ysi − Ys-1,i | Xi] (인과효과!)

→ 교육 수준 간 평균 소득 차이가 인과적 해석을 가짐!

CIA에서 회귀로

Step 1: 선형 상수 효과 모형 가정

fi(s) = α + ρs + ηi

여기서:

  • ρ = 교육 1년의 인과효과 (모든 사람에게 동일)
  • ηi = 잠재적 소득의 랜덤 부분 (개인별 이질성)

Step 2: ηi를 분해

ηi = Xi'γ + vi

여기서:

  • Xi'γ = X로 설명되는 η의 부분
  • vi = 설명 안 되는 나머지

Step 3: 인과적 회귀 모형

Yi = α + ρsi + Xi'γ + vi

CIA가 성립하면:

  • E[vi | si, Xi] = 0
  • vi는 si와 Xi 모두와 상관 없음
  • OLS로 추정한 ρ̂가 인과효과!

3.2.2 누락변수 편의 (OVB) 공식

설정:

"긴" 회귀 (능력 Ai를 통제):

Yi = αl + ρlsi + Ail + εil

"짧은" 회귀 (Ai 없음):

Yi = αs + ρssi + εis

OVB 공식

ρs = ρl + γlAs

짧은 = 긴 + (누락변수 효과) × (누락변수의 포함변수에 대한 회귀)

여기서 δAs는 Ai를 si에 회귀시킨 계수

OVB 공식 유도 (Step by Step)

Step 1: 짧은 회귀의 계수 정의

ρs = Cov(Yi, si) / V(si)

Step 2: Yi에 긴 회귀식 대입

Yi = αl + ρlsi + γlAi + εil

Step 3: Cov(Yi, si) 계산

Cov(Yi, si) = Cov(ρlsi + γlAi + εil, si)
= ρl·V(si) + γl·Cov(Ai, si) + 0

Step 4: V(si)로 나누기

ρs = ρl + γl · Cov(Ai, si) / V(si)
↑ = δAs

OVB의 부호 판단

편의 = γl × δAs

δAs > 0 δAs < 0
γl > 0 양의 편의 (과대추정) 음의 편의 (과소추정)
γl < 0 음의 편의 (과소추정) 양의 편의 (과대추정)

적용: 교육의 수익률

통제변수 교육 계수 해석
없음 0.132 -
연령 더미 0.131 거의 변화 없음
+ 가족 배경 0.114 ↓ 감소
+ AFQT 점수 0.087 ↓ 크게 감소
+ 직업 더미 0.066 ⚠️ Bad control?

출처: NLSY 데이터

OVB 공식으로 해석:

  • 가족 배경, AFQT를 통제하면 계수 감소
  • 왜? γ > 0 (능력 → 임금 ↑) AND δAs > 0 (능력 ↔ 교육 양의 상관)
  • → 짧은 회귀가 과대추정하고 있었음

3.2.3 나쁜 통제 (Bad Control)

정의:

  • 나쁜 통제: 처치의 결과(outcome)인 변수
  • 좋은 통제: 처치 이전에 결정된 변수

예시 1: 직업 통제

교육 회귀에서 직업을 통제해야 할까?

문제: 대학은 직업 선택에 영향을 미친다!

  • wi = 1 (화이트칼라 직업)
  • 대학 → 화이트칼라 가능성 ↑

화이트칼라 내에서 대졸 vs 비대졸 비교:

E[Yi | wi=1, ci=1] − E[Yi | wi=1, ci=0]

= E[Y1i − Y0i | w1i=1] + {E[Y0i | w1i=1] − E[Y0i | w0i=1]}

↑ 새로운 선택 편의!

왜 편의가 생기나?

  • 화이트칼라인 대졸자 = 평범한 대졸자
  • 화이트칼라인 비대졸자 = 예외적인 비대졸자 (특별히 능력 있음)
  • 다른 종류의 사람들을 비교하는 것!

예시 2: 대리 통제 문제 (Proxy Control)

교육 후에 측정된 "늦은" 능력 변수 (예: 성인 IQ)를 쓰면?

ali = π0 + π1si + π2ai + ui

여기서:

  • ali = 늦게 측정된 능력
  • ai = 진짜 능력
  • π1 > 0: 교육이 측정된 능력을 높임

결과: 늦은 능력을 통제하면 교육 계수가 하향 편의

왜? 교육의 일부 효과가 al을 통해 전달되는데, al을 통제하면 이 경로가 차단됨

핵심 원칙

타이밍이 중요하다!

통제변수 종류 통제? 예시
처치 이전에 측정된 변수 ✅ 좋은 통제 부모 교육, 어린 시절 IQ
처치의 결과인 변수 ❌ 나쁜 통제 직업, 결혼 상태
처치 이후 측정된 변수 ⚠️ 주의 성인 IQ, 성인 건강

인과 다이어그램으로 이해

좋은 통제 (X):

X → D → Y
X → Y

X를 통제하면 D→Y 경로만 남음 ✅


나쁜 통제 (M):

D → M → Y
D → Y

M을 통제하면 D→M→Y 경로가 차단됨 ❌

Chapter 3 요약

개념 핵심 포인트
CEF E[Y|X] - X가 주어졌을 때 Y의 MMSE 예측자
회귀 CEF에 대한 최선의 선형 근사 (항상!)
회귀 해부학 βk = 다른 X 제거 후 이변량 기울기 (FWL)
CIA Ys ⊥ s | X - 회귀를 인과적으로 만듦
OVB 공식 짧은 = 긴 + (누락 효과) × (누락의 포함에 대한 회귀)
나쁜 통제 처치의 결과인 변수는 통제하지 말 것

핵심 메시지

  1. 회귀는 CEF의 근사: CEF가 비선형이어도 회귀는 유용한 요약
  2. 인과성은 CIA에 달림: 관측변수 통제 후 처치가 무작위와 같아야
  3. OVB를 이해하라: 통제변수 추가/제거의 효과를 예측 가능
  4. 타이밍이 중요: 처치 이전 변수만 통제할 것

핵심 공식 정리

CEF 분해 Yi = E[Yi|Xi] + εi
ANOVA V(Y) = V(E[Y|X]) + E[V(Y|X)]
OLS β = E[XX']−1E[XY]
OVB ρs = ρl + γ'δ

참고문헌

  • Barnow, B., Cain, G., & Goldberger, A. (1981). Selection on observables. Evaluation Studies Review Annual.
  • White, H. (1980). A heteroskedasticity-consistent covariance matrix estimator. Econometrica.
  • Frisch, R., & Waugh, F. (1933). Partial time regressions as compared with individual trends. Econometrica.
  • Angrist, J. (1998). Estimating the labor market impact of voluntary military service. Econometrica.
  • Rosenbaum, P., & Rubin, D. (1983). The central role of the propensity score. Biometrika.
← Chapter 2: The Experimental Ideal Back to Study Notes →
이 노트는 LLM(Claude)을 활용하여 작성되었습니다.