Angrist & Pischke, Mostly Harmless Econometrics
Chapter 3: Making Regression Make Sense
English핵심 메시지
회귀분석은 조건부 기댓값 함수(CEF)에 대한 최선의 선형 근사를 제공하기 때문에 유용하다. 회귀분석이 언제 인과적인지는 조건부 독립 가정(CIA)에 달려 있다.
이 장의 핵심 질문들:
- 회귀분석은 무엇을 추정하는가? → CEF (또는 그 근사)
- 회귀분석은 언제 인과관계를 말해주는가? → CIA가 성립할 때
- 통제변수를 추가하면 어떻게 되는가? → OVB 공식
- 어떤 변수를 통제해야 하는가? → Bad control 문제
3.1 회귀분석의 기초
3.1.1 조건부 기댓값 함수 (CEF)
정의
CEF는 Xi가 주어졌을 때 Yi의 기댓값:
직관: "X가 특정 값일 때, Y의 평균은 얼마인가?"
- X = 교육 연수 12년인 사람들의 평균 임금
- X = 교육 연수 16년인 사람들의 평균 임금
- 이런 점들을 모두 연결한 함수가 CEF
예시: 교육 연수별 로그 임금의 CEF
- 교육을 더 받은 사람이 평균적으로 더 많이 번다
- 연간 약 10% 수익률 (Mincer equation)
- 이 관계가 선형인지, 비선형인지는 별개의 문제
반복 기댓값의 법칙 (Law of Iterated Expectations)
무조건부 기댓값은 CEF의 기댓값과 같다:
직관: 전체 평균 = (각 그룹 평균의) 가중평균
수학적 유도:
= EX[ E[Yi | Xi] ]
CEF의 세 가지 핵심 성질
성질 1: CEF 분해 (CEF Decomposition Property)
여기서 εi ≡ Yi − E[Yi | Xi]
εi의 두 가지 중요한 특성:
- 평균 독립 (Mean Independence): E[εi | Xi] = 0
- 직교성: εi는 Xi의 모든 함수 h(Xi)와 상관 없음
증명 (평균 독립):
E[εi | Xi] = E[Yi − E[Yi | Xi] | Xi]
= E[Yi | Xi] − E[Yi | Xi] = 0
→ 모든 확률변수는 "X로 설명되는 부분"(CEF)과 직교하는 잔차로 분해 가능
성질 2: CEF 예측 (CEF Prediction Property)
CEF는 X가 주어졌을 때 Y의 최소 평균제곱오차(MMSE) 예측자
직관:
- X만 알고 Y를 예측해야 한다면?
- 어떤 함수 m(X)를 써야 예측 오차가 최소?
- 정답: CEF! (어떤 다른 함수도 CEF보다 잘 예측 못함)
성질 3: ANOVA 정리 (ANOVA Variance Decomposition)
총 분산 = X로 설명되는 분산 + 잔차 분산
유도:
V(Yi) = E[Yi²] − (E[Yi])²
Yi = E[Yi|Xi] + εi 이고 εi ⊥ E[Yi|Xi] 이므로
V(Yi) = V(E[Yi|Xi]) + V(εi)
= V(E[Yi|Xi]) + E[V(Yi|Xi)]
→ 이것이 R²의 이론적 기초!
3.1.2 선형 회귀와 CEF
모집단 회귀함수
모집단 회귀계수는 다음 최소화 문제의 해:
1차 조건 (FOC):
E[−2Xi(Yi − Xi'b)] = 0
E[XiYi] = E[XiXi']b
해:
이변량 회귀의 특수 경우:
→ 익숙한 공식!
회귀 해부학 (Regression Anatomy / Frisch-Waugh-Lovell)
다변량 회귀에서 k번째 회귀변수의 계수:
여기서 x̃ki는 xki를 다른 모든 공변량에 회귀시킨 잔차
Frisch-Waugh-Lovell 정리 (단계별):
Yi = β0 + β1x1i + β2x2i + ei 에서 β1을 구하려면:
- Step 1: x1을 x2에 회귀: x1i = γ0 + γ1x2i + x̃1i
- Step 2: 잔차 x̃1i 저장 ("x2로 설명 안 되는 x1의 변이")
- Step 3: Y를 x̃1에 회귀: Yi = α + β1x̃1i + error
- 이 β1이 원래 다변량 회귀의 β1과 동일!
해석: 다변량 회귀의 각 계수는 다른 변수들을 "제거(partialling out)"한 후의 이변량 기울기
회귀분석을 정당화하는 세 가지 정리
| 정리 | 내용 | 적용 조건 |
|---|---|---|
| 1. 선형 CEF 정리 | CEF가 선형이면, 회귀함수 = CEF | 결합 정규분포, 포화 모형 |
| 2. 최선 선형 예측자 | X'β는 Y의 최선 선형 예측자 (MMSE) | 항상 |
| 3. 회귀-CEF 정리 | X'β는 E[Y|X]에 대한 최선의 선형 근사 | 항상 (CEF가 비선형이어도) |
정리 1 상세: 선형 CEF
CEF가 선형인 두 가지 경우:
- 결합 정규분포: (Yi, Xi)가 결합 정규분포이면 E[Yi|Xi]는 Xi에서 선형
- 포화 모형: X가 이산형이고 모든 상호작용을 포함하면 회귀 = CEF
정리 3 상세: 회귀-CEF 정리 (가장 중요!)
의미: CEF가 비선형이더라도, 회귀분석은 그것에 대한 최선의 선형 근사를 제공한다!
핵심 통찰: 이것이 회귀분석 사용의 가장 일반적인 정당화!
- CEF가 실제로 선형인지 몰라도 됨
- 회귀분석은 항상 CEF에 대한 좋은 요약을 제공
- 특히 평균 효과(average effects)에 관심 있을 때 유용
3.1.3 점근적 OLS 추론
OLS 추정량
= (X'X)−1X'Y
핵심 점근 결과
| 결과 | 수식 | 의미 |
|---|---|---|
| 대수의 법칙 (LLN) | (1/n)Σ XiXi' →p E[XiXi'] | 표본 적률 → 모집단 적률 |
| 중심극한정리 (CLT) | √n(β̂ − β) →d N(0, V) | 점근 정규성 |
| 슬러츠키 정리 | - | 확률 수렴 → 상수 대체 가능 |
| 연속 사상 정리 | - | 확률 극한은 연속 함수 통과 |
| 델타 방법 | - | 점근 정규 변수의 함수도 점근 정규 |
OLS의 일치성 증명
X'Y/n = (1/n) Σ XiYi →p E[XiYi] (by LLN)
X'X/n = (1/n) Σ XiXi' →p E[XiXi'] (by LLN)
∴ β̂ →p E[XiXi']−1 E[XiYi] = β
이분산-강건 표준오차 (Robust SE)
점근 분산:
"Meat" (샌드위치의 고기)
왜 강건 SE를 쓰는가?
- CEF가 비선형이면, 잔차가 X에 따라 변함 → 이분산은 자연스러움
- 기본(동분산) SE는 E[ei² | Xi] = σ² (상수) 가정
- 강건 SE는 이 가정 없이도 유효
- Eicker-Huber-White 표준오차라고도 불림
동분산 가정 하의 단순화:
E[ei² | Xi] = σ² 이면:
→ 이게 Stata/SAS가 기본으로 보고하는 SE
3.1.4 포화 모형 (Saturated Models)
정의
포화 모형: X가 취할 수 있는 모든 값에 대해 별도의 파라미터를 갖는 모형
→ 가능한 셀의 수 = 파라미터의 수
예: 두 개의 더미 (x1 = 대졸, x2 = 여성):
비포화 (가산) 모형:
포화 모형:
| 그룹 | x1 | x2 | 가산 모형 | 포화 모형 |
|---|---|---|---|---|
| 비대졸 남성 | 0 | 0 | α | α |
| 대졸 남성 | 1 | 0 | α + β | α + β |
| 비대졸 여성 | 0 | 1 | α + γ | α + γ |
| 대졸 여성 | 1 | 1 | α + β + γ | α + β + γ + δ |
| 항 | 명칭 | 해석 |
|---|---|---|
| β, γ | 주효과 (Main effects) | 각 변수의 개별 효과 |
| δ | 상호작용 항 (Interaction) | 대졸 효과가 성별에 따라 어떻게 다른지 |
핵심: 포화 모형은 CEF를 완벽하게 적합시킨다. 왜냐하면 이산형 X에 대해 CEF는 더미 회귀변수에서 선형이기 때문.
모형 계층:
- ✅ 포화 모형 → CEF와 완벽히 일치
- ⚠️ 상호작용 없는 가산 모형 → CEF의 근사 (제약을 부과)
- ❌ 주효과 없이 상호작용만 포함 → 해석 어려움!
3.2 회귀와 인과관계
핵심 질문: 회귀분석이 언제 인과적 해석을 가지는가?
답: 회귀가 근사하는 CEF가 인과적일 때, 즉 조건부 독립 가정(CIA)이 성립할 때.
3.2.1 조건부 독립 가정 (CIA)
설정: 잠재적 결과
교육 연수 s에 대해:
- Ysi = fi(s): 개인 i가 s년 교육을 받았을 때의 잠재적 소득
- si: 실제 교육 연수
- 관측된 소득: Yi = fi(si)
CIA (Conditional Independence Assumption):
"잠재적 결과는 X가 주어지면 실제 교육 연수와 독립"
CIA의 다른 이름들
- Selection on observables (관측 가능 변수에 의한 선택)
- Unconfoundedness (무교란성)
- Ignorability (무시가능성)
- Exogeneity (외생성)
CIA의 의미
핵심 직관:
- Xi가 교육과 잠재적 결과가 상관되는 모든 이유를 포착
- X가 주어지면, 교육은 "무작위 배정된 것과 같다"
- X가 같은 사람들 중에서는 교육 수준이 잠재적 결과와 무관
예시:
| X에 포함 | 왜? |
|---|---|
| 부모 교육 수준 | 자녀 교육과 능력 모두에 영향 |
| 가구 소득 | 교육 기회와 네트워크에 영향 |
| IQ / 능력 점수 | 교육 선택과 소득 잠재력에 영향 |
CIA의 함의
CIA가 성립하면, 조건부 비교는 인과적:
= E[Ysi | Xi, si = s] − E[Ys-1,i | Xi, si = s−1]
= E[Ysi | Xi] − E[Ys-1,i | Xi] (by CIA)
= E[Ysi − Ys-1,i | Xi] (인과효과!)
→ 교육 수준 간 평균 소득 차이가 인과적 해석을 가짐!
CIA에서 회귀로
Step 1: 선형 상수 효과 모형 가정
여기서:
- ρ = 교육 1년의 인과효과 (모든 사람에게 동일)
- ηi = 잠재적 소득의 랜덤 부분 (개인별 이질성)
Step 2: ηi를 분해
여기서:
- Xi'γ = X로 설명되는 η의 부분
- vi = 설명 안 되는 나머지
Step 3: 인과적 회귀 모형
CIA가 성립하면:
- E[vi | si, Xi] = 0
- vi는 si와 Xi 모두와 상관 없음
- → OLS로 추정한 ρ̂가 인과효과!
3.2.2 누락변수 편의 (OVB) 공식
설정:
"긴" 회귀 (능력 Ai를 통제):
"짧은" 회귀 (Ai 없음):
OVB 공식
짧은 = 긴 + (누락변수 효과) × (누락변수의 포함변수에 대한 회귀)
여기서 δAs는 Ai를 si에 회귀시킨 계수
OVB 공식 유도 (Step by Step)
Step 1: 짧은 회귀의 계수 정의
ρs = Cov(Yi, si) / V(si)
Step 2: Yi에 긴 회귀식 대입
Yi = αl + ρlsi + γlAi + εil
Step 3: Cov(Yi, si) 계산
Cov(Yi, si) = Cov(ρlsi + γlAi + εil, si)
= ρl·V(si) + γl·Cov(Ai, si) + 0
Step 4: V(si)로 나누기
ρs = ρl + γl · Cov(Ai, si) / V(si)
↑ = δAs
OVB의 부호 판단
편의 = γl × δAs
| δAs > 0 | δAs < 0 | |
|---|---|---|
| γl > 0 | 양의 편의 (과대추정) | 음의 편의 (과소추정) |
| γl < 0 | 음의 편의 (과소추정) | 양의 편의 (과대추정) |
적용: 교육의 수익률
| 통제변수 | 교육 계수 | 해석 |
|---|---|---|
| 없음 | 0.132 | - |
| 연령 더미 | 0.131 | 거의 변화 없음 |
| + 가족 배경 | 0.114 | ↓ 감소 |
| + AFQT 점수 | 0.087 | ↓ 크게 감소 |
| + 직업 더미 | 0.066 | ⚠️ Bad control? |
출처: NLSY 데이터
OVB 공식으로 해석:
- 가족 배경, AFQT를 통제하면 계수 감소
- 왜? γ > 0 (능력 → 임금 ↑) AND δAs > 0 (능력 ↔ 교육 양의 상관)
- → 짧은 회귀가 과대추정하고 있었음
3.2.3 나쁜 통제 (Bad Control)
정의:
- 나쁜 통제: 처치의 결과(outcome)인 변수
- 좋은 통제: 처치 이전에 결정된 변수
예시 1: 직업 통제
교육 회귀에서 직업을 통제해야 할까?
문제: 대학은 직업 선택에 영향을 미친다!
- wi = 1 (화이트칼라 직업)
- 대학 → 화이트칼라 가능성 ↑
화이트칼라 내에서 대졸 vs 비대졸 비교:
= E[Y1i − Y0i | w1i=1] + {E[Y0i | w1i=1] − E[Y0i | w0i=1]}
↑ 새로운 선택 편의!
왜 편의가 생기나?
- 화이트칼라인 대졸자 = 평범한 대졸자
- 화이트칼라인 비대졸자 = 예외적인 비대졸자 (특별히 능력 있음)
- → 다른 종류의 사람들을 비교하는 것!
예시 2: 대리 통제 문제 (Proxy Control)
교육 후에 측정된 "늦은" 능력 변수 (예: 성인 IQ)를 쓰면?
여기서:
- ali = 늦게 측정된 능력
- ai = 진짜 능력
- π1 > 0: 교육이 측정된 능력을 높임
결과: 늦은 능력을 통제하면 교육 계수가 하향 편의
왜? 교육의 일부 효과가 al을 통해 전달되는데, al을 통제하면 이 경로가 차단됨
핵심 원칙
타이밍이 중요하다!
| 통제변수 종류 | 통제? | 예시 |
|---|---|---|
| 처치 이전에 측정된 변수 | ✅ 좋은 통제 | 부모 교육, 어린 시절 IQ |
| 처치의 결과인 변수 | ❌ 나쁜 통제 | 직업, 결혼 상태 |
| 처치 이후 측정된 변수 | ⚠️ 주의 | 성인 IQ, 성인 건강 |
인과 다이어그램으로 이해
좋은 통제 (X):
X → D → Y
X → Y
X를 통제하면 D→Y 경로만 남음 ✅
나쁜 통제 (M):
D → M → Y
D → Y
M을 통제하면 D→M→Y 경로가 차단됨 ❌
Chapter 3 요약
| 개념 | 핵심 포인트 |
|---|---|
| CEF | E[Y|X] - X가 주어졌을 때 Y의 MMSE 예측자 |
| 회귀 | CEF에 대한 최선의 선형 근사 (항상!) |
| 회귀 해부학 | βk = 다른 X 제거 후 이변량 기울기 (FWL) |
| CIA | Ys ⊥ s | X - 회귀를 인과적으로 만듦 |
| OVB 공식 | 짧은 = 긴 + (누락 효과) × (누락의 포함에 대한 회귀) |
| 나쁜 통제 | 처치의 결과인 변수는 통제하지 말 것 |
핵심 메시지
- 회귀는 CEF의 근사: CEF가 비선형이어도 회귀는 유용한 요약
- 인과성은 CIA에 달림: 관측변수 통제 후 처치가 무작위와 같아야
- OVB를 이해하라: 통제변수 추가/제거의 효과를 예측 가능
- 타이밍이 중요: 처치 이전 변수만 통제할 것
핵심 공식 정리
| CEF 분해 | Yi = E[Yi|Xi] + εi |
| ANOVA | V(Y) = V(E[Y|X]) + E[V(Y|X)] |
| OLS | β = E[XX']−1E[XY] |
| OVB | ρs = ρl + γ'δ |
참고문헌
- Barnow, B., Cain, G., & Goldberger, A. (1981). Selection on observables. Evaluation Studies Review Annual.
- White, H. (1980). A heteroskedasticity-consistent covariance matrix estimator. Econometrica.
- Frisch, R., & Waugh, F. (1933). Partial time regressions as compared with individual trends. Econometrica.
- Angrist, J. (1998). Estimating the labor market impact of voluntary military service. Econometrica.
- Rosenbaum, P., & Rubin, D. (1983). The central role of the propensity score. Biometrika.
Suhyeon Lee