Angrist Ch.5 - 고정효과, DD, 패널 데이터

Chapter 5: 고정효과, 이중차분, 패널 데이터

English

Angrist & Pischke, Mostly Harmless Econometrics — Chapter 5

"평행 우주에 대해 처음 깨달아야 할 것은... 그것들이 평행하지 않다는 것이다." — Douglas Adams

핵심 메시지

중요한 교란요인이 관측되지 않지만 시간에 걸쳐 고정되어 있을 때, 패널 데이터 전략으로 이를 제거할 수 있다: 고정효과(개인 내 변동) 또는 이중차분(평행 추세 가정). 이 방법들은 "수준 비교를 포기"하면서 반사실적 추세가 동일할 것을 요구한다.

지금까지의 식별 도구:

3장: 관측된 교란요인 통제 (회귀, 매칭)
4장: 교란요인이 관측되지 않을 때 도구변수 사용
5장: 교란요인이 관측되지 않지만 고정일 때 시간/코호트 차원 활용

5.1 개인 고정효과

동기: 노조 임금 프리미엄

노동경제학의 고전적 질문: 단체교섭으로 임금이 결정되는 근로자가 더 많이 버는 것이 단체교섭 때문인가, 아니면 어차피 더 많이 벌 사람들인가(더 숙련되고 경험이 많아서)?

문제: 관측되지 않는 근로자 능력 A_i가 노조 가입과 임금 모두에 영향. 더 능력 있는 근로자가 노조에 가입할 확률이 높다면, OLS는 노조 효과를 과대추정.

고정효과 설정

y_it = 근로자 i의 t기 로그 임금, d_it = 노조 상태라 하자. 가정:

조건부 독립성:

E(y_0it | A_i, X_it, t, d_it) = E(y_0it | A_i, X_it, t)

관측되지 않는 능력 A_i, 관측된 공변량 X_it, 시간에 조건부로 노조 상태가 무작위 배정과 같음.

핵심 가정: 관측되지 않는 A_i가 선형 모형에서 시간 첨자 없이 등장:

E(y_0it | A_i, X_it, t) = α + λ_t + A'_iγ + X_itβ

상수적, 가법적 처치효과 ρ와 함께:

E(y_1it | A_i, X_it, t) = E(y_0it | A_i, X_it, t) + ρ

이로부터 고정효과 모형이 도출:

y_it = α_i + λ_t + ρd_it + X_itβ + ε_it

여기서 α_i ≡ α + A'_iγ가 개인 고정효과(추정할 모수로 취급), λ_t는 연도 효과(시간 더미의 계수).

참고: 이 가정들은 3장보다 더 제약적이다. 도구변수 없이 패널 데이터로 관측되지 않는 교란요인 문제를 해결하려면 선형, 가법적 함수 형태가 필요하다.

추정 전략 1: 평균으로부터의 편차

패널 데이터(동일 개인에 대한 반복 관측)로 α_i를 제거할 수 있다. 먼저 개인 평균 계산:

ȳ_i = α_i + λ̄ + ρd̄_i + X̄_iβ + ε̄_i

원래 식에서 빼면:

(y_it − ȳ_i) = (λ_t − λ̄) + ρ(d_it − d̄_i) + (X_it − X̄_i)β + (ε_it − ε̄_i)

고정효과 α_i가 제거됨! 이를 "within 추정량" 또는 "공분산 분석"이라 함.

왜 대수적으로 같은가?

회귀 해부 공식(3.1.3)에 의해, 개인 더미 전체 집합에 대한 회귀 잔차는 정확히 개인 평균으로부터의 편차이다.

추정 전략 2: 1차 차분

평균 편차의 대안:

Δy_it = Δλ_t + ρΔd_it + ΔX_itβ + Δε_it

여기서 Δy_it = y_it − y_it−1.

방법	평균 편차	1차 차분
T = 2일 때	대수적으로 동일
T > 2일 때	ε_it가 등분산 & 계열 비상관이면 더 효율적	더 편리할 수 있음; Δε_it는 계열 상관됨에 주의

고정효과 vs. 확률효과

확률효과(Random effects)는 α_i가 회귀변수와 비상관이라고 가정. 그러면 α_i는 잔차의 일부가 됨(무시해도 OVB 없음), 단 동일인의 잔차가 기간 간 상관됨.

저자들의 선호: 확률효과 하 GLS보다 고정효과 OLS + 강건 표준오차. GLS는 더 강한 가정(선형 CEF, 등분산)이 필요하고 효율성 이득은 보통 미미함.

예시: 노조 임금 효과 (Freeman 1984)

Freeman은 네 개의 패널 데이터셋으로 노조 임금 효과 추정:

조사	횡단면	고정효과
May CPS, 1974-75	0.19	0.09
NLS Young Men, 1970-78	0.28	0.19
Michigan PSID, 1970-79	0.23	0.14
QES, 1973-77	0.14	0.16

패턴: FE 추정치(0.09–0.19)가 일반적으로 횡단면 추정치(0.14–0.28)보다 작음. 이는 횡단면에서 양의 선택 편의 시사 — 더 능력 있는 근로자가 노조에 가입하고 더 많이 번다.

주의 1: 측정 오차

FE 추정치는 감쇠 편의에 매우 취약:

노조 상태 같은 경제 변수는 지속적인 경향(올해 노조원이면 내년에도 노조원일 가능성 높음)
측정 오차는 종종 매년 변동(올해 노조 상태가 잘못 보고되어도 내년에는 아닐 수 있음)
→ 어떤 한 해에 잘못 분류되는 근로자는 적지만, 관측된 연간 노조 상태 변화는 대부분 노이즈일 수 있음
→ d_it보다 Δd_it에서 측정 오차가 더 큼 → FE 추정치가 0 방향으로 편향

가능한 해결책:

IV: 형제간 교차 보고를 도구변수로 사용 (Ashenfelter & Krueger 1994)
외부 검증: 검증 조사의 측정 오차율을 사용해 추정치 조정 (Card 1996)

주의 2: 좋은 변동 제거 (쌍둥이 예시)

차분/평균 편차는 좋은 변동과 나쁜 변동을 모두 제거. 변환이 OVB라는 더러운 물은 버리지만 유용한 정보인 아기도 함께 버릴 수 있음.

쌍둥이와 교육 수익률:

Ashenfelter & Krueger (1994), Ashenfelter & Rouse (1998)는 쌍둥이를 사용해 가족 고정효과(공통 가족/유전적 배경)를 통제하며 교육 수익률 추정.

놀라운 결과: 가족 내 추정치가 OLS보다 더 큼!

Bound & Solon (1999) 비판:

쌍둥이도 작은 차이가 있음: 첫째가 보통 출생 체중과 IQ가 더 높음
쌍둥이 내 차이는 작지만, 그들의 교육 차이도 작음
→ 작은 양의 관측되지 않는 능력 차이가 상당한 편의를 야기할 수 있음

결론: 고정효과 추정치를 해석할 때 지나치게 강한 주장은 피해야 한다. 관측되지 않는 변수의 정확한 성격은 보통 다소 불분명하게 남는다.

5.2 이중차분 (DD)

처치가 그룹 수준에서 변동할 때

FE는 동일 개인에 대한 반복 관측이 있는 패널 데이터가 필요. 그러나 종종 처치가 더 집계된 수준(주, 코호트)에서만 변동. 예:

임산부 건강 보험에 대한 주 정책
주별 최저임금
고용법에 대한 법원 판결

OVB의 원천은 따라서 주 및 연도 수준의 관측되지 않는 변수여야 함.

고전적 예시: Card & Krueger (1994) — 최저임금

고전적 질문: 경쟁적 노동시장에서 최저임금 인상은 고용을 감소시켜야 함(하향 경사 수요곡선을 따라 이동). 실제로 그런가?

자연실험:

1992년 4월 1일: 뉴저지가 주 최저임금을 $4.25에서 $5.05로 인상
펜실베이니아: $4.25 유지 (연방 최저임금)
데이터: NJ와 동부 PA의 패스트푸드 레스토랑(버거킹, 웬디스 등) 고용
시점: 1992년 2월 (이전)과 1992년 11월 (이후)

DD 모형

잠재적 결과 정의:

y_1ist = 높은 최저임금일 때 고용
y_0ist = 낮은 최저임금일 때 고용

핵심 가정 — 처치 부재 시 평행 추세:

E(y_0ist | s, t) = γ_s + λ_t

이 말은: 최저임금 변화가 없으면, 고용은 다음의 합으로 결정:

γ_s: 시간불변 주 효과 (개인 FE에서 α_i의 역할)
λ_t: 주 간 공통인 연도 효과

상수 처치효과 δ와 함께:

y_ist = γ_s + λ_t + δd_st + ε_ist

여기서 d_st는 높은 최저임금 주-기간에 대한 더미이고 E(ε_ist | s, t) = 0.

DD 추정량 도출

통제 주 (PA):

E[y|PA, 11월] − E[y|PA, 2월] = λ_11월 − λ_2월

처치 주 (NJ):

E[y|NJ, 11월] − E[y|NJ, 2월] = λ_11월 − λ_2월 + δ

이중차분:

[E[y|NJ, 11월] − E[y|NJ, 2월]] − [E[y|PA, 11월] − E[y|PA, 2월]] = δ

Card & Krueger 결과

FTE 고용	PA (통제)	NJ (처치)	NJ − PA
이전 (2월)	23.33 (1.35)	20.44 (0.51)	−2.89 (1.44)
이후 (11월)	21.17 (0.94)	21.03 (0.52)	−0.14 (1.07)
변화	−2.16 (1.25)	+0.59 (0.54)	+2.76 (1.36)

해석:

PA 고용은 점포당 2.16명 감소
NJ 고용은 점포당 0.59명 증가
DD = +2.76 — 표준 예측과 반대!
최저임금 인상이 고용을 감소시키지 않음; 오히려 약간 증가

시각적 표현

고용
    │
    │                    ●───────● 처치군 (관측됨)
    │                   ╱         
    │                  ╱  ← 처치효과 (δ)
    │                 ╱           
    │                ●─ ─ ─ ─ ─ ●  반사실
    │               ╱               (통제군과 평행)
    │              ╱
    │  ●─────────●  통제군 (관측됨)
    │
    └────────────────────────────── 시간
              이전        이후

핵심 통찰: 반사실은 절대 관측되지 않는다.
평행 추세 가정이 통제군의 변화를 
반사실의 대리변수로 사용하게 해준다.

평행 추세 검정

식별 가정은 여러 처치 전 기간으로 조사 가능. 처치 전에 처치군과 통제군이 비슷한 추세를 따르는가?

Card & Krueger (2000) 후속 연구:

NJ와 PA 레스토랑의 여러 해 행정 급여 데이터:

1992년 2-11월: 약간의 PA 감소, NJ 거의 변화 없음 (원래 조사와 일치)
하지만: 다른 기간에 상당한 연간 변동
고용 변동이 주 간에 종종 크게 다름
1992-1995년에 PA 고용이 NJ 대비 하락, 대부분 1996년 연방 최저임금 인상 전에

우려: PA가 NJ의 반사실 고용을 잘 측정하지 못할 수 있음.

더 나은 예시: Pischke (2007) — 독일 학기 기간

1960년대까지: 독일 주들(바이에른 제외)이 봄에 학교 시작
1966-67: 비바이에른 주들이 가을 시작으로 전환
전환을 위해 두 번의 짧은 학년 필요 (37주 대신 24주)
결과: 2학년의 유급률

결과:

바이에른 (통제): 1966년 이후 유급률 ~2.5%로 평탄
처치 주: 더 높은 기준선 (~4-4.5%), 영향받은 코호트에서 ~1%p 상승, 이후 기준선 복귀
→ 평행 추세 + 일시적 처치효과의 강력한 시각적 증거

5.2.1 회귀 DD

DD는 회귀로 추정 가능. NJ_s = NJ 더미, d_t = 11월 더미라 하면:

y_ist = α + γ·NJ_s + λ·d_t + δ·(NJ_s × d_t) + ε_ist

모수 해석:

모수	의미
α	E[y \| PA, 2월] = γ_PA + λ_2월
γ	E[y \| NJ, 2월] − E[y \| PA, 2월] = γ_NJ − γ_PA
λ	E[y \| PA, 11월] − E[y \| PA, 2월] = λ_11월 − λ_2월
δ	DD 추정치 = {E[y\|NJ,11월] − E[y\|NJ,2월]} − {E[y\|PA,11월] − E[y\|PA,2월]}

이는 포화 모형: E(y|s,t)의 4개 가능한 값, 4개 모수.

회귀 DD의 장점:

1. 주/기간 추가 용이: 더미만 더 추가. 일반화된 모형은 각 주와 기간에 대한 더미 포함.

2. 처치 강도 변동: on/off 처치 대신 연속 측정치 사용 가능.

예시: Card (1992) — 연방 최저임금

1990년 연방 최저임금이 $3.35에서 $3.80으로 인상. 영향은 주마다 다름(고임금 코네티컷에서는 무관, 저임금 미시시피에서는 큰 영향).

y_ist = γ_s + λ_t + δ·(fa_s × d_t) + ε_ist

여기서 fa_s = s주에서 $3.80 미만으로 버는 청소년의 기준선 비율 (처치 강도).

결과	Δ 평균 로그임금	Δ 고용/인구 비율
영향받은 비율 (fa_s)	0.15 (0.03)	0.02 (0.03)

최저임금이 더 영향력 있는 주에서 임금이 더 많이 상승(0.15), 하지만 고용은 영향받은 비율과 거의 무관(0.02 ≈ 0).

3. 공변량 추가 용이: 시간 변동 주 특성 X_st 통제(예: 주 경제 상황의 대리변수로 성인 고용).

Granger 스타일 인과성 검정: 선행과 후행

표본이 여러 해를 포함하고 처치 시점이 주마다 다를 때, "원인이 결과보다 먼저 발생"하는지 검정 가능:

y_ist = γ_s + λ_t + Σ_τ=0^m δ_−τd_s,t−τ + Σ_τ=1^q δ_+τd_s,t+τ + X_istβ + ε_ist

후행(Lags) (δ_−τ): 처치 후 효과 — 효과가 시간에 따라 어떻게 진화?
선행(Leads) (δ_+τ): 처치 전 "효과" — 처치가 인과적이면 0이어야!

예시: Autor (2003) — 고용 보호 & 파견 근로

"부당 해고" 소송을 허용하는 주 법원 판결 → 기업이 파견 근로자를 더 많이 사용?

추정된 선행/후행 패턴:

2년 전, 1년 전: 효과 없음 (선행 ≈ 0) ✓
채택 연도: 작은 양의 효과
1-3년 후: 급격히 증가하는 효과
4년 이상 후: 효과가 영구적으로 높은 수준에서 평탄화

이 패턴은 인과적 해석과 일관: 예측 없음, 점진적 조정.

주별 추세

대안적 강건성 검정: 처치군과 통제군이 다른 선형 추세를 따르도록 허용:

y_ist = γ_0s + γ_1s·t + λ_t + δd_st + X_istβ + ε_ist

이는 추세의 제한된 이질성을 허용. 결과가 살아남으면 고무적, 아니면 낙담.

예시: Besley & Burgess (2004) — 인도 노동 규제

설정	노동 규제 효과
DD만	−0.186 (0.064)
DD + 주 수준 통제	−0.104 (0.039)
DD + 주별 추세	0.0002 (0.02)

해석: 추세 없이 노동 규제가 생산량을 줄이는 것처럼 보임. 주 추세를 넣으면 효과 사라짐 → 규제는 생산량이 이미 하락 중인 주에서 증가함.

통제군 선택: 구성 변화

DD는 암묵적 처치-통제 비교를 설정. 잠재적 함정: 처치의 결과로 구성 변화.

예시: 복지 혜택과 노동 공급

관대한 복지를 제공하는 주가 어차피 노동력 연계가 약한 가난한 사람들을 유인하면(프로그램 유발 이동), DD는 관대한 복지가 노동 공급에 실제보다 더 나빠 보이게 만듦.

해결: 출생 주 또는 이전 거주지 사용(처치에 의해 변하지 않지만 현재 위치와 상관). IV 전략으로 구현 가능.

삼중차분 (DDD)

처치가 세 차원(주 × 시간 × 연령)에서 변동할 때, 고차 대비 사용:

y_iast = γ_st + λ_at + μ_as + δd_ast + X_iastβ + ε_iast

통제하는 효과:

γ_st: 주 × 시간 효과 (연령 그룹 간 공통)
λ_at: 연령 × 시간 효과 (주 간 공통)
μ_as: 주 × 연령 효과 (시간 간 공통)

예시: Yelowitz (1995) — Medicaid 확대

Medicaid 적격성이 한때 AFDC(현금 복지)에 연계됨. 1980년대에 일부 주가 AFDC 부적격 가족의 아동에게 적용 범위 확대.

처치가 주, 시간, 그리고 자녀 연령에 따라 변동. DDD는 세 차원 모두에서 비교하여 표준 DD보다 더 설득력 있는 통제 제공.

5.3 고정효과 대 종속변수 시차

딜레마

FE와 DD는 시간불변 누락변수에 기반. 그러나 많은 질문에서 이 가정은 그럴듯해 보이지 않음.

예시: 훈련 프로그램 평가

정부 훈련 프로그램 참가자들은 종종 최근 충격(실직)을 경험함. 많은 프로그램이 명시적으로 그런 사람들을 대상.

Ashenfelter (1978), Ashenfelter & Card (1985): 훈련 참가자들이 프로그램 전 소득 하락(dip)을 보임.

과거 소득은 시간불변 α_i에 포함될 수 없는 시간 변동 교란요인.

두 경쟁 모형

	고정효과	종속변수 시차
선택 기반	시간불변 비관측변수 (α_i)	과거 결과 (y_it−h)
CIA	E(y_0it\|α_i, X_it, d_it) = E(y_0it\|α_i, X_it)	E(y_0it\|y_it−h, X_it, d_it) = E(y_0it\|y_it−h, X_it)
모형	y_it = α_i + λ_t + ρd_it + X_itβ + ε_it	y_it = θ + γy_it−h + λ_t + ρd_it + X_itβ + ε_it
적절한 경우	영구적 비관측 능력/선호가 선택 주도	최근 충격/변화가 선택 주도 (훈련 프로그램)

둘 다 포함할 수 있나?

α_i와 y_it−1 모두 있는 모형을 추정하고 싶은 유혹:

y_it = α_i + γy_it−1 + λ_t + ρd_it + X_itβ + ε_it

α_i를 제거하기 위해 차분:

Δy_it = γΔy_it−1 + Δλ_t + ρΔd_it + ΔX_itβ + Δε_it

Nickell (1981) 문제:

Δy_it−1 = y_it−1 − y_it−2에 ε_it−1 포함

Δε_it = ε_it − ε_it−1에도 ε_it−1 포함

→ 회귀변수가 오차와 상관! OLS가 비일치.

가능한 해결: y_it−2를 Δy_it−1의 도구변수로 사용. 하지만 필요 조건:

최소 3기간의 데이터
ε_it가 계열 비상관 (가능성 낮음 — 소득은 매우 지속적)

괄호(Bracketing) 성질

FE와 LDV 모형은 중첩되지 않음. 결합 모형(추정하기 어려움)만이 둘 다 포함. 그러나 유용한 괄호 성질이 있음:

진정한 모형이...	그런데 추정은...	편의 방향
LDV (y_it−1에 의한 선택)	FE (차분)	상향 — 추정치 너무 큼
FE (α_i에 의한 선택)	LDV (y_it−1 통제)	하향 — 추정치 너무 작음

함의: FE와 LDV 추정치가 진정한 인과효과를 괄호로 묶음. 경계를 제공한다고 생각할 수 있음.

부록: 왜 괄호가 작동하는가

클릭하여 펼치기: 수학적 도출

경우 1: LDV가 맞는데 FE 사용

진정한 모형 (단순화, 공변량/시간효과 없음, d_it−1 = 0):

y_it = α_i + ρd_it + ε_it

여기서 ε_it는 계열 비상관이고 α_i, d_it와 비상관.

y_it−1 = α_i + ε_it−1을 잘못 통제. α_i = y_it−1 − ε_it−1을 대입:

y_it = y_it−1 + ρd_it + ε_it − ε_it−1

LDV 추정량이 얻는 것:

ρ + σ²_ε / V(d̃_it)

훈련생은 낮은 y_it−1을 가지므로, d_it와 y_it−1의 상관은 음수 (π < 0). 편의 항은 양수 → LDV 추정치가 너무 작음.

경우 2: FE가 맞는데 LDV 사용

진정한 모형:

y_it = θ + γy_it−1 + ρd_it + ε_it

여기서 ε_it는 계열 비상관이고 0 < γ < 1 (정상성).

잘못 차분 (FE). y_it−1을 빼면:

y_it − y_it−1 = θ + (γ−1)y_it−1 + ρd_it + ε_it

차분 추정량이 얻는 것:

ρ + (γ−1) × Cov(y_it−1, d_it) / V(d_it)

γ < 1이므로 (γ−1 < 0) 훈련생이 낮은 y_it−1을 가지면 (음의 상관), 편의 항은 양수 → FE 추정치가 너무 큼.

실용적 조언

강건성 검토: FE와 LDV 모형 둘 다 추정. 비슷한 결과면 더 확신할 수 있음.
경계로 해석: 결과가 다르면 진실은 아마 그 사이(양의 효과에서 FE 상한, LDV 하한).
선택에 대해 생각: 선택이 영구적 특성(FE)에 더 그럴듯하게 기반하는가 최근 이력(LDV)에 기반하는가?

예시: Guryan (2004)는 법원 명령 버스 통학이 흑인 고등학교 졸업률에 미치는 효과 연구에서 이 괄호 추론 사용.

Chapter 5 요약

개념	핵심 포인트
고정효과	단위 내 변동을 사용해 시간불변 비관측 교란요인 제거
FE 추정	평균 편차 또는 1차 차분 (T=2일 때 동일)
FE 한계	측정 오차 증폭; 좋은 변동과 나쁜 변동 모두 제거
DD	집계 데이터용 FE: (Δ처치군) − (Δ통제군)
평행 추세	핵심 DD 가정 — 처치 부재 시 처치군과 통제군이 같은 추세
회귀 DD	주 + 시간 더미 + 교호작용; 처치 강도 변동, 공변량 허용
DD 검정	사전 추세, 선행/후행 (Granger), 주별 추세, 삼중차분
FE vs. LDV	다른 가정; 중첩 안 됨; 추정치가 진정한 효과를 괄호로 묶음
괄호	LDV 참이면 FE 너무 큼; FE 참이면 LDV 너무 작음 → 인과효과의 경계

실용적 체크리스트:

✓ FE/DD는 단위 내 시간에 걸친 변동 활용 — 수준 비교 포기
✓ 가능하면 항상 처치 전 데이터로 평행 추세 검정
✓ 측정 오차 효과 검토 (FE가 감쇠될 수 있음)
✓ 선행/후행 설정 실행 — 선행은 0이어야
✓ 강건성 검정으로 주별 추세 시도
✓ FE와 LDV 둘 다 고려 — 진실을 괄호로 묶음
✓ 처치/통제 그룹의 구성 변화 주시