Chapter 5: 고정효과, 이중차분, 패널 데이터

English

Angrist & Pischke, Mostly Harmless Econometrics — Chapter 5

"평행 우주에 대해 처음 깨달아야 할 것은... 그것들이 평행하지 않다는 것이다." — Douglas Adams

핵심 메시지

중요한 교란요인이 관측되지 않지만 시간에 걸쳐 고정되어 있을 때, 패널 데이터 전략으로 이를 제거할 수 있다: 고정효과(개인 내 변동) 또는 이중차분(평행 추세 가정). 이 방법들은 "수준 비교를 포기"하면서 반사실적 추세가 동일할 것을 요구한다.

지금까지의 식별 도구:

  • 3장: 관측된 교란요인 통제 (회귀, 매칭)
  • 4장: 교란요인이 관측되지 않을 때 도구변수 사용
  • 5장: 교란요인이 관측되지 않지만 고정일 때 시간/코호트 차원 활용

5.1 개인 고정효과

동기: 노조 임금 프리미엄

노동경제학의 고전적 질문: 단체교섭으로 임금이 결정되는 근로자가 더 많이 버는 것이 단체교섭 때문인가, 아니면 어차피 더 많이 벌 사람들인가(더 숙련되고 경험이 많아서)?

문제: 관측되지 않는 근로자 능력 Ai가 노조 가입과 임금 모두에 영향. 더 능력 있는 근로자가 노조에 가입할 확률이 높다면, OLS는 노조 효과를 과대추정.

고정효과 설정

yit = 근로자 i의 t기 로그 임금, dit = 노조 상태라 하자. 가정:

조건부 독립성:

E(y0it | Ai, Xit, t, dit) = E(y0it | Ai, Xit, t)

관측되지 않는 능력 Ai, 관측된 공변량 Xit, 시간에 조건부로 노조 상태가 무작위 배정과 같음.

핵심 가정: 관측되지 않는 Ai가 선형 모형에서 시간 첨자 없이 등장:

E(y0it | Ai, Xit, t) = α + λt + A'iγ + Xitβ

상수적, 가법적 처치효과 ρ와 함께:

E(y1it | Ai, Xit, t) = E(y0it | Ai, Xit, t) + ρ

이로부터 고정효과 모형이 도출:

yit = αi + λt + ρdit + Xitβ + εit

여기서 αi ≡ α + A'iγ가 개인 고정효과(추정할 모수로 취급), λt연도 효과(시간 더미의 계수).

참고: 이 가정들은 3장보다 더 제약적이다. 도구변수 없이 패널 데이터로 관측되지 않는 교란요인 문제를 해결하려면 선형, 가법적 함수 형태가 필요하다.

추정 전략 1: 평균으로부터의 편차

패널 데이터(동일 개인에 대한 반복 관측)로 αi를 제거할 수 있다. 먼저 개인 평균 계산:

ȳi = αi + λ̄ + ρd̄i + X̄iβ + ε̄i

원래 식에서 빼면:

(yit − ȳi) = (λt − λ̄) + ρ(dit − d̄i) + (Xit − X̄i)β + (εit − ε̄i)

고정효과 αi가 제거됨! 이를 "within 추정량" 또는 "공분산 분석"이라 함.

왜 대수적으로 같은가?

회귀 해부 공식(3.1.3)에 의해, 개인 더미 전체 집합에 대한 회귀 잔차는 정확히 개인 평균으로부터의 편차이다.

추정 전략 2: 1차 차분

평균 편차의 대안:

Δyit = Δλt + ρΔdit + ΔXitβ + Δεit

여기서 Δyit = yit − yit−1.

방법 평균 편차 1차 차분
T = 2일 때 대수적으로 동일
T > 2일 때 εit가 등분산 & 계열 비상관이면 더 효율적 더 편리할 수 있음; Δεit는 계열 상관됨에 주의

고정효과 vs. 확률효과

확률효과(Random effects)는 αi가 회귀변수와 비상관이라고 가정. 그러면 αi는 잔차의 일부가 됨(무시해도 OVB 없음), 단 동일인의 잔차가 기간 간 상관됨.

저자들의 선호: 확률효과 하 GLS보다 고정효과 OLS + 강건 표준오차. GLS는 더 강한 가정(선형 CEF, 등분산)이 필요하고 효율성 이득은 보통 미미함.

예시: 노조 임금 효과 (Freeman 1984)

Freeman은 네 개의 패널 데이터셋으로 노조 임금 효과 추정:

조사 횡단면 고정효과
May CPS, 1974-75 0.19 0.09
NLS Young Men, 1970-78 0.28 0.19
Michigan PSID, 1970-79 0.23 0.14
QES, 1973-77 0.14 0.16

패턴: FE 추정치(0.09–0.19)가 일반적으로 횡단면 추정치(0.14–0.28)보다 작음. 이는 횡단면에서 양의 선택 편의 시사 — 더 능력 있는 근로자가 노조에 가입하 더 많이 번다.

주의 1: 측정 오차

FE 추정치는 감쇠 편의에 매우 취약:

  • 노조 상태 같은 경제 변수는 지속적인 경향(올해 노조원이면 내년에도 노조원일 가능성 높음)
  • 측정 오차는 종종 매년 변동(올해 노조 상태가 잘못 보고되어도 내년에는 아닐 수 있음)
  • → 어떤 한 해에 잘못 분류되는 근로자는 적지만, 관측된 연간 노조 상태 변화는 대부분 노이즈일 수 있음
  • → dit보다 Δdit에서 측정 오차가 더 큼 → FE 추정치가 0 방향으로 편향

가능한 해결책:

  • IV: 형제간 교차 보고를 도구변수로 사용 (Ashenfelter & Krueger 1994)
  • 외부 검증: 검증 조사의 측정 오차율을 사용해 추정치 조정 (Card 1996)

주의 2: 좋은 변동 제거 (쌍둥이 예시)

차분/평균 편차는 좋은 변동과 나쁜 변동을 모두 제거. 변환이 OVB라는 더러운 물은 버리지만 유용한 정보인 아기도 함께 버릴 수 있음.

쌍둥이와 교육 수익률:

Ashenfelter & Krueger (1994), Ashenfelter & Rouse (1998)는 쌍둥이를 사용해 가족 고정효과(공통 가족/유전적 배경)를 통제하며 교육 수익률 추정.

놀라운 결과: 가족 내 추정치가 OLS보다 더 큼!

Bound & Solon (1999) 비판:

  • 쌍둥이도 작은 차이가 있음: 첫째가 보통 출생 체중과 IQ가 더 높음
  • 쌍둥이 내 차이는 작지만, 그들의 교육 차이도 작음
  • → 작은 양의 관측되지 않는 능력 차이가 상당한 편의를 야기할 수 있음
결론: 고정효과 추정치를 해석할 때 지나치게 강한 주장은 피해야 한다. 관측되지 않는 변수의 정확한 성격은 보통 다소 불분명하게 남는다.

5.2 이중차분 (DD)

처치가 그룹 수준에서 변동할 때

FE는 동일 개인에 대한 반복 관측이 있는 패널 데이터가 필요. 그러나 종종 처치가 더 집계된 수준(주, 코호트)에서만 변동. 예:

  • 임산부 건강 보험에 대한 주 정책
  • 주별 최저임금
  • 고용법에 대한 법원 판결

OVB의 원천은 따라서 주 및 연도 수준의 관측되지 않는 변수여야 함.

고전적 예시: Card & Krueger (1994) — 최저임금

고전적 질문: 경쟁적 노동시장에서 최저임금 인상은 고용을 감소시켜야 함(하향 경사 수요곡선을 따라 이동). 실제로 그런가?

자연실험:

  • 1992년 4월 1일: 뉴저지가 주 최저임금을 $4.25에서 $5.05로 인상
  • 펜실베이니아: $4.25 유지 (연방 최저임금)
  • 데이터: NJ와 동부 PA의 패스트푸드 레스토랑(버거킹, 웬디스 등) 고용
  • 시점: 1992년 2월 (이전)과 1992년 11월 (이후)

DD 모형

잠재적 결과 정의:

y1ist = 높은 최저임금일 때 고용
y0ist = 낮은 최저임금일 때 고용

핵심 가정 — 처치 부재 시 평행 추세:

E(y0ist | s, t) = γs + λt

이 말은: 최저임금 변화가 없으면, 고용은 다음의 합으로 결정:

  • γs: 시간불변 주 효과 (개인 FE에서 αi의 역할)
  • λt: 주 간 공통인 연도 효과

상수 처치효과 δ와 함께:

yist = γs + λt + δdst + εist

여기서 dst는 높은 최저임금 주-기간에 대한 더미이고 E(εist | s, t) = 0.

DD 추정량 도출

통제 주 (PA):

E[y|PA, 11월] − E[y|PA, 2월] = λ11월 − λ2월

처치 주 (NJ):

E[y|NJ, 11월] − E[y|NJ, 2월] = λ11월 − λ2월 + δ

이중차분:

[E[y|NJ, 11월] − E[y|NJ, 2월]] − [E[y|PA, 11월] − E[y|PA, 2월]] = δ

Card & Krueger 결과

FTE 고용 PA (통제) NJ (처치) NJ − PA
이전 (2월) 23.33 (1.35) 20.44 (0.51) −2.89 (1.44)
이후 (11월) 21.17 (0.94) 21.03 (0.52) −0.14 (1.07)
변화 −2.16 (1.25) +0.59 (0.54) +2.76 (1.36)

해석:

  • PA 고용은 점포당 2.16명 감소
  • NJ 고용은 점포당 0.59명 증가
  • DD = +2.76 — 표준 예측과 반대!
  • 최저임금 인상이 고용을 감소시키지 않음; 오히려 약간 증가

시각적 표현

고용
    │
    │                    ●───────● 처치군 (관측됨)
    │                   ╱         
    │                  ╱  ← 처치효과 (δ)
    │                 ╱           
    │                ●─ ─ ─ ─ ─ ●  반사실
    │               ╱               (통제군과 평행)
    │              ╱
    │  ●─────────●  통제군 (관측됨)
    │
    └────────────────────────────── 시간
              이전        이후

핵심 통찰: 반사실은 절대 관측되지 않는다.
평행 추세 가정이 통제군의 변화를 
반사실의 대리변수로 사용하게 해준다.
                

평행 추세 검정

식별 가정은 여러 처치 전 기간으로 조사 가능. 처치 전에 처치군과 통제군이 비슷한 추세를 따르는가?

Card & Krueger (2000) 후속 연구:

NJ와 PA 레스토랑의 여러 해 행정 급여 데이터:

  • 1992년 2-11월: 약간의 PA 감소, NJ 거의 변화 없음 (원래 조사와 일치)
  • 하지만: 다른 기간에 상당한 연간 변동
  • 고용 변동이 주 간에 종종 크게 다름
  • 1992-1995년에 PA 고용이 NJ 대비 하락, 대부분 1996년 연방 최저임금 인상

우려: PA가 NJ의 반사실 고용을 잘 측정하지 못할 수 있음.

더 나은 예시: Pischke (2007) — 독일 학기 기간

  • 1960년대까지: 독일 주들(바이에른 제외)이 봄에 학교 시작
  • 1966-67: 비바이에른 주들이 가을 시작으로 전환
  • 전환을 위해 두 번의 짧은 학년 필요 (37주 대신 24주)
  • 결과: 2학년의 유급률

결과:

  • 바이에른 (통제): 1966년 이후 유급률 ~2.5%로 평탄
  • 처치 주: 더 높은 기준선 (~4-4.5%), 영향받은 코호트에서 ~1%p 상승, 이후 기준선 복귀
  • → 평행 추세 + 일시적 처치효과의 강력한 시각적 증거

5.2.1 회귀 DD

DD는 회귀로 추정 가능. NJs = NJ 더미, dt = 11월 더미라 하면:

yist = α + γ·NJs + λ·dt + δ·(NJs × dt) + εist

모수 해석:

모수 의미
α E[y | PA, 2월] = γPA + λ2월
γ E[y | NJ, 2월] − E[y | PA, 2월] = γNJ − γPA
λ E[y | PA, 11월] − E[y | PA, 2월] = λ11월 − λ2월
δ DD 추정치 = {E[y|NJ,11월] − E[y|NJ,2월]} − {E[y|PA,11월] − E[y|PA,2월]}

이는 포화 모형: E(y|s,t)의 4개 가능한 값, 4개 모수.

회귀 DD의 장점:

1. 주/기간 추가 용이: 더미만 더 추가. 일반화된 모형은 각 주와 기간에 대한 더미 포함.

2. 처치 강도 변동: on/off 처치 대신 연속 측정치 사용 가능.

예시: Card (1992) — 연방 최저임금

1990년 연방 최저임금이 $3.35에서 $3.80으로 인상. 영향은 주마다 다름(고임금 코네티컷에서는 무관, 저임금 미시시피에서는 큰 영향).

yist = γs + λt + δ·(fas × dt) + εist

여기서 fas = s주에서 $3.80 미만으로 버는 청소년의 기준선 비율 (처치 강도).

결과 Δ 평균 로그임금 Δ 고용/인구 비율
영향받은 비율 (fas) 0.15 (0.03) 0.02 (0.03)

최저임금이 더 영향력 있는 주에서 임금이 더 많이 상승(0.15), 하지만 고용은 영향받은 비율과 거의 무관(0.02 ≈ 0).

3. 공변량 추가 용이: 시간 변동 주 특성 Xst 통제(예: 주 경제 상황의 대리변수로 성인 고용).

Granger 스타일 인과성 검정: 선행과 후행

표본이 여러 해를 포함하고 처치 시점이 주마다 다를 때, "원인이 결과보다 먼저 발생"하는지 검정 가능:

yist = γs + λt + Στ=0m δ−τds,t−τ + Στ=1q δds,t+τ + Xistβ + εist
  • 후행(Lags)−τ): 처치 후 효과 — 효과가 시간에 따라 어떻게 진화?
  • 선행(Leads)): 처치 전 "효과" — 처치가 인과적이면 0이어야!

예시: Autor (2003) — 고용 보호 & 파견 근로

"부당 해고" 소송을 허용하는 주 법원 판결 → 기업이 파견 근로자를 더 많이 사용?

추정된 선행/후행 패턴:

  • 2년 전, 1년 전: 효과 없음 (선행 ≈ 0) ✓
  • 채택 연도: 작은 양의 효과
  • 1-3년 후: 급격히 증가하는 효과
  • 4년 이상 후: 효과가 영구적으로 높은 수준에서 평탄화

이 패턴은 인과적 해석과 일관: 예측 없음, 점진적 조정.

주별 추세

대안적 강건성 검정: 처치군과 통제군이 다른 선형 추세를 따르도록 허용:

yist = γ0s + γ1s·t + λt + δdst + Xistβ + εist

이는 추세의 제한된 이질성을 허용. 결과가 살아남으면 고무적, 아니면 낙담.

예시: Besley & Burgess (2004) — 인도 노동 규제

설정 노동 규제 효과
DD만 −0.186 (0.064)
DD + 주 수준 통제 −0.104 (0.039)
DD + 주별 추세 0.0002 (0.02)

해석: 추세 없이 노동 규제가 생산량을 줄이는 것처럼 보임. 주 추세를 넣으면 효과 사라짐 → 규제는 생산량이 이미 하락 중인 주에서 증가함.

통제군 선택: 구성 변화

DD는 암묵적 처치-통제 비교를 설정. 잠재적 함정: 처치의 결과로 구성 변화.

예시: 복지 혜택과 노동 공급

관대한 복지를 제공하는 주가 어차피 노동력 연계가 약한 가난한 사람들을 유인하면(프로그램 유발 이동), DD는 관대한 복지가 노동 공급에 실제보다 더 나빠 보이게 만듦.

해결: 출생 주 또는 이전 거주지 사용(처치에 의해 변하지 않지만 현재 위치와 상관). IV 전략으로 구현 가능.

삼중차분 (DDD)

처치가 세 차원(주 × 시간 × 연령)에서 변동할 때, 고차 대비 사용:

yiast = γst + λat + μas + δdast + Xiastβ + εiast

통제하는 효과:

  • γst: 주 × 시간 효과 (연령 그룹 간 공통)
  • λat: 연령 × 시간 효과 (주 간 공통)
  • μas: 주 × 연령 효과 (시간 간 공통)

예시: Yelowitz (1995) — Medicaid 확대

Medicaid 적격성이 한때 AFDC(현금 복지)에 연계됨. 1980년대에 일부 주가 AFDC 부적격 가족의 아동에게 적용 범위 확대.

처치가 주, 시간, 그리고 자녀 연령에 따라 변동. DDD는 세 차원 모두에서 비교하여 표준 DD보다 더 설득력 있는 통제 제공.

5.3 고정효과 대 종속변수 시차

딜레마

FE와 DD는 시간불변 누락변수에 기반. 그러나 많은 질문에서 이 가정은 그럴듯해 보이지 않음.

예시: 훈련 프로그램 평가

정부 훈련 프로그램 참가자들은 종종 최근 충격(실직)을 경험함. 많은 프로그램이 명시적으로 그런 사람들을 대상.

Ashenfelter (1978), Ashenfelter & Card (1985): 훈련 참가자들이 프로그램 전 소득 하락(dip)을 보임.

과거 소득은 시간불변 αi에 포함될 수 없는 시간 변동 교란요인.

두 경쟁 모형

고정효과 종속변수 시차
선택 기반 시간불변 비관측변수 (αi) 과거 결과 (yit−h)
CIA E(y0iti, Xit, dit) = E(y0iti, Xit) E(y0it|yit−h, Xit, dit) = E(y0it|yit−h, Xit)
모형 yit = αi + λt + ρdit + Xitβ + εit yit = θ + γyit−h + λt + ρdit + Xitβ + εit
적절한 경우 영구적 비관측 능력/선호가 선택 주도 최근 충격/변화가 선택 주도 (훈련 프로그램)

둘 다 포함할 수 있나?

αi와 yit−1 모두 있는 모형을 추정하고 싶은 유혹:

yit = αi + γyit−1 + λt + ρdit + Xitβ + εit

αi를 제거하기 위해 차분:

Δyit = γΔyit−1 + Δλt + ρΔdit + ΔXitβ + Δεit

Nickell (1981) 문제:

Δyit−1 = yit−1 − yit−2에 εit−1 포함

Δεit = εit − εit−1에도 εit−1 포함

회귀변수가 오차와 상관! OLS가 비일치.

가능한 해결: yit−2를 Δyit−1의 도구변수로 사용. 하지만 필요 조건:

  • 최소 3기간의 데이터
  • εit가 계열 비상관 (가능성 낮음 — 소득은 매우 지속적)

괄호(Bracketing) 성질

FE와 LDV 모형은 중첩되지 않음. 결합 모형(추정하기 어려움)만이 둘 다 포함. 그러나 유용한 괄호 성질이 있음:

진정한 모형이... 그런데 추정은... 편의 방향
LDV (yit−1에 의한 선택) FE (차분) 상향 — 추정치 너무 큼
FE (αi에 의한 선택) LDV (yit−1 통제) 하향 — 추정치 너무 작음

함의: FE와 LDV 추정치가 진정한 인과효과를 괄호로 묶음. 경계를 제공한다고 생각할 수 있음.

부록: 왜 괄호가 작동하는가

클릭하여 펼치기: 수학적 도출

경우 1: LDV가 맞는데 FE 사용

진정한 모형 (단순화, 공변량/시간효과 없음, dit−1 = 0):

yit = αi + ρdit + εit

여기서 εit는 계열 비상관이고 αi, dit와 비상관.

yit−1 = αi + εit−1을 잘못 통제. αi = yit−1 − εit−1을 대입:

yit = yit−1 + ρdit + εit − εit−1

LDV 추정량이 얻는 것:

ρ + σ²ε / V(d̃it)

훈련생은 낮은 yit−1을 가지므로, dit와 yit−1의 상관은 음수 (π < 0). 편의 항은 양수 → LDV 추정치가 너무 작음.


경우 2: FE가 맞는데 LDV 사용

진정한 모형:

yit = θ + γyit−1 + ρdit + εit

여기서 εit는 계열 비상관이고 0 < γ < 1 (정상성).

잘못 차분 (FE). yit−1을 빼면:

yit − yit−1 = θ + (γ−1)yit−1 + ρdit + εit

차분 추정량이 얻는 것:

ρ + (γ−1) × Cov(yit−1, dit) / V(dit)

γ < 1이므로 (γ−1 < 0) 훈련생이 낮은 yit−1을 가지면 (음의 상관), 편의 항은 양수 → FE 추정치가 너무 큼.

실용적 조언

  1. 강건성 검토: FE와 LDV 모형 둘 다 추정. 비슷한 결과면 더 확신할 수 있음.
  2. 경계로 해석: 결과가 다르면 진실은 아마 그 사이(양의 효과에서 FE 상한, LDV 하한).
  3. 선택에 대해 생각: 선택이 영구적 특성(FE)에 더 그럴듯하게 기반하는가 최근 이력(LDV)에 기반하는가?

예시: Guryan (2004)는 법원 명령 버스 통학이 흑인 고등학교 졸업률에 미치는 효과 연구에서 이 괄호 추론 사용.

Chapter 5 요약

개념 핵심 포인트
고정효과 단위 내 변동을 사용해 시간불변 비관측 교란요인 제거
FE 추정 평균 편차 또는 1차 차분 (T=2일 때 동일)
FE 한계 측정 오차 증폭; 좋은 변동과 나쁜 변동 모두 제거
DD 집계 데이터용 FE: (Δ처치군) − (Δ통제군)
평행 추세 핵심 DD 가정 — 처치 부재 시 처치군과 통제군이 같은 추세
회귀 DD 주 + 시간 더미 + 교호작용; 처치 강도 변동, 공변량 허용
DD 검정 사전 추세, 선행/후행 (Granger), 주별 추세, 삼중차분
FE vs. LDV 다른 가정; 중첩 안 됨; 추정치가 진정한 효과를 괄호로 묶음
괄호 LDV 참이면 FE 너무 큼; FE 참이면 LDV 너무 작음 → 인과효과의 경계

실용적 체크리스트:

  1. ✓ FE/DD는 단위 내 시간에 걸친 변동 활용 — 수준 비교 포기
  2. ✓ 가능하면 항상 처치 전 데이터로 평행 추세 검정
  3. 측정 오차 효과 검토 (FE가 감쇠될 수 있음)
  4. 선행/후행 설정 실행 — 선행은 0이어야
  5. ✓ 강건성 검정으로 주별 추세 시도
  6. FE와 LDV 둘 다 고려 — 진실을 괄호로 묶음
  7. ✓ 처치/통제 그룹의 구성 변화 주시
← Ch 4-3: IV 상세 Ch 6: RDD →
이 노트는 LLM (Claude)의 도움을 받아 작성되었습니다.