Angrist Ch.6 - 회귀단절 설계

Chapter 6: 회귀단절 설계 (RDD)

English

Angrist & Pischke, Mostly Harmless Econometrics — Chapter 6

"규칙이 많을수록, 규칙이 작을수록, 규칙이 자의적일수록, 더 좋다." — Douglas Adams

핵심 메시지

회귀단절(RD)은 처치를 결정하는 규칙에 대한 정확한 지식을 활용한다. 규칙 기반 세계에서 일부 규칙은 자의적이므로 좋은 자연실험을 제공한다. 핵심 통찰: 처치가 알려진 기준점에서 켜지고/꺼지면, 기준점 바로 위와 바로 아래의 단위들은 본질적으로 비교 가능하다 — 국지적 무작위 실험과 같다.

RD의 두 가지 유형:

Sharp RD: 처치가 실행변수의 결정적 함수 — 기준점을 넘으면 처치가 완전히 켜지고/꺼짐
Fuzzy RD: 기준점을 넘으면 처치 확률이 변함 — IV 설정으로 연결

6.1 Sharp RD

설정

Sharp RD는 처치 상태가 공변량 x_i("실행변수" 또는 "강제변수")의 결정적이고 불연속적인 함수일 때 사용:

d_i = 1(x_i ≥ x₀) = { 1 if x_i ≥ x₀
{ 0 if x_i < x₀

여기서 x₀은 알려진 임계값 또는 기준점.

결정적: x_i를 알면 d_i를 알 수 있음
불연속적: x_i가 x₀에 아무리 가까워져도 x_i = x₀이 될 때까지 처치는 변하지 않음

동기 부여 예시: 국가 장학금

최초의 RD 연구(Thistlethwaite & Campbell, 1960)의 질문: National Merit Scholarship Award를 받은 학생들이 장학금 때문에 대학 졸업률이 높은가?

실행변수 (x_i): PSAT 점수
기준점 (x₀): 장학금 수여 임계값
처치 (d_i): 장학금 수령
결과 (y_i): 대학 졸업

RD 접근법: 임계값 바로 위와 바로 아래 PSAT 점수를 가진 학생들을 비교. 임계값에서 대학 졸업의 점프는 처치효과의 증거.

핵심 특징: 중첩 없음

매칭/회귀와의 중요한 차이:

RD에서는 처치군과 통제군 모두를 관측하는 x_i 값이 없다. 중첩에 기반한 매칭 전략과 달리, RD 타당성은 외삽에 달려 있다 — 조건부 평균 함수가 기준점을 통해 매끄럽다는 가정.

→ 이것이 RD에서 3장처럼 함수 형태에 대해 불가지론적일 수 없는 이유.

Sharp RD 모형

잠재적 결과가 선형, 상수효과 모형을 따른다고 가정:

E[y_0i | x_i] = α + βx_i
y_1i = y_0i + ρ

이로부터 회귀식:

y_i = α + βx_i + ρd_i + ε_i

여기서 ρ가 관심 인과효과.

3장 회귀와의 핵심 차이:

여기서 d_i는 x_i와 상관되어 있을 뿐 아니라 — x_i의 결정적 함수이다. RD는 다음을 구별하여 인과효과를 포착:

불연속적 함수: 1(x_i ≥ x₀)
매끄러운 함수: x_i

시각적 직관

패널 A: 선형 E[y₀|x]           패널 B: 비선형 E[y₀|x]

  y│                               y│
   │        ●●●●                    │           ●●●●
   │       ●                        │         ●●
   │      ● ← 점프 (ρ)              │       ●● ← 점프 (ρ)
   │     ●                          │     ●●
   │   ●●                           │   ●●
   │ ●●                             │ ●●
   └──────────────── x              └──────────────── x
          x₀                               x₀

패널 C: 비선형성을 불연속으로 오인

  y│
   │               ●●●●
   │           ●●●●
   │        ●●●    ← 급격한 곡선, 처치 아님!
   │     ●●●
   │   ●●
   │ ●●
   └──────────────── x
          x₀

다항식 통제

E[y_0i | x_i] = f(x_i)가 비선형이면? f(x_i)를 p차 다항식으로 모형화:

y_i = α + β₁x_i + β₂x_i² + ... + β_px_i^p + ρd_i + ε_i

f(x_i)가 x₀에서 연속인 한, 불연속적 점프 ρ를 여전히 식별 가능.

양쪽에 다른 기울기 허용

더 유연한 모형은 E[y_0i|x_i]와 E[y_1i|x_i]에 다른 추세 함수 허용. x̃_i ≡ x_i − x₀ 정의 (기준점에 중심화):

y_i = α + β₀₁x̃_i + β₀₂x̃_i² + ... + β_0px̃_i^p
+ ρd_i + δ₁d_ix̃_i + δ₂d_ix̃_i² + ... + δ_pd_ix̃_i^p + ε_i

ρ = x_i = x₀에서의 처치효과
교호작용 (d_ix̃_i, d_ix̃_i², ...)이 기준점 위/아래에서 다른 기울기 허용
x₀에 중심화하면 ρ가 여전히 기준점에서의 효과 포착

비모수적 RD

함수 형태 의존성을 완전히 피하려면 기준점 주변의 좁은 창에 집중:

lim_ε→0 { E[y_i | x₀ < x_i < x₀+ε] − E[y_i | x₀−ε < x_i < x₀] } = E[y_1i − y_0i | x_i = x₀]

x₀ 좌우의 작은 이웃에서 평균을 비교하면 f(x_i)를 올바르게 설정하지 않아도 되는 추정치 제공.

실용적 접근법:

국소 선형 회귀: x₀ 근처에 더 많은 가중치를 주는 가중 최소제곱 (Hahn, Todd, van der Klaauw, 2001)
단절 표본: 대역폭 h에 대해 [x₀−h, x₀+h] 내 관측치로 제한 (Angrist & Lavy, 1999)

Sharp RD 강건성 검정

검정	확인할 것
대역폭 민감도	x₀ 주변 창을 좁혀도 추정치가 안정적이어야 (필요한 다항식 항 감소)
처치 전 공변량	처치 전에 결정된 공변량에서 점프 없어야 (균형 검정)
실행변수 밀도	x₀ 주변에 뭉침/조작 없어야 (McCrary, 2008 검정)
위약 기준점	정책 변화가 없는 다른 x_i 값에서 점프 없어야

예시: Lee (2008) — 현직자 이점

질문: 선거에서 이기면 다음 선거에서 정당에 이점이 있는가(현직 효과)?

실행변수 (x_i): t선거에서 민주당 득표 마진
기준점 (x₀): 0 (50% 득표율)
처치 (d_i): 민주당이 t선거 승리 (현직 정당)
결과 (y_i): t+1선거에서 민주당 승리 확률

핵심 통찰: d_i = 1(득표 마진 ≥ 0)이 x_i의 결정적 함수이므로, x_i 외의 교란변수가 없다. 이것이 RD 설정의 특징적 장점.

결과:

승리 확률은 과거 득표율의 증가 함수 (놀랍지 않음)
0% 마진에서 ~40 퍼센트 포인트의 극적인 점프
간신히 이기는 것(vs. 간신히 지는 것)이 다음 선거 승리 확률을 40pp 높임

타당성 검정: Lee는 지난 선거 전 민주당 승리를 검토. 현재 기준점에서 점프가 없어야 함 — 실제로 없어서 설계에 대한 확신 증가.

조작 우려: 정당이 기준점 근처에서 득표율을 조작할 수 있는가?

2000년 플로리다 재검표는 이것이 접전에서 실제 우려임을 시사. McCrary (2008)는 x₀ 주변 x_i 밀도를 검토하여 조작에 대한 공식 검정 제안.

6.2 Fuzzy RD는 IV이다

처치가 결정적이지 않을 때

많은 상황에서 기준점을 넘는 것이 처치를 완벽하게 결정하지 않음 — 처치 확률만 바꿈. 이것이 fuzzy RD.

P[d_i = 1 | x_i] = { g₁(x_i) if x_i ≥ x₀
{ g₀(x_i) if x_i < x₀ where g₁(x₀) ≠ g₀(x₀)

함수 g₀과 g₁은 x₀에서 다르기만 하면 됨(그리고 차이가 클수록 좋음!).

Fuzzy RD = IV

t_i = 1(x_i ≥ x₀)를 임계값 통과 더미로 정의. 불연속 t_i가 처치 d_i의 도구변수가 됨.

2SLS 설정:

1단계:

d_i = π₀ + π₁x_i + π₂x_i² + ... + π_px_i^p + γt_i + η_1i

여기서 γ는 1단계 효과 (기준점에서 처치 확률의 점프).

2단계:

y_i = α + β₁x_i + β₂x_i² + ... + β_px_i^p + ρd_i + ε_i

축약형

1단계를 2단계에 대입:

y_i = α' + β'₁x_i + β'₂x_i² + ... + β'_px_i^p + (ργ)t_i + η_2i

t_i의 축약형 계수는 ργ (인과효과 × 1단계).

비모수적 Fuzzy RD: Wald 추정량

x₀ 주변의 작은 이웃에서 fuzzy RD는 단순한 Wald/IV 추정량이 됨:

ρ = lim_ε→0 E[y_i | x₀ < x_i < x₀+ε] − E[y_i | x₀−ε < x_i < x₀]
E[d_i | x₀ < x_i < x₀+ε] − E[d_i | x₀−ε < x_i < x₀] = 축약형 점프
1단계 점프

LATE 해석

Fuzzy RD는 국소 평균 처치효과(LATE)를 추정:

효과는 순응자에 대한 것 — x_i가 x₀ 바로 아래에서 바로 위로 이동할 때 처치 상태가 바뀌는 개인들.

이중 국소성:

LATE는 순응자만을 위한 것 (모든 IV와 마찬가지)
효과는 x_i = x₀에서 추정됨 (기준점에 국소적)

예시: Angrist & Lavy (1999) — 학급 규모 효과

질문: 더 작은 학급이 학생 시험 점수를 향상시키는가? (테네시 STAR 실험과 같은 질문)

설정: 이스라엘 학교는 최대 학급 규모가 40명 ("마이모니데스 규칙").

≤40명 학년 → 1개 학급 (최대 40명)
41명 학년 → 2개 학급 (~20명씩)
81명 학년 → 3개 학급 (~27명씩)

마이모니데스 규칙 공식:

m_sc = e_s / (int[(e_s−1)/40] + 1)

여기서 e_s = 등록인원, m_sc = 예측 학급 규모.

왜 Fuzzy인가?

마이모니데스 규칙이 학급 규모를 완벽하게 예측하지 못함 — 일부 학교는 40명 미만에서도 학급을 분할. 이것이 fuzzy 설계를 만듦.

RD 설정

RD 요소	이 연구에서
실행변수 (x_i)	학년 등록인원 (e_s)
기준점 (x₀)	40, 80, 120, ...
처치 (d_i)	실제 학급 규모 (n_sc)
도구변수 (t_i)	마이모니데스 규칙에서 예측된 학급 규모 (m_sc)
결과 (y_i)	시험 점수

시각적: 톱니 패턴

학급 규모
    │
 40 │     ●●●●●                ●●●●●
    │    ●     \              ●     \
 30 │   ●       \            ●       \
    │  ●         \          ●         \
 20 │ ●           ●●●●●●●●●●           ●●●●
    │              ↑                    ↑
    └───────────────────────────────────────── 등록인원
              40  41          80  81

    --- = 마이모니데스 규칙 (예측)
    ●●● = 실제 학급 규모 (fuzzy)

결과: 5학년 수학 점수

	OLS			2SLS (전체)		2SLS (±5)		Wald (±3)
학급 규모	+.322	+.076	+.019	−.230	−.261	−.185	−.443	−.270
(표준오차)	(.039)	(.036)	(.044)	(.092)	(.113)	(.151)	(.236)	(.281)
통제변수	없음	%취약	+등록	선형	2차	선형	2차	더미

핵심 발견:

OLS: 양의 관계 (큰 학급 → 높은 점수) — 선택에 기인할 가능성 (좋은 학교가 큰 학급)
OLS + 통제: 효과가 0 방향으로 축소
2SLS: 강한 음의 효과 (−0.23 ~ −0.26) — 작은 학급이 점수 향상
단절 표본: 덜 정밀하지만 비슷한 크기 (~−0.27)

해석: 7명 학급 규모 감소(테네시 STAR와 같이)가 수학 점수를 ~1.75점 올림, 효과 크기 ≈ 0.18σ. 테네시 STAR 결과와 유사!

정밀도 vs. 강건성 상충:

단절 표본을 줄이면 추정치가 덜 정밀해지지만(큰 표준오차) 함수 형태 가정에 대해 더 강건해짐. 추정치가 설정에 걸쳐 안정적(~−0.25)인 것이 안심됨.

Chapter 6 요약

개념	핵심 포인트
RD 핵심 아이디어	자의적 규칙이 자연실험 생성 — 실행변수의 기준점이 처치 결정
Sharp RD	d_i = 1(x_i ≥ x₀) 결정적; 관측변수에 의한 선택 이야기
Fuzzy RD	P(d_i=1)가 x₀에서 점프; t_i=1(x_i≥x₀)가 d_i의 도구가 되는 IV 설정
식별	불연속적 점프(처치)와 매끄러운 추세(실행변수) 구별
함수 형태	E[y₀\|x] 모형화 필요 — 다항식 사용, 다른 기울기 허용, 또는 좁은 대역폭 집중
타당성 검정	처치 전 공변량 균형, 조작 없음(밀도 검정), 위약 기준점, 대역폭 민감도
LATE	RD 추정치는 x₀에 국소적; fuzzy RD는 기준점 순응자의 LATE

RD 실용적 체크리스트:

✓ 처치 배정 규칙이 알려진 기준점에 기반하는지 확인
✓ 설계가 sharp인지 fuzzy인지 확인
✓ 결과 vs. 실행변수 그래프 — 가시적 점프 찾기
✓ 실행변수의 매끄러운 함수 통제(다항식)
✓ 기준점 양쪽에 다른 기울기 허용
✓ 기준점에서 처치 전 공변량 균형 검정
✓ 조작 검정(실행변수 밀도)
✓ 대역폭 변화 — 추정치가 안정적이어야
✓ Fuzzy RD의 경우: 1단계 강도 확인

Sharp vs. Fuzzy 요약:

	Sharp RD	Fuzzy RD
기준점에서 처치	확실히 0→1로 전환	확률이 증가
추정	다항식 통제와 OLS	2SLS (IV)
추정량	x₀에서의 ATE	x₀ 순응자의 LATE
예시	Lee (2008) — 선거 승리	Angrist & Lavy (1999) — 학급 규모