Chapter 6: 회귀단절 설계 (RDD)

English

Angrist & Pischke, Mostly Harmless Econometrics — Chapter 6

"규칙이 많을수록, 규칙이 작을수록, 규칙이 자의적일수록, 더 좋다." — Douglas Adams

핵심 메시지

회귀단절(RD)은 처치를 결정하는 규칙에 대한 정확한 지식을 활용한다. 규칙 기반 세계에서 일부 규칙은 자의적이므로 좋은 자연실험을 제공한다. 핵심 통찰: 처치가 알려진 기준점에서 켜지고/꺼지면, 기준점 바로 위와 바로 아래의 단위들은 본질적으로 비교 가능하다 — 국지적 무작위 실험과 같다.

RD의 두 가지 유형:

  • Sharp RD: 처치가 실행변수의 결정적 함수 — 기준점을 넘으면 처치가 완전히 켜지고/꺼짐
  • Fuzzy RD: 기준점을 넘으면 처치 확률이 변함 — IV 설정으로 연결

6.1 Sharp RD

설정

Sharp RD는 처치 상태가 공변량 xi("실행변수" 또는 "강제변수")의 결정적이고 불연속적인 함수일 때 사용:

di = 1(xi ≥ x0) = { 1 if xi ≥ x0
{ 0 if xi < x0

여기서 x0은 알려진 임계값 또는 기준점.

  • 결정적: xi를 알면 di를 알 수 있음
  • 불연속적: xi가 x0에 아무리 가까워져도 xi = x0이 될 때까지 처치는 변하지 않음

동기 부여 예시: 국가 장학금

최초의 RD 연구(Thistlethwaite & Campbell, 1960)의 질문: National Merit Scholarship Award를 받은 학생들이 장학금 때문에 대학 졸업률이 높은가?

  • 실행변수 (xi): PSAT 점수
  • 기준점 (x0): 장학금 수여 임계값
  • 처치 (di): 장학금 수령
  • 결과 (yi): 대학 졸업

RD 접근법: 임계값 바로 위바로 아래 PSAT 점수를 가진 학생들을 비교. 임계값에서 대학 졸업의 점프는 처치효과의 증거.

핵심 특징: 중첩 없음

매칭/회귀와의 중요한 차이:

RD에서는 처치군과 통제군 모두를 관측하는 xi 값이 없다. 중첩에 기반한 매칭 전략과 달리, RD 타당성은 외삽에 달려 있다 — 조건부 평균 함수가 기준점을 통해 매끄럽다는 가정.

→ 이것이 RD에서 3장처럼 함수 형태에 대해 불가지론적일 수 없는 이유.

Sharp RD 모형

잠재적 결과가 선형, 상수효과 모형을 따른다고 가정:

E[y0i | xi] = α + βxi
y1i = y0i + ρ

이로부터 회귀식:

yi = α + βxi + ρdi + εi

여기서 ρ가 관심 인과효과.

3장 회귀와의 핵심 차이:

여기서 di는 xi와 상관되어 있을 뿐 아니라 — xi결정적 함수이다. RD는 다음을 구별하여 인과효과를 포착:

  • 불연속적 함수: 1(xi ≥ x0)
  • 매끄러운 함수: xi

시각적 직관

패널 A: 선형 E[y₀|x]           패널 B: 비선형 E[y₀|x]

  y│                               y│
   │        ●●●●                    │           ●●●●
   │       ●                        │         ●●
   │      ● ← 점프 (ρ)              │       ●● ← 점프 (ρ)
   │     ●                          │     ●●
   │   ●●                           │   ●●
   │ ●●                             │ ●●
   └──────────────── x              └──────────────── x
          x₀                               x₀

패널 C: 비선형성을 불연속으로 오인

  y│
   │               ●●●●
   │           ●●●●
   │        ●●●    ← 급격한 곡선, 처치 아님!
   │     ●●●
   │   ●●
   │ ●●
   └──────────────── x
          x₀
                

다항식 통제

E[y0i | xi] = f(xi)가 비선형이면? f(xi)를 p차 다항식으로 모형화:

yi = α + β1xi + β2xi² + ... + βpxip + ρdi + εi

f(xi)가 x0에서 연속인 한, 불연속적 점프 ρ를 여전히 식별 가능.

양쪽에 다른 기울기 허용

더 유연한 모형은 E[y0i|xi]와 E[y1i|xi]에 다른 추세 함수 허용. x̃i ≡ xi − x0 정의 (기준점에 중심화):

yi = α + β01i + β02i² + ... + β0pip
    + ρdi + δ1dii + δ2dii² + ... + δpdiip + εi
  • ρ = xi = x0에서의 처치효과
  • 교호작용 (dii, dii², ...)이 기준점 위/아래에서 다른 기울기 허용
  • x0에 중심화하면 ρ가 여전히 기준점에서의 효과 포착

비모수적 RD

함수 형태 의존성을 완전히 피하려면 기준점 주변의 좁은 창에 집중:

limε→0 { E[yi | x0 < xi < x0+ε] − E[yi | x0−ε < xi < x0] } = E[y1i − y0i | xi = x0]

x0 좌우의 작은 이웃에서 평균을 비교하면 f(xi)를 올바르게 설정하지 않아도 되는 추정치 제공.

실용적 접근법:

  • 국소 선형 회귀: x0 근처에 더 많은 가중치를 주는 가중 최소제곱 (Hahn, Todd, van der Klaauw, 2001)
  • 단절 표본: 대역폭 h에 대해 [x0−h, x0+h] 내 관측치로 제한 (Angrist & Lavy, 1999)

Sharp RD 강건성 검정

검정 확인할 것
대역폭 민감도 x0 주변 창을 좁혀도 추정치가 안정적이어야 (필요한 다항식 항 감소)
처치 전 공변량 처치 전에 결정된 공변량에서 점프 없어야 (균형 검정)
실행변수 밀도 x0 주변에 뭉침/조작 없어야 (McCrary, 2008 검정)
위약 기준점 정책 변화가 없는 다른 xi 값에서 점프 없어야

예시: Lee (2008) — 현직자 이점

질문: 선거에서 이기면 다음 선거에서 정당에 이점이 있는가(현직 효과)?

  • 실행변수 (xi): t선거에서 민주당 득표 마진
  • 기준점 (x0): 0 (50% 득표율)
  • 처치 (di): 민주당이 t선거 승리 (현직 정당)
  • 결과 (yi): t+1선거에서 민주당 승리 확률

핵심 통찰: di = 1(득표 마진 ≥ 0)이 xi의 결정적 함수이므로, xi 외의 교란변수가 없다. 이것이 RD 설정의 특징적 장점.

결과:

  • 승리 확률은 과거 득표율의 증가 함수 (놀랍지 않음)
  • 0% 마진에서 ~40 퍼센트 포인트의 극적인 점프
  • 간신히 이기는 것(vs. 간신히 지는 것)이 다음 선거 승리 확률을 40pp 높임

타당성 검정: Lee는 지난 선거 민주당 승리를 검토. 현재 기준점에서 점프가 없어야 함 — 실제로 없어서 설계에 대한 확신 증가.

조작 우려: 정당이 기준점 근처에서 득표율을 조작할 수 있는가?

2000년 플로리다 재검표는 이것이 접전에서 실제 우려임을 시사. McCrary (2008)는 x0 주변 xi 밀도를 검토하여 조작에 대한 공식 검정 제안.

6.2 Fuzzy RD는 IV이다

처치가 결정적이지 않을 때

많은 상황에서 기준점을 넘는 것이 처치를 완벽하게 결정하지 않음 — 처치 확률만 바꿈. 이것이 fuzzy RD.

P[di = 1 | xi] = { g1(xi) if xi ≥ x0
{ g0(xi) if xi < x0
  where g1(x0) ≠ g0(x0)

함수 g0과 g1은 x0에서 다르기만 하면 됨(그리고 차이가 클수록 좋음!).

Fuzzy RD = IV

ti = 1(xi ≥ x0)를 임계값 통과 더미로 정의. 불연속 ti가 처치 di도구변수가 됨.

2SLS 설정:

1단계:

di = π0 + π1xi + π2xi² + ... + πpxip + γti + η1i

여기서 γ는 1단계 효과 (기준점에서 처치 확률의 점프).

2단계:

yi = α + β1xi + β2xi² + ... + βpxip + ρdi + εi

축약형

1단계를 2단계에 대입:

yi = α' + β'1xi + β'2xi² + ... + β'pxip + (ργ)ti + η2i

ti의 축약형 계수는 ργ (인과효과 × 1단계).

비모수적 Fuzzy RD: Wald 추정량

x0 주변의 작은 이웃에서 fuzzy RD는 단순한 Wald/IV 추정량이 됨:

ρ = limε→0 E[yi | x0 < xi < x0+ε] − E[yi | x0−ε < xi < x0]
E[di | x0 < xi < x0+ε] − E[di | x0−ε < xi < x0] = 축약형 점프
1단계 점프

LATE 해석

Fuzzy RD는 국소 평균 처치효과(LATE)를 추정:

효과는 순응자에 대한 것 — xi가 x0 바로 아래에서 바로 위로 이동할 때 처치 상태가 바뀌는 개인들.

이중 국소성:

  1. LATE는 순응자만을 위한 것 (모든 IV와 마찬가지)
  2. 효과는 xi = x0에서 추정됨 (기준점에 국소적)

예시: Angrist & Lavy (1999) — 학급 규모 효과

질문: 더 작은 학급이 학생 시험 점수를 향상시키는가? (테네시 STAR 실험과 같은 질문)

설정: 이스라엘 학교는 최대 학급 규모가 40명 ("마이모니데스 규칙").

  • ≤40명 학년 → 1개 학급 (최대 40명)
  • 41명 학년 → 2개 학급 (~20명씩)
  • 81명 학년 → 3개 학급 (~27명씩)

마이모니데스 규칙 공식:

msc = es / (int[(es−1)/40] + 1)

여기서 es = 등록인원, msc = 예측 학급 규모.

왜 Fuzzy인가?

마이모니데스 규칙이 학급 규모를 완벽하게 예측하지 못함 — 일부 학교는 40명 미만에서도 학급을 분할. 이것이 fuzzy 설계를 만듦.

RD 설정

RD 요소 이 연구에서
실행변수 (xi) 학년 등록인원 (es)
기준점 (x0) 40, 80, 120, ...
처치 (di) 실제 학급 규모 (nsc)
도구변수 (ti) 마이모니데스 규칙에서 예측된 학급 규모 (msc)
결과 (yi) 시험 점수

시각적: 톱니 패턴

학급 규모
    │
 40 │     ●●●●●                ●●●●●
    │    ●     \              ●     \
 30 │   ●       \            ●       \
    │  ●         \          ●         \
 20 │ ●           ●●●●●●●●●●           ●●●●
    │              ↑                    ↑
    └───────────────────────────────────────── 등록인원
              40  41          80  81

    --- = 마이모니데스 규칙 (예측)
    ●●● = 실제 학급 규모 (fuzzy)
                

결과: 5학년 수학 점수

OLS 2SLS (전체) 2SLS (±5) Wald (±3)
학급 규모 +.322 +.076 +.019 −.230 −.261 −.185 −.443 −.270
(표준오차) (.039) (.036) (.044) (.092) (.113) (.151) (.236) (.281)
통제변수 없음 %취약 +등록 선형 2차 선형 2차 더미

핵심 발견:

  • OLS: 양의 관계 (큰 학급 → 높은 점수) — 선택에 기인할 가능성 (좋은 학교가 큰 학급)
  • OLS + 통제: 효과가 0 방향으로 축소
  • 2SLS: 강한 음의 효과 (−0.23 ~ −0.26) — 작은 학급이 점수 향상
  • 단절 표본: 덜 정밀하지만 비슷한 크기 (~−0.27)

해석: 7명 학급 규모 감소(테네시 STAR와 같이)가 수학 점수를 ~1.75점 올림, 효과 크기 ≈ 0.18σ. 테네시 STAR 결과와 유사!

정밀도 vs. 강건성 상충:

단절 표본을 줄이면 추정치가 덜 정밀해지지만(큰 표준오차) 함수 형태 가정에 대해 더 강건해짐. 추정치가 설정에 걸쳐 안정적(~−0.25)인 것이 안심됨.

Chapter 6 요약

개념 핵심 포인트
RD 핵심 아이디어 자의적 규칙이 자연실험 생성 — 실행변수의 기준점이 처치 결정
Sharp RD di = 1(xi ≥ x0) 결정적; 관측변수에 의한 선택 이야기
Fuzzy RD P(di=1)가 x0에서 점프; ti=1(xi≥x0)가 di의 도구가 되는 IV 설정
식별 불연속적 점프(처치)와 매끄러운 추세(실행변수) 구별
함수 형태 E[y0|x] 모형화 필요 — 다항식 사용, 다른 기울기 허용, 또는 좁은 대역폭 집중
타당성 검정 처치 전 공변량 균형, 조작 없음(밀도 검정), 위약 기준점, 대역폭 민감도
LATE RD 추정치는 x0에 국소적; fuzzy RD는 기준점 순응자의 LATE

RD 실용적 체크리스트:

  1. ✓ 처치 배정 규칙이 알려진 기준점에 기반하는지 확인
  2. ✓ 설계가 sharp인지 fuzzy인지 확인
  3. ✓ 결과 vs. 실행변수 그래프 — 가시적 점프 찾기
  4. ✓ 실행변수의 매끄러운 함수 통제(다항식)
  5. ✓ 기준점 양쪽에 다른 기울기 허용
  6. ✓ 기준점에서 처치 전 공변량 균형 검정
  7. ✓ 조작 검정(실행변수 밀도)
  8. ✓ 대역폭 변화 — 추정치가 안정적이어야
  9. ✓ Fuzzy RD의 경우: 1단계 강도 확인

Sharp vs. Fuzzy 요약:

Sharp RD Fuzzy RD
기준점에서 처치 확실히 0→1로 전환 확률이 증가
추정 다항식 통제와 OLS 2SLS (IV)
추정량 x0에서의 ATE x0 순응자의 LATE
예시 Lee (2008) — 선거 승리 Angrist & Lavy (1999) — 학급 규모
← Ch 5: 고정효과 & DD 학습 노트로 →
이 노트는 LLM (Claude)의 도움을 받아 작성되었습니다.