7장: 분위수 회귀

English

앵그리스트 & 피슈케, 대체로 무해한 계량경제학 — 7장

"기도문을 하나 알려줄게... 내가 알 필요 없는 것은 모르게 해주세요." — 더글러스 애덤스

핵심 메시지

응용 계량경제학의 95%는 평균에 관한 것이다. 하지만 많은 변수들은 평균만으로는 알 수 없는 방식으로 변화하는 연속 분포를 가진다 — 분포가 퍼지거나 압축될 수 있다. 분위수 회귀를 사용하면 평균뿐 아니라 전체 분포를 모형화할 수 있다.

핵심 통찰: 최소제곱법이 조건부 평균에 선형 모형을 적합하듯이, 분위수 회귀는 조건부 분위수에 선형 모형을 적합한다 — 이를 통해 처치가 분포의 다른 부분에 서로 다른 영향을 미치는지 확인할 수 있다.

7.1 분위수 회귀 모형

조건부 분위수 함수 (CQF)

출발점은 조건부 분위수 함수이다:

Qτ(yi | Xi) = FY-1(τ | Xi)
τ 값 의미
τ = 0.10 하위 10분위
τ = 0.50 중위수
τ = 0.90 상위 10분위

조건부 기대 함수 vs 조건부 분위수 함수

조건부 기대 함수 (최소제곱) 조건부 분위수 함수 (분위수 회귀)
최소화 E[(y - m(X))²] E[ρτ(y - q(X))]
손실 함수 제곱 오차 체크 함수 ρτ
추정 대상 조건부 평균 조건부 분위수

체크 함수

체크 함수는 양수와 음수 잔차에 비대칭 가중치를 부여한다:

ρτ(u) = u · (τ - 1(u ≤ 0))
       = τ·u       만약 u > 0
       = (τ-1)·u  만약 u ≤ 0
τ 양수 가중치 음수 가중치 결과
0.5 0.5 0.5 중위수 (최소절대편차)
0.9 0.9 0.1 상위 분위수
0.1 0.1 0.9 하위 분위수

위치 이동 vs 이분산성

경우 1: 위치 이동 (등분산)

모형: yi ~ N(Xi'β, σ²)

조건부 분위수 함수: Qτ(yi | Xi) = Xi'β + σ·Φ-1(τ)

핵심 특징: 기울기 β는 모든 분위수에서 동일. 절편만 τ에 따라 변함.

경우 2: 이분산성 (위치-척도 모형)

모형: yi ~ N(Xi'β, (Xi'γ)²)

조건부 분위수 함수: Qτ(yi | Xi) = Xi'[β + γ·Φ-1(τ)]

핵심 특징: 기울기가 τ에 따라 변함. 상위 분위수에서 계수가 더 큼 → X에 따라 불평등 증가.

실증 예시: 교육 수익률 (표 7.1.1)

자료: 1980, 1990, 2000년 미국 인구조사. 40-49세 백인/흑인 남성. 통제변수: 인종, 잠재 경력의 이차함수.

인구조사 0.10 0.25 0.50 0.75 0.90 최소제곱
1980 .074 .074 .068 .070 .079 .072
1990 .112 .110 .106 .111 .137 .114
2000 .092 .105 .111 .120 .157 .114

1980년: 모든 분위수에서 계수 유사 (~0.07) → 위치 이동

2000년: 상위 10분위 (15.7%) >> 하위 10분위 (9.2%) → 부채꼴 패턴

해석: "교육받은 사람 중에서도 부자가 더 부자가 됨" — 교육이 평균 임금과 불평등 모두 증가시킴.

7.1.1 절단된 분위수 회귀

문제: 일부 자료가 숨겨짐 (예: 현재인구조사 상한 코딩, 기간 절단).

핵심 통찰: 위에서 절단되어도 절단점 아래 분위수는 영향 없음.

예: 상위 10%가 절단됨 → τ ≤ 0.90 추정치는 영향 없음.

파월 (1986) 해결책:

  • 모형: Qτ(y | X) = min(c, X'βτ)
  • X'β < c 인 관측치만 사용

부친스키 (1994) 반복 알고리즘:

  1. 절단 무시하고 β̂τ 추정
  2. X'β̂τ < c 인 셀 찾기
  3. 해당 셀만으로 재추정
  4. 수렴까지 반복

7.1.3 까다로운 점들

까다로운 점 1: 개인 효과 vs 분포 효과

"훈련이 하위 10분위를 올렸다""가난한 사람이 부자가 됐다"

분위수 회귀는 특정 개인이 아닌 분포의 형태를 알려준다. 순위 보존(처치가 순위를 바꾸지 않음)을 가정해야만 개인 수준으로 해석 가능.

까다로운 점 2: 조건부 분위수 ≠ 주변 분위수

평균의 경우: E[y | X] = X'β ⟹ E[y] = E[X]'β ✓

분위수의 경우: Qτ(y | X) = X'βτ ⟹ Qτ(y) ≠ E[X]'βτ

분위수는 비선형 연산자. 주변 분위수 추출에는 X 분포 전체에 대한 적분 필요 (마차도 & 마타, 2005).

7.2 분위수 처치 효과 (QTE)

문제: 선택 편의

최소제곱법과 마찬가지로, 분위수 회귀도 처치가 내생적일 때 누락 변수 편의 문제가 있다.

외생적 d 내생적 d
평균 최소제곱법 2단계 최소제곱법
분위수 분위수 회귀 분위수 처치 효과

분위수 처치 효과: 국소 평균 처치 효과의 분위수 확장

아바디, 앵그리스트, 임벤스 (2002)가 국소 평균 처치 효과 프레임워크를 분위수로 확장:

Qτ(y | X, d, 순응자) = ατ·d + X'βτ

ατ = 순응자에 대한 τ-분위수 처치 효과

아바디 카파

κi = 1 - di(1-zi)/(1-p(Xi)) - (1-di)zi/p(Xi)

속성: E[κ | 순응자] = 1, E[κ | 비순응자] = 0

분위수 처치 효과 추정량:

τ, βτ) = arg min E[κi · ρτ(yi - α·di - Xi'b)]

분위수 처치 효과 구현 단계

  1. 1단계: d=1 하위표본에서 프로빗 z ~ y, X → Ê[z | y, d=1, X] 저장
  2. 2단계: d=0 하위표본에서 프로빗 z ~ y, X → Ê[z | y, d=0, X] 저장
  3. 3단계: 전체 표본에서 프로빗 z ~ X → P̂(z=1 | X) 저장
  4. 4단계: 공식으로 Ê[κ | y, d, X] 계산; [0, 1]로 절단
  5. 5단계: κ-가중 분위수 회귀 실행
  6. 6단계: 전체 과정 붓스트랩으로 표준오차 계산

실증 예시: 직업훈련협력법 훈련 (표 7.2.1)

설정: 직업훈련협력법 (1980년대 미국). z = 무작위 배정된 훈련 제안, d = 실제 참여 (~60%), y = 30개월 소득.

패널 A: 최소제곱법 & 분위수 회귀 (선택 편의 있음)

최소제곱 τ=0.15 τ=0.25 τ=0.50 τ=0.75 τ=0.85
훈련 3,754 1,187 2,510 4,420 4,678 4,806
% 영향 21% 136% 75% 35% 17% 13%

패널 B: 2단계 최소제곱법 & 분위수 처치 효과 (선택 편의 제거)

2단계최소제곱 τ=0.15 τ=0.25 τ=0.50 τ=0.75 τ=0.85
훈련 1,593 121 702 1,544 3,131 3,378
% 영향 9% 5% 12% 10% 11% 9%

핵심 발견: 분위수 회귀는 τ=0.15에서 큰 효과 ($1,187, 136%). 하지만 분위수 처치 효과는 거의 0 ($121, 5%)!

해석: 저소득 훈련생들이 더 의욕적임 → 양의 선택 편의가 하위 분위수의 분위수 회귀 추정치를 부풀림. 직업훈련협력법은 실제로 상위 분위수에서만 효과가 있었음.

핵심 질문 3개

질문 1. 분위수 회귀 vs 최소제곱법

Q: 분위수 회귀가 최소제곱법과 어떻게 다르며, 언제 사용해야 하는가?

A: 최소제곱법은 조건부 평균을 추정하고, 분위수 회귀는 조건부 분위수를 추정한다. 사용 시점: (1) 불평등 분석, (2) 이질적 효과 탐지, (3) 위치 이동 vs 부채꼴 패턴 구분, (4) 이상치에 강건한 추정.

질문 2. 위치 이동 vs 부채꼴 패턴

Q: 분위수별 계수가 τ에 따라 다르면 무엇을 의미하는가?

A: 동일한 계수 → 위치 이동 (분포가 균등하게 이동). 증가하는 계수 → 부채꼴 패턴 (X에 따라 불평등 증가). 2000년 인구조사: 상위 10분위 수익률 (15.7%) >> 하위 10분위 (9.2%) → 교육이 불평등 증가시킴.

질문 3. 분위수 처치 효과의 필요성

Q: 분위수 회귀 추정치가 편향될 수 있는 이유와 분위수 처치 효과의 해결 방법은?

A: 처치가 내생적일 때 분위수 회귀도 선택 편의 문제가 있다. 분위수 처치 효과는 도구변수 논리를 적용: 아바디 카파로 순응자일 확률에 따라 관측치에 가중치 부여. 직업훈련협력법 예시: 분위수 회귀의 하위 분위수 효과가 $1,187에서 $121로 감소 (90% 감소).

종합 비교: 최소제곱법 vs 분위수 회귀 vs 2단계 최소제곱법 vs 분위수 처치 효과

방법 추정 대상 선택 편의 분포 정보
최소제곱법 E[y|X,d] 있음 평균만
2단계 최소제곱법 순응자의 E[y|X,d] 제거 평균만
분위수 회귀 Qτ(y|X,d) 있음 분포 전체
분위수 처치 효과 순응자의 Qτ(y|X,d) 제거 분포 전체