앵그리스트 & 피슈케, 대체로 무해한 계량경제학 — 7장
"기도문을 하나 알려줄게... 내가 알 필요 없는 것은 모르게 해주세요." — 더글러스 애덤스
Suhyeon Lee
앵그리스트 & 피슈케, 대체로 무해한 계량경제학 — 7장
"기도문을 하나 알려줄게... 내가 알 필요 없는 것은 모르게 해주세요." — 더글러스 애덤스
응용 계량경제학의 95%는 평균에 관한 것이다. 하지만 많은 변수들은 평균만으로는 알 수 없는 방식으로 변화하는 연속 분포를 가진다 — 분포가 퍼지거나 압축될 수 있다. 분위수 회귀를 사용하면 평균뿐 아니라 전체 분포를 모형화할 수 있다.
핵심 통찰: 최소제곱법이 조건부 평균에 선형 모형을 적합하듯이, 분위수 회귀는 조건부 분위수에 선형 모형을 적합한다 — 이를 통해 처치가 분포의 다른 부분에 서로 다른 영향을 미치는지 확인할 수 있다.
출발점은 조건부 분위수 함수이다:
| τ 값 | 의미 |
|---|---|
| τ = 0.10 | 하위 10분위 |
| τ = 0.50 | 중위수 |
| τ = 0.90 | 상위 10분위 |
| 조건부 기대 함수 (최소제곱) | 조건부 분위수 함수 (분위수 회귀) | |
|---|---|---|
| 최소화 | E[(y - m(X))²] | E[ρτ(y - q(X))] |
| 손실 함수 | 제곱 오차 | 체크 함수 ρτ |
| 추정 대상 | 조건부 평균 | 조건부 분위수 |
체크 함수는 양수와 음수 잔차에 비대칭 가중치를 부여한다:
| τ | 양수 가중치 | 음수 가중치 | 결과 |
|---|---|---|---|
| 0.5 | 0.5 | 0.5 | 중위수 (최소절대편차) |
| 0.9 | 0.9 | 0.1 | 상위 분위수 |
| 0.1 | 0.1 | 0.9 | 하위 분위수 |
모형: yi ~ N(Xi'β, σ²)
조건부 분위수 함수: Qτ(yi | Xi) = Xi'β + σ·Φ-1(τ)
핵심 특징: 기울기 β는 모든 분위수에서 동일. 절편만 τ에 따라 변함.
모형: yi ~ N(Xi'β, (Xi'γ)²)
조건부 분위수 함수: Qτ(yi | Xi) = Xi'[β + γ·Φ-1(τ)]
핵심 특징: 기울기가 τ에 따라 변함. 상위 분위수에서 계수가 더 큼 → X에 따라 불평등 증가.
자료: 1980, 1990, 2000년 미국 인구조사. 40-49세 백인/흑인 남성. 통제변수: 인종, 잠재 경력의 이차함수.
| 인구조사 | 0.10 | 0.25 | 0.50 | 0.75 | 0.90 | 최소제곱 |
|---|---|---|---|---|---|---|
| 1980 | .074 | .074 | .068 | .070 | .079 | .072 |
| 1990 | .112 | .110 | .106 | .111 | .137 | .114 |
| 2000 | .092 | .105 | .111 | .120 | .157 | .114 |
1980년: 모든 분위수에서 계수 유사 (~0.07) → 위치 이동
2000년: 상위 10분위 (15.7%) >> 하위 10분위 (9.2%) → 부채꼴 패턴
해석: "교육받은 사람 중에서도 부자가 더 부자가 됨" — 교육이 평균 임금과 불평등 모두 증가시킴.
문제: 일부 자료가 숨겨짐 (예: 현재인구조사 상한 코딩, 기간 절단).
핵심 통찰: 위에서 절단되어도 절단점 아래 분위수는 영향 없음.
예: 상위 10%가 절단됨 → τ ≤ 0.90 추정치는 영향 없음.
파월 (1986) 해결책:
부친스키 (1994) 반복 알고리즘:
"훈련이 하위 10분위를 올렸다" ≠ "가난한 사람이 부자가 됐다"
분위수 회귀는 특정 개인이 아닌 분포의 형태를 알려준다. 순위 보존(처치가 순위를 바꾸지 않음)을 가정해야만 개인 수준으로 해석 가능.
평균의 경우: E[y | X] = X'β ⟹ E[y] = E[X]'β ✓
분위수의 경우: Qτ(y | X) = X'βτ ⟹ Qτ(y) ≠ E[X]'βτ ✗
분위수는 비선형 연산자. 주변 분위수 추출에는 X 분포 전체에 대한 적분 필요 (마차도 & 마타, 2005).
최소제곱법과 마찬가지로, 분위수 회귀도 처치가 내생적일 때 누락 변수 편의 문제가 있다.
| 외생적 d | 내생적 d | |
|---|---|---|
| 평균 | 최소제곱법 | 2단계 최소제곱법 |
| 분위수 | 분위수 회귀 | 분위수 처치 효과 |
아바디, 앵그리스트, 임벤스 (2002)가 국소 평균 처치 효과 프레임워크를 분위수로 확장:
ατ = 순응자에 대한 τ-분위수 처치 효과
속성: E[κ | 순응자] = 1, E[κ | 비순응자] = 0
분위수 처치 효과 추정량:
설정: 직업훈련협력법 (1980년대 미국). z = 무작위 배정된 훈련 제안, d = 실제 참여 (~60%), y = 30개월 소득.
| 최소제곱 | τ=0.15 | τ=0.25 | τ=0.50 | τ=0.75 | τ=0.85 | |
|---|---|---|---|---|---|---|
| 훈련 | 3,754 | 1,187 | 2,510 | 4,420 | 4,678 | 4,806 |
| % 영향 | 21% | 136% | 75% | 35% | 17% | 13% |
| 2단계최소제곱 | τ=0.15 | τ=0.25 | τ=0.50 | τ=0.75 | τ=0.85 | |
|---|---|---|---|---|---|---|
| 훈련 | 1,593 | 121 | 702 | 1,544 | 3,131 | 3,378 |
| % 영향 | 9% | 5% | 12% | 10% | 11% | 9% |
핵심 발견: 분위수 회귀는 τ=0.15에서 큰 효과 ($1,187, 136%). 하지만 분위수 처치 효과는 거의 0 ($121, 5%)!
해석: 저소득 훈련생들이 더 의욕적임 → 양의 선택 편의가 하위 분위수의 분위수 회귀 추정치를 부풀림. 직업훈련협력법은 실제로 상위 분위수에서만 효과가 있었음.
Q: 분위수 회귀가 최소제곱법과 어떻게 다르며, 언제 사용해야 하는가?
A: 최소제곱법은 조건부 평균을 추정하고, 분위수 회귀는 조건부 분위수를 추정한다. 사용 시점: (1) 불평등 분석, (2) 이질적 효과 탐지, (3) 위치 이동 vs 부채꼴 패턴 구분, (4) 이상치에 강건한 추정.
Q: 분위수별 계수가 τ에 따라 다르면 무엇을 의미하는가?
A: 동일한 계수 → 위치 이동 (분포가 균등하게 이동). 증가하는 계수 → 부채꼴 패턴 (X에 따라 불평등 증가). 2000년 인구조사: 상위 10분위 수익률 (15.7%) >> 하위 10분위 (9.2%) → 교육이 불평등 증가시킴.
Q: 분위수 회귀 추정치가 편향될 수 있는 이유와 분위수 처치 효과의 해결 방법은?
A: 처치가 내생적일 때 분위수 회귀도 선택 편의 문제가 있다. 분위수 처치 효과는 도구변수 논리를 적용: 아바디 카파로 순응자일 확률에 따라 관측치에 가중치 부여. 직업훈련협력법 예시: 분위수 회귀의 하위 분위수 효과가 $1,187에서 $121로 감소 (90% 감소).
| 방법 | 추정 대상 | 선택 편의 | 분포 정보 |
|---|---|---|---|
| 최소제곱법 | E[y|X,d] | 있음 | 평균만 |
| 2단계 최소제곱법 | 순응자의 E[y|X,d] | 제거 | 평균만 |
| 분위수 회귀 | Qτ(y|X,d) | 있음 | 분포 전체 |
| 분위수 처치 효과 | 순응자의 Qτ(y|X,d) | 제거 | 분포 전체 |