Multiple Regression

FMB819: R을 이용한 데이터분석

고려대학교 경영대학 정지웅

Today’s Agenda

다중 독립 변수
연속 변수와 더미 변수 해석
더미 변수 함정 (Dummy Variable Trap)
누락 변수 편향 (Omitted Variable Bias)
조정된 \(R^2\) (Adjusted \(R^2\))
실증 분석:
- 학급 규모 (size)와 학생 성취 (Student Performance)

학급 규모와 학생 성취

Angrist & Lavy (1999)의 연구 분석

이스라엘 학생들의 성취도에 대한 학급 규모의 영향을 분석
단순 선형 회귀를 사용한 경우 → 학급 규모가 커질수록 수학 및 읽기 점수가 증가하는 연관성이 발견됨

학급 규모와 학생 성취: 원자료 관계

학급 규모와 학생 성취: 단순 선형 회귀 포함

## 
## Call:
## lm(formula = avgmath ~ classize, data = grades)
## 
## Coefficients:
## (Intercept)     classize  
##     57.7939       0.3175

학급 규모와 학생 성취

단순 선형 회귀 (Simple Linear Regression) 결과에 따르면, 학급 규모가 학생들의 수학 및 읽기 점수와 양의 상관관계를 가짐 (positively associated).
이는 직관적으로 예상되지 않는 결과이며, STAR 무작위 실험 결과와도 대조적임.
그렇다면, 학급 규모와 학생 성취 모두와 관련된 다른 변수가 있을까?
특히, 지역(location) 효과가 존재할 가능성이 있음.
- 대규모 학급은 부유한 대도시에서 더 흔할 수 있음.
- 소규모 학급은 경제적으로 어려운 농촌 지역에서 더 많을 수 있음.
이 가설을 검증해보자.

학급 규모와 학생 성취: 교란 변수(Confounders)

학급 규모와 불리한 배경을 가진 학생 비율 간의 관계

➡ 평균적으로, 불리한 배경을 가진 학생 비율이 높은 학급일수록 학급 규모가 작음.

평균 수학 점수와 불리한 배경을 가진 학생 비율 간의 관계

➡ 평균적으로, 불리한 배경을 가진 학생 비율이 높을수록 평균 수학 점수가 낮아짐.

학급 규모와 학생 성취: 다중 회귀 분석

우리는 학급 규모가 평균 수학 점수에 미치는 효과를 알고 싶음.
하지만, 불리한 배경을 가진 학생 비율과 학급 규모 및 평균 수학 점수 간의 음의 관계를 고려해야 함.
이를 위해 classize와 disadvantaged 변수를 회귀 분석의 독립 변수(regressors)로 포함해야 함.
이렇게 하면 학급 규모가 평균 수학 점수에 미치는 효과를, 불리한 배경 변수의 영향을 제거한(purged) 형태로 추정 가능.

추정하려는 회귀 모델 다중 회귀 분석(Multiple Regression)

\[ \textrm{avg math}_i = b_0 + b_1 \text{size}_i + b_2 \text{\% disadvantaged}_i + e_i \]

다중 회귀 분석의 목적

단순 선형 회귀 모델(Simple Linear Model) 은 다음과 같이 표현됨:

\[ y_i = b_0 + b_1 x_i + e_i \]

X가 Y를 인과적으로(causally) 결정한다고 주장하려면,
- X의 값을 변경했을 때(X를 조작), 다른 모든 요인은 동일하게 유지(ceteris paribus)되면서 Y가 변화해야 함.
⚠️ 만약 \(y_i\)에 영향을 주는 다른 모든 요인이 \(x_i\)와 상관관계가 있다면,
→ \(b_1\)은 인과적 효과(Causal Effect)로 해석될 수 없음.
이를 해결하기 위해, 모델을 확장하고(\(y_i\)를 동시에 설명하는 다른 요인을 포함)
→ \(y_i\)와 \(x_i\) 모두와 관련된 변수들을 고려해야 함.

다중 회귀 분석 모델

확장된 회귀 모델은 다음과 같이 표현됨:

\[ y_i = b_0 + b_1 x_{1,i} + b_2 x_{2,i} + b_3 x_{3,i} + \dots + b_k x_{k,i} + e_i \]

여기서 \(x_1\), \(x_2\), …, \(x_k\) 는 \(k\)개의 독립 변수(regressors)
\(b_1\), \(b_2\), …, \(b_k\) 는 각 독립 변수에 대응하는 회귀 계수(coefficients)

추정(Estimation)

\((b_0, b_1, b_2, ..., b_k)\) 값은 최소자승법(OLS, Ordinary Least Squares) 을 사용하여 추정됨.
즉, 다음을 최소화하는 값을 찾음:

\[ \begin{align} \sum_{i}{e_i^2} &= \sum_{i}{(y_i - \hat{y_i})^2} \\ &= \sum_{i}{[y_i - (b_0 + b_1 x_{1,i} + b_2 x_{2,i} + b_3 x_{3,i} + \dots + b_k x_{k,i})]^2} \end{align} \]

OLS는 잔차 제곱합(Sum of Squared Residuals, SSR) 을 최소화하는 방식으로 최적의 계수를 찾음.

다중 회귀 분석: 해석

가정 : 종속 변수 \((y_i)\) 와 독립 변수 \((x_k)\) 모두 연속형 변수(numeric variables) 라고 가정.
절편 (\(b_0\)): \(x_1, x_2, x_3, ...\) 모든 독립 변수가 0일 때, 예측된 \(y\) 값 \(\widehat{y}\)
기울기 (\(b_k\)): \(x_k\)가 1 단위 증가할 때, \(y\) 값이 평균적으로 어떻게 변하는지 예측… 단, 다른 모든 독립 변수들은 일정하게 유지!
다른 모든 변수들을 일정하게 유지한다는 점이 단순 선형 회귀(SLM)와 다른 점.
즉, \(x_k\)가 \(y\)에 미치는 개별적인 효과를 고립시켜 분석하는 것.
인과 추론(Causal Inference)과의 연결
- 다중 회귀 분석에서는 모델에 포함된 변수들만 일정하게 유지됨.
- 하지만, 모델에 포함되지 않은 변수들은 여전히 변할 수 있어, 추정값에 편향을 일으킬 가능성이 있음.

`R`을 사용한 다중 회귀 분석

단순 선형 회귀와 매우 유사함.
- lm() 함수를 사용하여 다중 회귀 분석 수행 가능.

lm(formula = dependent variable ~  independent variable 1 + independent variable 2 + ...,
   data = data.frame containing the data)

학급 규모와 학생 성취: 다중 회귀 분석: \(\textrm{avg math}_i = b_0 + b_1 \textrm{size}_i + b_2 \textrm{ \% disadvantaged}_i + e_i\)

## 
## Call:
## lm(formula = avgmath ~ classize + disadvantaged, data = grades)
## 
## Coefficients:
##   (Intercept)       classize  disadvantaged  
##      69.94438        0.07168       -0.33958

학급 규모와 학생 성취: 다중 회귀 분석

## 
## Call:
## lm(formula = avgmath ~ classize + disadvantaged, data = grades)
## 
## Coefficients:
##   (Intercept)       classize  disadvantaged  
##      69.94438        0.07168       -0.33958

Questions

각 회귀 계수(coefficients)는 어떻게 해석할 수 있는가?
단순 선형 회귀(SLM)와 비교했을 때 classize 계수의 변화는 어떻게 설명할 수 있는가?

학급 규모와 학생 성취: 다중 회귀 분석

## 
## Call:
## lm(formula = avgmath ~ classize + disadvantaged, data = grades)
## 
## Coefficients:
##   (Intercept)       classize  disadvantaged  
##      69.94438        0.07168       -0.33958

Answers

각 회귀 계수의 해석

\(b_0 = 69.94\): 학급 규모 (classize) 와 불리한 배경을 가진 학생 비율 이 모두 0일 때 → 평균 수학 점수(avg math)의 예측값은 69.94
\(b_1 = 0.07\): 불리한 배경을 가진 학생 비율을 일정하게 유지할 경우, 학급 규모가 1명 증가하면 → 평균 수학 점수가 평균적으로 0.07점 증가하는 것과 연관됨(associated).
\(b_2 = -0.34\): 학급 규모를 일정하게 유지할 경우, 불리한 배경을 가진 학생 비율이 1% 증가하면 → 평균 수학 점수가 평균적으로 0.34점 감소하는 것과 연관됨(associated).

학급 규모와 학생 성취: 다중 회귀 분석

## 
## Call:
## lm(formula = avgmath ~ classize + disadvantaged, data = grades)
## 
## Coefficients:
##   (Intercept)       classize  disadvantaged  
##      69.94438        0.07168       -0.33958

Answers

단순 선형 회귀(SLM)와 비교했을 때 classize 계수의 변화는 어떻게 설명할 수 있는가?

\(b_1\) 값이 감소: disadvantaged 변수를 추가하자 학급 규모(size)의 계수(\(b_1\))가 감소함. 이는 예상된 결과 → 큰 학급일수록 불리한 배경을 가진 학생 비율이 작아지는 경향이 있었기 때문. 즉, 단순 선형 회귀에서는 학급 규모가 학생 성취에 미치는 “순수한 효과”뿐만 아니라, 불리한 배경을 가진 학생 비율이 적은 영향도 포함하고 있었음.

Task 1

10:00

읽기(Reading) 점수를 종속 변수(Dependent Variable) 로 설정하여 회귀 분석을 수행

haven 패키지의 read_dta() 함수를 사용하여 데이터를 불러오기. 데이터를 grades라는 객체에 저장

avgverb (읽기 점수)를 종속 변수로, classize와 disadvantaged를 독립 변수로 사용하여 회귀분석. 결과를 reg 객체에 저장. 각 계수(coefficient)의 의미는 무엇인가? 단순 선형 회귀(Simple Linear Regression)와 비교했을 때 계수는 어떻게 달라졌는가? 수학 점수 회귀 분석(Math Score Regression)과 비교했을 때 계수의 차이점은 무엇인가?

(Optional) 데이터셋에서 추가 가능한 변수를 확인하고 회귀 분석을 확장하시오. 모든 변수를 포함한 회귀 분석을 수행하고 reg_full 객체에 저장.

추가된 변수들의 계수(sign & magnitude)를 해석하시오.
추가된 변수가 포함됨으로 인해 classize 및 disadvantaged의 계수는 어떻게 변했는가?
전체 모델의 설명력이 증가했는가? (\(R^2\) 값 확인)

연속형 변수와 더미 변수의 회귀 계수 해석

연속형(numeric, continuous) 변수의 계수 해석 방법은 이미 알고 있음.
그렇다면, 독립 변수 중 하나가 더미 변수(dummy variable) 라면?

예): 아래 회귀 모델에서 각 계수의 의미는?

\[ \text{avg math}_i = b_0 + b_1\text{size}_i + b_2\text{religious}_i +e_i \]

religious: 1이면 해당 학교가 종교 학교, 0이면 해당 학교가 일반 학교

## 
## Call:
## lm(formula = avgmath ~ classize + religious, data = grades)
## 
## Coefficients:
## (Intercept)     classize    religious  
##     61.3092       0.2311      -3.7800