본문 바로가기

doctoral course / research methodology

내생성(endogeneity) 문제의 해결방법

여기서는 내생성 문제에 대해서 좀 더 체계적으로 정리해 보려 한다. (앞에 포스팅이 일부 되어 있지만 정리하는 차원에서 재포스팅 되는 내용도 있다.)



내생성이란?



Y = αX1 + αX2 + ε


에서 모든 설명변수와 잔차 간에 상관관계가 없어야 한다. OLS는 이러한 상관관계가 없다고 보고 가장 기본적인 회귀분석을 하는 것이다.

예를 들어, x y를 설명하고 남은 부분이 잔차(ε)이다. 그런데 변수와 잔차가 유의한 상관관계를 가지면계량경제학적인 문제가 발생한다따라서 이 상태에서 추정된 설명변수의 계수 값에 대한 p값은 과대추정될 수 밖에 없다. 그렇다면 이러한 상관관계를 없애줘야 한다. 우선 가장 쉽게 생각할 수 있는 방법으로,  omitted variable이 있다면 이를 포함시켜 해결할 수 있다. 하지만, 현실에서 omitted variable이 있는지 없는지 모르는 경우가 많으므로, 원래 회귀방정식 상태에서 내생성을 없앨 수 있는 방법을 찾으려 한다

다음의 그와 관련된 방법들이다.



도구변수를 사용한다. (도구변수를 사용한 내생성 문제 해결방안)


X1과는 상관관계가 있지만 잔차와는 상관관계가 없는 변수를 찾아야 한다. 예를 들어 CSR이 기업가치에 영향을 주는데 이와는 관련이 있고 잔차와는 관계가 없는 변수를 찾아야 하는데, 이 변수를 우선 firm age를 생각해 볼 수 있다. 이것이 도구변수이다.  (예를 들어 설명하는 것이니 여기서 firm age가 올바른 도구변수인지 여부는 별개로 생각하자.)

그래서 별도의 회귀분석을 한다.

, CSR = βZ1 + ε (OLS) 를 통해서 CSR의 추정치를 구할 수 있다. CSR hat 이라 한다. 이 값을 원래의 회귀방정식에 넣는다



해크만 방법을 사용한다.


Sample selection bias의 문제, 예를 들어, CSR과 기업가치의 관계를 보고자 할 때 CSR을 하는 기업만 sample로 골라야 하는데, CSR을 잘하고 있는 sample만 골라져서 기업가치와의 관계가 과대 추정될 수 있는 구조적인 문제가 있을 수 있다. 이 경우도 내생성 문제라 한다이를 해결하는 방법을 해크만이 해결했다.

2SLS 혹은 3SLS


예를 들어, CSR을 하는 기업과 안하는 기업을 전부 다 포함한다. 그래서 회귀분석을 한다. CSR을 하느냐 안하냐를 (, 독립변수가 category변수인 경우) 가지고 회귀분석을 하는데, 이를 Logit(로그선형함수를 가정) 혹은 Probit(정규분포 가정), logit probit을 사용하는 것은 현실적인 별 차이가 없다. 여기서 나온 값이 Inverse Mills’ ratio이고 Inverse Mills’ ratio를 계산하여 원래(하려고 했던 샘플) 방정식에 Mills’라는 변수를 추가로 넣는다. 이 변수값이 유의하게 나오면 1 stage가 유의한 방법이었던 것이다



회귀분석을 두 개를 한다. simultaneity를 해결하는 방법


예를 들어 X Y에 영향을 미치는데, Y X에 영향을 미치는 경우가 있다. , 선행연구와 이론적 근거로 볼 때 그러할 때, 이를 해결하려면 회귀분석을 두 개를 연립방정식으로 계산하게 된다



회귀방정식의 조절변수 적용 방법     

                                                              

Interaction term 을 이용한 회귀방정식 (반드시 곱하기의 형태로 moderate가 나타나야 한다.)


Y = α1X1 + α2X2 + α3X1X2 + ε


X2가 기업크기인 경우, 대기업(1), 중소기업(0)이라고 할 때, 즉 범주변수로 줄 때,


X1 CSR

Y는 기업가치


이 경우 CSR을 하면 기업가치가 올라간다는 사실을 보고 싶은데, 거기에 더해서 “CSR이 기업가치를 증가시키는 정도가 대기업이 중소기업보다 훨씬 클 것이다.”라는 가정이 있다면 이러한 모형을 사용한다. 근데 실질적으로 X2(기업규모)는 통제변수의 역할밖에 못한다. 정작 관심이 있는 것은 α3값의 유의성에 있다이를 대체하는 방법은 대기업의 경우만 따로 회귀분석을 하고 중소기업의 경우를 따로 회귀분석을 한다. 이러한 경우는 대기업 계수 0.8이고 중소기업 0.7 일 때, 대기업이 더 유의하다고 볼 수 있을까? 이러한 문제가 있다. 그래서 조절변수를 사용한다. (사실 따로 회귀분석을 하는 경우도 있다.)