본문 바로가기

doctoral course / research methodology

통제변수, 다중공선성, 내생성

통제변수


통제변수가 유의한 값으로 나오면 통제변수가 유의한 역할을 했다는 것을 확인하는 정도로 이해하면 된다.

당연히 통제되어야 할 변수를 빼먹어서 생기는 bias omitted variable problem 이라고 한다통제변수는 가설을 세우지 않는다.



다중공선성


독립변수간의 상관관계가 어느 정도는 있을 수 밖에 없으며 요약하면, 이를 다중공선성 문제라고 한다. 다중공선성은 통계적으로 기준을 갖고 판단해야 한다. 회귀분석을 하면 V.I.F 값을 볼 수 있는데 이를 분산팽창계수가 한다. 통상 이 값이 8 혹은 10보다 작으면 괜찮다고 해석한다. 즉 다중공선성 문제가 없다고 한다.



내생성


내생성이라는 개념은 독립변수간에 인과관계가 형성되어 있는 것을 의미한다. (참고로 상관관계는 A B가 같이 움직이는 정도를 의미한다.) A B에 영향을 미치는 인과관계를 살펴보는 것은 단순한 상관관계를 보는 것은 전혀 다른 것이다. 이를 해결하기 위한 방법 중,


해크만 모형 - two stage model 

  - 내생성 문제를 해결하는 대표적인 모델이다.

  - 종속변수에 연속변수가 아닌 범주변수(, 남녀, 중소기업과 대기업 등)로 되어 있는 경우 보통회귀분석(OLS)를 사용하기 위해서는 가정이 많이 필요한데, 그 가정이 충족되지 않으면 OLS를 사용할 수 없다. 따라서 종속변수가 연속변수가 아니면 OLS를 쓸 수 없다. 그래서 Logit 또는 Probit을 써야 한다. 보통은 Logit을 더 많이 쓴다. 0 1사이의 값의 확률이 Probit을 쓰고 그 이후 결과를 밀스 레이슈를 구한다. (mills ratio) 그리고 이 값을 독립변수처럼 다시 회귀방정식에 넣는다. 이렇게 두번의 회귀식을 사용한다는 것이다.