본문 바로가기

doctoral course / research methodology

descriptive analysis에 대한 기본 개념

기술통계량에 대한 이야기


보통 논문을 읽다보면 정량분석에 대한 내용이 나온다. (통계조사방법론을 사용한 논문)

그러면 첫번째 나오는 [표]는 연구에 사용된 sample 혹은 [descriptive analysis]의 내용이다. 


descriptive analysis (기술통계량 분석)


- 모든 개별변수에 대한 통계적 속성, 평균, 중위수, 분산 등을 보여준다. 이는 변수간의 관계를 보여주는 것이 아니라 하나의 변수가 갖는 통계적 속성을 보여주는 것이기 때문에 univariate analysis(단변수 변량)이라고 표현하기도 한다.  


- 왜 기술통계량을 보여주는가? 이는 분포의 특성을 보여주기 위해서이다. (예, 평균을 보여주는 경우) 그렇다면 왜 분포를 보여주어야 할까? 대부분의 통계는 정규분포(t분포)를 가정한다. 그래서 t분포를 크게 어긋나지 않는다는 것을 보여주기 위해서다. 따라서 분포의 형태가 F분포 혹은 카이제곱분포를 따르는 경우는 그 분포에 로그함수를 취하는 방식을 통해서 "분포에 별다른 문제가 없음"을 보여주고 연구방법론을 진행한다. 


<참고: 용어설명>

ㅇ skewness (왜도): 분포가 좌우 전형적인 대칭모양이 아닌 모양으로 데이터의 분포형태가 평균을 중심으로 해서 어느 한 쪽으로 치우쳐 있는 경향을 아타내는 척도로서 정의됨. 보통 "skewed data"라는 표현을 쓴다.

ㅇ kurtosis (첨도): 자료의 분포모양이 정규분포보다 더 중앙에 집중하는가를 나타내는 척도로 정의하며 만약 모집단이 정규분포를 따르는 경우 첨도는 3이 되며, 이 값보다 크면 정규분포보다 뾰족한 형태를 나타내고, 작으면 평평한 분포를 보인다고 할 수 있다.