메뉴 건너뛰기

KBlog

셀가중과 림가중

by B&W posted Apr 04, 2016
s.png


위 그림은 네이버뉴스에서 KBS와 함게 제공하는 제 20대 국회의원선거 여론조사 화면입니다. 대구지역에서 관심도가 높은 북구을과 수성갑에 대한 여론조사 결과로 북구을은 조선일보(미디어리서치 조사), 수성갑은 서울경제(미디어리서치 조사)에서 보도 하였습니다.


북구을은 표본 할당 후, 자동 전화번호 추출 유선전화를 사용하여 조사를 하였고 조사결과를 주민등록 인구특성에 맞게 셀가중을 하였으며 표본오차는 95% 신뢰수준에 ±4.3%p 수준입니다. 아울러 수성갑은 유선전화+유선ARS 조사로 역시 표본을 할당하였고 림가중을 주었으며 95% 신뢰 수준에 ±4.3%p 수준의 표본오차라고 하였습니다.


두 기관의 가장 큰 차이는 조사 방식과 가중값 부여 방식의 차이인 듯합니다. 조사방식이야 앞서도 많이 이야기 한 부분이라 제외를 한다면 가중값 부여방식의 차이로 이를 간략하게 설명드리자면 다음과 같습니다.


예를 들어 북구을에서 500명을 조사한다고 가정하면 북구의 각 동별로 성, 연령별로 표본 수가 결정되게 됩니다. 지역, , 연령은 일반 사회여론조사에서 가장 기본적인 변수로 가장 많이 사용되어집니다. 이를 표본할당표로 구성하면 북구을의 경우, 9개의 지역 2개의 성, 5개의 연령구간을 곱하면 총 90개의 표본셀이 생깁니다. 이와 같이 각 셀의 표본에 대하여 정확히 100%를 조사하는 것이 할당 표본추출입니다. 그런데 선거와 같이 단기간에 조사를 마쳐야 하고 시기별로 변동이 큰 경우는 해당지역에서 성별, 연령의 표본 수를 채우지 못하거나 넘치는 경우가 발생하게 됩니다. 통상적으로 20~30대의 표본이 부족하고 50대 이상의 표본은 남게 됩니다.

 

가장 이상적인 경우는 할당된 표본을 전부 조사하는 게 맞지만 시간적, 비용적으로 할 수 없는 문제가 생기기 마련이고 이를 사후에 보정하는 가중치 적용 방식입니다. 예를 들어 북구을 선거구의 조야무태동 지역에서 20대 남자 10명이 필요한데 5명밖에 조사를 하지 못했다고 한다고 가정하면 해당 셀의 표본 확보율은 50%로 가중계수는 2가 됩니다. , 5명을 10명으로 사후 보정을 해주게 되는 셈입니다. 반대로 어떤 지역에서 50대 이상 남자 10명이 할당 되었는데 20명이 응답하였다면 해당 셀은 반대로 가중계수가 1보다 낮은 0.5로 줄여서 20명을 10명으로 만들게 되는 것과 같습니다. 이와 같이 할당변수를 모두 곱해서 셀을 만들고 각각의 셀에 가중치를 부여하는 것이 셀가중방식입니다.

 

표본을 할당하여 조사를 하다보면 90개의 표본 셀(북구을의 경우)이 발생하게 되고 극단적인 경우, 어떤 셀에서는 단1개의 표본도 확보하지 못할 수 있는 문제가 생기게 됩니다. 그래서 림가중이라는 방식을 사용하게 되는데 예를 들면 어느 할당변수 하나를 기준으로 가중값을 준 뒤에 다시 그 가중 값에 다른 할당변수를 기준으로 한 번 더 가중계수를 줍니다. 이런 식으로 반복해서 계속 주다 보면 결과적으로 전체 모집단의 특성에 맞추어진다는 것이 림가중방식입니다.

 

그런데 제가 알기로는 셀가중뿐만 아니라 림가중도 문제가 있다는 것입니다. 셀 가중 문제점은 계속적으로 말씀드린 것이니 생략하고 림가중의 문제는 표본이 모집단 비례와 유사해 질 때까지 계속적으로 적용해야 결국 이러한 방식도 없는 것을 있게 하는 가중 방식이라는 점 때문입니다. 지역, , 연령 등과 같은 변수를 기준변수 보다는 할당하여 조사하기 어려운 추가변수(직업, 생활수준, 정치성향 등)에 적용하는 것이 바람직하다고 생각되기 때문입니다.

 

다시 한 번 이 자리를 빌려 말씀드리지만 아무리 어떤 방식의 가중치를 준다고 해도 1명이 2명의 의견을 대표할 수 없는 법입니다. 가중치는 편의이지 없는 것을 실제 하게 하는 마법의 도구는 절대 아니기 때문입니다.