예전에 선거데이터 분석 관련한 강연을 종종 다닌 적이 있다. 매번 강연을 시작하기 전에 청중들에게 묻는다.
“여론조사를 믿어야 할까요, 믿지 말아야 할까요?”  청중들은 이를 두고 갑론을박 한다. 그러면 나는 넌지시 제3의 답을 말한다. “여론조사는 믿어도 안 되고 안 믿어도 안 된다. 그 결과를 해석할 줄 아는 것이 더 중요합니다.”

여론조사는 어차피 전수조사가 아니기에 국민 여론을 100% 반영한다고 볼 수 없다. 국민여론을 100% 반영하는 수단은 국민투표 밖에는 없다. (물론 국민투표도 불참자의 의견을 알 수는 없다)

※참고1:
요즘은 빅데이터 분석(이라고 쓰고 사실은 SNS 텍스트 분석)으로 여론 흐름을 읽는다고 하지만, 사실 이는 매우 주관적인 조사라서 신뢰하기 힘들다. 일반 여론조사의 가장 중요한 포인트는 ‘무작위 표본추출’이다. 심지어는 지역/성별/연령별로 모집단에 가깝게 표본을 추출하기 위해서 비율 할당을 주는 것조차도 문제라고 비판하는 학자들도 많다.
게다가 SNS 사용 인구는 전체 인구와 체계적으로 다른 특성(예: 연령, 소득, 학력 등)을 가질 수 있으며, 어떤 SNS에서 텍스트를 추출하고 언제부터 언제까지의 텍스트를 사용할 것인지가 분석설계자의 주관적 판단에 달려있다.
또한 특정 단어들의 긍정성 및 부정성에 대한 주관적 정의, 일부 SNS에서 특정 집단의 고의적 개입, (광역을 제외한) 지역할당 불가능과 같은 문제점들도 있다. 따라서 SNS 텍스트 분석은 동일한 SNS에 대해 주기적으로 조사하여 추세적 흐름을 파악하는 것에는 도움이 되지만 일반적으로 말해서 여론조사를 대체할 수는 없다.

결국 중요한 것은 여론조사에 응답하는 사람들 즉 표본이 전체 인구의 특징을 반영하고 있는지 여부이다. 일반적으로 할당 무작위 추출 방식을 사용한다고 하더라도 조사 방법론과 해당 시기의 정치적 환경에 따라서 여론조사에 어떤 사람들이 상대적으로 ‘더 많이’ 응답하게 되느냐에 따라 표본의 대표성이 달라질 수 있다.
가장 대표적인 것이 수신기기(유선전화 대 휴대폰)와 발신 방식(면접원 대 ARS)의 차이에서 발생하는 문제이다.

젊은 층과 노년층을 모두 쉽게 접촉하기 위해 최근에는 '유선전화 30% + 휴대폰 70%' 등 일정한 혼합비율로 응답자를 구성한다. 지역 국번이 없는 휴대폰은 전국을 대상으로 광역을 나누는 정도라면 큰 문제가 없다. 그러나 국회의원 선거구에서 세부적인 지역을 나누어서 할당하기는 쉽지 않다. 물론 이동통신사의 협조 하에 진행되는 휴대폰 안심번호 조사가 이를 가능하게 해주기는 하지만 이는 정당에서만 사용가능하다.

※참고2:
지난 2016년 총선 당시 새정치민주연합의 김종인 비대위원장은 '비례의석 포함 114석을 확보하지 못하면 책임지고 물러나겠다'고 호언장담을 했다. 당시의 각 선거구 여론조사를 보면 그 정도 의석도 쉽지 않은 상황이었다.
얼마 후 필자는 새정치민주연합에서 휴대폰 안심번호를 이용하여 실시한 서울시 선거구별 여론조사 결과를 볼 수 있는 기회가 있었다.
내용을 보니 일반적인 여론조사 결과보다 새정치민주연합에 더 유리하게 나왔다. 특히 서울처럼 접전 지역이 많은 곳에서는 일반적인 여론조사 결과상으론 지는 곳도 휴대폰 안심번호 조사 결과로는 이기는 곳이 꽤 있었다.
휴대폰 안심조사 상으로는 125석을 충분히 얻는 것으로 나왔고 실제 결과는 123석을 얻게 되었다. 아마도 안심조사의 결과를 알고 있었기 때문에 그런 호언장담을 하지 않았나 싶다.

일부 큰 규모의 여론조사 회사들은 그동안 축적된 자체 패널(지역/연령/성별 등 특성을 알고 있는 응답자 전화번호 명단)을 가지고 할당을 주어서 조사하기도 하지만 이 역시 편향될 가능성이 있어서 좋은 방식이라고 할 수는 없다. 따라서 주요한 차이점은 결국 면접원 통화냐, ARS 통화냐다.

조사 응답자들 이념 달라진듯 보여도
투표율 연동된 실제 지지율 고려해야

지난 2017년 대선을 앞둔 4월 초중반, 언론에는 대선 주자 지지율 관련 여론조사가 하루가 멀다 하고 쏟아져 나왔다. 얼핏 보기에는 <그래프 1>처럼 들쑥날쑥 한 것처럼 보였지만 조사방법별로 나누어서 보면 <그래프 2>와 <그래프 3>처럼 확연하게 안정적인 지지율을 보여주었다.

물론 어떤 특정한 조사방법이 항상 더 정확하게 전체 유권자의 의견을 반영하는 것은 아니다. 예를 들어 전화면접 조사보다 응답률이 상대적으로 더 낮은 ARS에는 일반적으로 ‘정치 고관여층’ 즉 정치에 더 관심이 많은 사람들이 응답하게 된다. 따라서 상대적으로 정치 고관여층이 더 많이 참여하는 지방선거나 보궐선거의 경우 ARS 조사 결과가 실제 투표 결과와 가까워질 수 있다.

어쨌든 이는 상대적으로 파악하기 쉬운, 체계적으로 편향된 표본의 비교이다. 문제는 전체적인 사회적 분위기에 따라서 특정한 유권자 그룹이 여론조사에 더 적게 반영될 수 있다. 이러한 미묘한 변화는 직접적으로 파악하기 힘들며 특히 이를 정량적으로 분석하여 여론조사 결과 값을 보정하는 것은 더욱 어려운 일이다.

지난 2017년 대선 당시에 더불어민주당 산하 민주연구원에서 부원장으로 근무하면서 데이터 분석 관련 업무를 하였다. 투표일이 가까워질수록 여러 언론사들이 실시하는 여론조사, 그리고 당내 및 연구원에서 내부적으로 실시하는 여론조사들이 하루가 멀다 하고 쏟아져 나왔다. 다양한 잡음들 속에서 정보를 추출하는 것은 사실 과학보다는 논리가 얼마나 설득력 있는 지로 판단할 수밖에 없다.

필자는 나름의 데이터에 근거하여 소위 ‘샤이 보수’의 존재를 인지하고 그것이 각 후보들의 지지율과 득표율 사이에 어떤 식으로 반영될 것인지를 추론했다. 이를 통해 대선 캠프가 상황을 올바로 인지하는데 도움이 되도록 노력하였다.

핵심은 여론조사 응답자들의 이념지형 변화였다. 시간에 따른 비교를 하려면 조사방식과 조사주체가 동일해야하기 때문에 매주 1회씩 면접원 전화조사를 실시하는 한국갤럽의 데이터를 사용하였다. 한국갤럽에서 실시하는 주간 정기 여론조사 <데일리 오피니언>에서는 매번 조사의 응답자 특성 즉 지역별, 성별, 연령별, 지지정당별, 직업별, 생활수준별, 성향별로 유권자가 각기 몇 명씩 표본으로 응답하였는지 통계를 발표한다.
모집단에 가깝게 할당비율을 설정하는 지역/성별/연령 특성과는 달리 나머지 특성들은 통제되지 않고 반영된다. 따라서 매번 달라질 수밖에 없다.
이중 성향별 특성은 바로 응답자들이 각기 ‘보수/중도/진보/모름&응답거절’ 등 이념성향별로 몇 명씩 해당하는지를 보여주는 통계이다.

매번 조사의 응답자 이념성향 추이변화를 살펴보면 매우 재미있는 것을 발견할 수 있다.
2016년 10월 4주차 이전에는 응답자의 이념성향이 (물론 매번 조금씩 오르내리지만) 대체로 안정적으로 보수:중도:진보:모름의 비율이 30:28:24:18 정도로 유지되었다.
그러던 것이 2016년 11월부터는 갑자기 보수·진보 비율이 완전히 역전되어 대통령선거가 끝날 때까지 6개월동안 꾸준하게 26:28:34:13의 비율로 유지되었다.

대한민국 국민들의 이념성향 분포가 2016년 11월 4주차에 갑자기 바뀐 것일까?
그렇게 추론하는 것은 상식적이지 않다. 그보다는 2016년 10월 4주차에 JTBC를 통해서 최순실씨의 태블릿 PC 내용이 보도되자 이에 당황하고 상심한 보수적 성향의 유권자들이 그 이전보다 여론조사 전화에 상대적으로 더 적게 응답하게 되었다고 해석하는 것이 좀 더 상식적이다.
겉보기에는 보수층 응답자가 30%에서 26%로 4%p 감소한 것이지만 이는 기존 보수층 응답자 기준으로 보면 13%p가 줄어든 것이고, 반면에 진보층 응답자가 24%에서 34%로 증가한 것은 기존 대비 42%가 늘어난 것이다. (중도층도 13%에서 18%로 증가한 것은 기존 대비 38%가 증가한 것이다)

문제는 보수층 일부 유권자들이 여론조사에 응답하지 않았다고 해서 이들이 투표에 참여하지 않는 것은 아니라는 점이다.
투표율과 연동된 실제 지지율을 파악하지 않고 여론조사 결과를 있는 그대로 받아들일 경우 현실을 제대로 추론할 수 없게 된다.

최순실 이후 보수→진보 대거 이동?
응답자 성향은 보수·진보 비율 엇비슷

당시 필자는 몇 단계로 나눠 이념성향을 분석해 봤다.
(1)먼저 진보층 유권자의 비율이 전체 유권자에서 차지하는 비율이 변하지 않았다고 가정할 때 현재 조사에 응답한 보수층 유권자, 중도층 유권자의 비율에 얼마나 많은 가중치를 두어야 과거와 같은 비율이 되는가를 분석하였다. 그 결과 보수층 응답자 수에는 1.62를, 중도층 응답자 수에는 1.42를, 모름&무응답층에는 2.01을 곱해주어야 원래와 같은 이념성향별 응답자 비율이 된다.

(2) 각 후보의 지지층은 보수/중도/진보/모름 응답자들이 상이한 비율로 구성되어 있는데 여기에 각각의 가중치를 곱한다.

(3) 지지후보가 없거나 모른다고 대답한 응답자 수를 이념성향별로 각 후보별로 얼마나 지지하는지 비율대로 후보에게 배분을 해준다.

(4) 지지후보가 있는 사람들만을 분모로 해서 다시 후보별 상대비율을 계산한다.

2017년 5월 초 당시 대부분의 여론조사에서 문재인 45%, 홍준표 18%, 안철수 15%, 유승민 6%, 심상정 6% 정도의 지지율을 얻고 있었다. 당내에서 여론조사를 담당한 부서에서는 문재인 48%, 홍준표 21%, 안철수 16% 정도 득표할 것이라고 예측하였다. 실제로 2017년 5월 선거 직전, 한국갤럽 조사에서는 문재인 38%, 홍준표 17%, 안철수 17%의 지지율을 보였다.

이 조사의 응답자 이념구성은 전체 응답자 2031명 중 보수 504명, 중도 542명, 진보 675명, 모름 310명이었다. 보수:중도:진보:모름의 비율이 25:27:33:15이었다.

위의 비율대로 응답자 수를 배분해보면 다음과 같다. 문재인 후보를 지지한다고 밝힌 응답자들 중 보수층은 76명, 중도층은 217명, 진보층은 412명, 모름은 65명이었다. 홍준표 후보를 지지한다고 밝힌 응답자들은 보수층 232명, 중도층 49명, 진보층 20명, 모름 53명이었다. 안철수 후보를 지지한다고 밝힌 응답자들은 보수층 86명, 중도층 119명, 모름 47명이었다. 이를 표로 정리하면 아래와 같다.

여기에 위에서 말한 가중치를 각각의 이념성향 지지자 숫자에 곱한 뒤 각 후보별 지지자 숫자의 상대적 비율을 구하면 결과는 다음과 같다.

득표율을 추정하기 위해서 '지지후보 없음'으로 응답한 사람들은 이념성향별로 각 후보가 차지하는 비중대로 각 후보의 이념성향별 지지자 숫자에 배분해준다.

후보별로 보정된 최종 지지자의 수를 상대적 비율로 구해보면 문재인 40%, 홍준표 24%, 안철수 21%를 얻는 것으로 예측된다.

다음은 2017년 5월 8일 아침에 그 당시 여론조사를 담당했던 당내 실무자와 필자가 투표 결과를 놓고 내기를 하면서 나눈 텔레그램 메신저 대화이다.

결과는? 정확히 문재인 41%, 홍준표 24%, 안철수 21%를 득표하였고 필자는 내기에서 이겼다.

그로부터 3년 동안 여론조사의 응답자 이념성향 비율은 어떻게 변화하였을까? 갤럽 조사에 의하면 2016년 1월부터 2020년 3월까지 결과는 다음과 같다.
빨간색: 보수층, 초록색: 중도층, 파란색: 진보층, 노란색: 모름

이를 4주간 이동평균, 8주간 이동평균으로 다시 그래프를 그려보면 변화가 좀 더 선명하게 드러난다.

아래 그래프에서 응답자의 보수 대 진보 비율이 거의 근접하게 나타나고 있다.

민주당·통합당 차이 사실상 9%p 
코로나19 더해져 변수로 작용할듯

이제 지금 시점에서 정당지지율을 이와 동일한 방법론을 적용하여 살펴보자. 2020년 3월 1주차 한국갤럽의 여론조사 응답자들의 이념성향 분포는 보수:중도:진보:모름의 비율이 27.6%: 27.0%:27.6%:17.7%이다.
보수와 진보의 비율이 정확히 같아졌다. 따라서 여전히 보수층 응답자 수에 가중치를 주어야 하지만 3년 전보다는 훨씬 작은 가중치를 주게 된다. 계산해보면 가중치는 보수층 1.22, 중도층 1.19, 진보층 1.00, 모름 1.18이다.

현재 정당지지율은 더불어민주당이 미래통합당보다 14%p 높은 지지율을 보이고 있는데, 각 이념성향별 응답자의 지지정당 분포는 다음과 같다. (갤럽 자료에 소수점 이하 수치를 생략한 값으로 표시되어 있어서 합계가 1%p 정도 차이가 나게 보이는 경우가 있다.)

응답자수로 환산하면 다음과 같다.

여기에 가중치를 적용한 후 다시 상대적 비율을 구하면 다음과 같다.

즉 현재 여론조사상의 응답자 이념지형을 보정한 후 정당지지율을 구하면 원래 14%p 차이를 보이던 더불어민주당과 미래통합당은 9%p 차이로 줄어들게 된다.
즉 한국갤럽 여론조사에서 나오는 정당지지율 차이에서 5%p를 빼는 것이 적절해 보인다.

아직은 더불어민주당이 오차율 범위 밖에서 미래통합당을 앞서고 있지만 4·15 총선은 한 달이나 남아있다. 코로나19 사태가 어떻게 진행될 것인지, 그로 인한 경기침체에 어떻게 대처해나갈 것인지에 따라 선거 판세는 더욱 유동적으로 될 수도 있다.

고한석 서울디지털재단 이사장