제20대 대통령선거 후보자 통합지지율
본 지표에 포함된 모든 여론조사는 여론조사 공표 금지기간과 윤석열-안철수 후보의 단일화 발표 이전에 실시된 것들임을 알려드립니다.
선거 결과 예측은 기존에 발표된 여론조사 데이터에 기반을 두고 있지만, 여론조사 블랙아웃 기간이라는 현실 때문에, 단일화 이후에 여전히 유효한지 증명할 길이 없는 많은 가정들에 의존해 있습니다. 아래에 최대한 투명하게 그 가정들이 어떤 것들인지 밝히려고 노력했지만, 다분히 저 개인의 주관적 판단이 대거 포함되었기 때문에 이점을 유념하시기 바랍니다. 일부 가정들에 동의하시지 않는다면 그것들의 효과를 제외해서 스스로 보정하셔서 결과를 해석하시면 되겠습니다. 예측 결과는 최종적으로 저의 주관적 견해이며 실제 선거 이후 발표되는 득표율과 얼마나 일치하는지 살펴보기 위한 목적으로 사전에 공개합니다. 이를 팩트로 오인하는 일이 없기를 당부드립니다.
참고로 저는 이재명 후보를 지지합니다. 그렇지만 이로 인해 지표를 만들거나 선거 예측 결과를 도출하는 과정에서 객관성을 잃지 않도록 최대한 노력했습니다. 그 노력이 얼마나 성공했는지는 결과가 말해 줄 것이라고 믿습니다. 이미 아래에서 밝힌바가 있지만 저는 어느쪽 캠프와도 과거에도, 현재에도 아무런 연고가 없습니다.
PC화면에서 선거 결과 예측 그래프에 마우스 커서를 올리거나 모바일 기기에서 손가락으로 탭하시면 각 격차구간별 후보들의 평균지지율과 누적당선확률을 보실 수 있습니다. 누적당선확률은 이 후보의 경우 분포 왼쪽에서 오른쪽으로, 윤후보의 경우에는 오른쪽에서 왼쪽으로 쌓입니다. 이것을 사용하시면 후보들이 몇 퍼센트 이내 또는 이상의 차이로 당선될 확률을 스스로 계산하실 수 있습니다. 예를 들어 이재명 후보가 1.5% 이내로 당선될 확률은 격차 [1.5, 1.6] 구간의 누적당선확률 (18.9%)을 격차 [0, 0.1] 구간의 누적당선확률(45.2%)에서 빼면 쉽게 계산 할 수 있습니다(26.3%). 윤 후보에게도 똑같은 방식으로 계산해서 적용해보면 선거가 1.5% 표 차이 이내로 갈릴 확률은 (아래에 제시된 가정들을 신뢰하신다면) 55.3%정도로 예상할 수 있습니다.
최종 업데이트: 2022/03/08 12:10 PM
선거 결과 예측
평균 예상 득표율 - 이재명: 47.9% | 윤석열: 48.1%
당선가능성 - 이재명: 45.2% | 윤석열: 54.8%
전체투표율 예측
사전투표율 예측
지표 ①: 기준일로부터 D-14일 여론조사 결과로 산출
지표 ②: 기준일로부터 D-10일 여론조사 결과로 산출
지표 ③: 기준일로부터 D-7일 여론조사 결과로 산출
IncludedPollsByDate
폴더에 각 날짜별로 D-14, D-10, 그리고 D-7 지표를 산출하는데 포함된 개별 여론조사의 여심위 등록번호, 조사 기관, 조사 의뢰자, 조사 시작일, 그리고 종료일을 표로 확인하실 수 있습니다.선거철만 되면 매일매일 쏟아지는 여론조사 결과에 갈피를 못 잡을 때가 많다. 특히 이번 대선처럼 지지율이 엎치락뒤치락하며 후보들 사이의 격차가 박빙인 경우엔 더욱 그렇다. 특정 조사에서 한 후보가 오차 범위 밖에서 우위를 점하고 있다는 보도가 나오기 무섭게, 바로 몇 시간 뒤 다른 조사에서 상대 후보가 오차 범위 안이지만 앞서고 있다는 보도를 심심찮게 접할 수가 있다. 이러한 경우에 선거 판세를 도대체 어떻게 이해하고 해석하여야 할까? 더욱이 혼란을 가중시키는 것은 각 후보자측에서는 자신에게 유리한 결과만 콕 찝어서 언급하고, 불리한 결과는 정치적으로 편향(bias)돼 있다고 폄하하거나 아예 언급 자체를 하지 않는다. 그렇다면 모두가 그저 자신의 입맛에 맞는 결과만 소비하면 그만인 것인가? 보다 객관적으로 여러 상반되는 결과들을 종합적으로 이해할 수 있는 방법은 없을까?
물론 있다. 그것은 여러 여론조사의 결과를 바탕으로 각 후보지지율의 평균치를 내는 것이다. 그렇게 한다면 특정 조사의 표본이 다소 대표성이 떨어진다 하더라도 다른 조사들의 표본과 통틀어서 보기 때문에 개별 조사에 의존하는 것 보다 현실에 가까운 지지율 판세를 읽을 수 있을 것이다.
하지만 이런식으로 접근하다보면 금방 또 다른 문제에 봉착하게 된다. 그것은 모든 여론조사를 동일한 수준에 놓고 똑같이 취급할 수 없다는 사실이다. 우선 표본수랑 조사방법이 매우 상이할 수 있다. 더 문제의 소지가 될 수 있는 것은 같은 날 발표한 조사라 하더라도 조사기간 그리고 조사일시가 제각각일 수 있다는 것이다. 특히 여론조사 결과를 발표하는 시점이 꼭 조사를 실시한 날짜와 가깝다는 보장이 없기 때문에 같은 날 발표한 여론조사들만 모아 그날의 평균 지지율을 내는 것은 우매한 일일 것이다. 따라서 이러한 사항들을 충분히 감안하고 반영하여 후보 지지율의 단순 평균이 아닌 신중하고 합리적 기준으로 선택한 가중치를 부여한 가중평균(weighted average)을 낼 필요가 있다.
미국 선거의 경우엔 이미 이러한 가중평균을 기반으로 한 통합지지율을 계산해서 제공하는 언론사가 여럿 있다. 대표적으로 네이트 실버(Nate Silver)가 운영하는 데이터 저널리즘(data journalism) 사이트 FiveThirtyEight가 가장 많은 신뢰를 받아서 선거 판세를 객관적으로 조망하는 기사에서 많이 인용된다. 그에 반해, 한국에는 아직까지 모두의 신뢰를 얻어서 각종 보도에 인용되는 통합지지율 지표가 존재하지 않는다.
본 페이지는 유권자들이 선거 판세를 정확하게 파악하여 투표권을 행사하는데 도움이 될 수 있도록 이와 같은 객관적 지표를 제공하기 위한 목적으로 고안되었다.
이곳에서 제공하는 통합지지율 지표는 중앙선거여론조사심의위원회에 등록되어 있는 2022년 대통령 선거 전국 단위 여론조사 데이터를 기반으로 산출한다. 그런데 지표를 산출하는데 특정한 조사가 포함이 되기 위해서는 중요한 한가지 조건을 충족해야 한다. 보통 여론조사를 실시할 때 모집단(population)을 만 18세 이상의 대한민국 국민으로 설정하는 경우가 많은데, 이는 주 관심의 대상이 되는 표적 집단인 실제로 선거에서 투표를 하는 투표자들이라는 모집단과 상이할 소지가 크다. 따라서 미국 선거의 경우 앞서 언급한 FiveThirtyEight에서는 투표가능성이 높은 피조사자(likely voter)들 사이에서의 지지율로 보통 평균 지지율을 낸다. 심지어 아예 조사기관에서 선행질문으로 likely voter만 선별해서 조사하는 것이 관행처럼 되어있다.
한국에서는 이렇게 미리 투표가능성이 높은 집단을 선별하는 조사업체는 존재하지 않지만, 투표할 의향을 묻는 질문을 포함하는 조사들은 조사업체 혹은 조사의뢰기관에 따라 얼마든지 있다. 이에 따라 실제 투표 예정자들이라는 모집단 사이에서 각 후보 지지율을 보다 정확하게 파악할 수 있도록, 특정 조사가 본 지표를 산출하는데 포함되기 위해서는 투표의향을 묻는 문항이 꼭 조사에 포함되어 있어야 하고, 어떤 후보를 지지하는지 묻는 문항의 교차통계표에, 앞서 투표의향을 묻는 질문의 응답에 따라 각 후보지지율이 따로 기재되어있어야 한다. 이 중 투표 의지를 표방한 응답자들 중에서도 적극적 투표 의지층(“반드시 투표 할 것이다”)으로 분류된 응답자들 사이에서의 각 후보지지율, 그리고 소극적 투표 의지층(“가능하면" 혹은 "가급적이면 투표 할 것이다”)에서의 후보지지율을 각각 뽑아서 투표 의향의 적극성에 따라 가중치를 다르게 부여해서 통합지지율을 산출한다. 다시 강조하자면, 통합지지율 지표를 산출할 때 사용되는 후비지지율은 각 조사에서 흔히 기사 제목으로 회자되는 전체 응답자 사이에서의 지지율이 아니라 투표의지층으로 분류된 응답자들 사이에서의 지지율을 사용한다.
그렇다면 각 후보 지지율의 가중평균을 낼 때 어떻게 가중치를 부여하는 것이 합리적일까? 여기 제시하는 새로운 통합지지율 지표의 신뢰성을 확보하기 위해서는 투명하게 그 기준을 밝히고 설명할 필요가 있다. 다음 사항들을 고려하였다.
일정한 날짜를 기준으로 평균지지율을 계산할 때 그 날로부터 일정기간 (14일 혹은 10일)내의 모든 여론조사들을 포함시켰다 (단, 위에서 밝힌 여론조사 포함 조건을 충족시키는 조사에 한해서). 이들 중 최근 실시된 조사일 수록 그것에 비례해서 더 높은 가중치를 부여한다. 여러날에 걸친 조사의 경우에는 조사기간에 포함되는 모든 조사일의 가중치 값을 합산하여 해당 조사의 조사기간으로 나누어 평균을 낸 가중치를 부여한다.
조사 전체 표본수가 아닌 투표의향을 표방한 응답자로 표본수를 계산한다. 표본수가 높을 수록 그에 상응하는 더 높은 가중치를 부여한다. 이 중 위에서 언급한 것 같이 적극 투표 의지층과 소극 투표 의지층으로 구분하여 전자에 더 높은 가중치를 둔다.
ARS 방식보다 사람이 직접 전화를 걸어 인터뷰하는 면접 방식에 약간의 우위를 둔다. 그것은 ARS 방식은 실수로 입력하거나 빨리 질문을 넘기기 위해 아무 숫자나 누르는 응답자들로 인해 에러률(error rate)이 더 높을 수 있기 때문이다. 또한 여러 여론조사 전문가들이 ARS조사가 전화면접에 비해 무응답 편향에 영향을 더 많이 받는다는 여러가지 직간접적인 정황들이 있다고 하여 전화면접에 비해 ARS 조사의 가중치를 조사에 포함된 ARS 표본 비율에 따라 적게 부여한다.
이번 대선에서 대부분의 조사기관이 휴대전화에 거는 방식으로 조사를 시행하는 휴대전화조사 의존률이 높다. 그에 따라 휴대전화로 조사에 응하는 집단이 표적 모집단과의 구성의 차이로 인해 휴대전화 조사결과의 편향(bias)이 생길 수 있다. 그러한 표본의 사각지대를 메우기 위해 조사결과에 유선조사로 조사된 집단이 포함될 경우 유선전화 조사의 비율에 따라 일정한 가중치를 부여한다.
위에서 제시한 가중치 부여 방식을 토대로 윤석열 후보가 국민의힘 대선 후보로 확정됐던 시점부터 여론조사 공표 금지기간이 시작되기 직전까지 통합지지율 추이를 보기 쉬운 그래프 형태로 이곳에서 제공할 예정이다. 마우스 커서를 그래프 위로 이동거나 손가락으로 그래프를 탭하면 날짜별로 각 후보의 정확한 통합지지율 수치를 볼 수 있다. 중앙선거여론조사심의위원회에 조사가 등록되어 공표됨에 따라 통합지지율이 수시로 업데이트 되기 때문에 같은 날 수치라도 여론조사 수가 늘어남에 따라 다소 변동이 있을 수 있다.
기준일(마우스 커서를 이동하거나 손가락으로 탭 했을 때 그래프 하단에 표시되는 날짜)로부터 과거 14일 혹은 과거 10일 여론조사들을 종합하여 산출한 두 가지 통합지지율 그래프가 제공된다. 과거 14일 조사로 산출한 그래프는 각 날짜별 통합지지율을 계산할 때 포함되는 여론조사 수가 많아서 더 많은 표본을 기반으로 산출 되었다는 장점을 갖는 대신에 최근 지지율 변화의 반영이 느릴 수 있다. 반면에 과거 10일 조사로 산출한 그래프는 최근 지지율 변화에 더 민감하게 반응하는 대신에 일부 편향된 조사에 의해 수치가 좌우될 소지가 있다. 이러한 점을 유의해서 결과를 해석하여야 할 것이다.