제20대 대통령선거 후보자 통합지지율

Follow 정치학자의 서재

본 지표에 포함된 모든 여론조사는 여론조사 공표 금지기간과 윤석열-안철수 후보의 단일화 발표 이전에 실시된 것들임을 알려드립니다.

선거 결과 예측은 기존에 발표된 여론조사 데이터에 기반을 두고 있지만, 여론조사 블랙아웃 기간이라는 현실 때문에, 단일화 이후에 여전히 유효한지 증명할 길이 없는 많은 가정들에 의존해 있습니다. 아래에 최대한 투명하게 그 가정들이 어떤 것들인지 밝히려고 노력했지만, 다분히 저 개인의 주관적 판단이 대거 포함되었기 때문에 이점을 유념하시기 바랍니다. 일부 가정들에 동의하시지 않는다면 그것들의 효과를 제외해서 스스로 보정하셔서 결과를 해석하시면 되겠습니다. 예측 결과는 최종적으로 저의 주관적 견해이며 실제 선거 이후 발표되는 득표율과 얼마나 일치하는지 살펴보기 위한 목적으로 사전에 공개합니다. 이를 팩트로 오인하는 일이 없기를 당부드립니다.

참고로 저는 이재명 후보를 지지합니다. 그렇지만 이로 인해 지표를 만들거나 선거 예측 결과를 도출하는 과정에서 객관성을 잃지 않도록 최대한 노력했습니다. 그 노력이 얼마나 성공했는지는 결과가 말해 줄 것이라고 믿습니다. 이미 아래에서 밝힌바가 있지만 저는 어느쪽 캠프와도 과거에도, 현재에도 아무런 연고가 없습니다.

PC화면에서 선거 결과 예측 그래프에 마우스 커서를 올리거나 모바일 기기에서 손가락으로 탭하시면 각 격차구간별 후보들의 평균지지율과 누적당선확률을 보실 수 있습니다. 누적당선확률은 이 후보의 경우 분포 왼쪽에서 오른쪽으로, 윤후보의 경우에는 오른쪽에서 왼쪽으로 쌓입니다. 이것을 사용하시면 후보들이 몇 퍼센트 이내 또는 이상의 차이로 당선될 확률을 스스로 계산하실 수 있습니다. 예를 들어 이재명 후보가 1.5% 이내로 당선될 확률은 격차 [1.5, 1.6] 구간의 누적당선확률 (18.9%)을 격차 [0, 0.1] 구간의 누적당선확률(45.2%)에서 빼면 쉽게 계산 할 수 있습니다(26.3%). 윤 후보에게도 똑같은 방식으로 계산해서 적용해보면 선거가 1.5% 표 차이 이내로 갈릴 확률은 (아래에 제시된 가정들을 신뢰하신다면) 55.3%정도로 예상할 수 있습니다.

최종 업데이트: 2022/03/08 12:10 PM

선거 결과 예측

평균 예상 득표율 - 이재명: 47.9% | 윤석열: 48.1%
당선가능성 - 이재명: 45.2% | 윤석열: 54.8%

전체투표율 예측

사전투표율 예측

지표 ①: 기준일로부터 D-14일 여론조사 결과로 산출

지표 ②: 기준일로부터 D-10일 여론조사 결과로 산출

지표 ③: 기준일로부터 D-7일 여론조사 결과로 산출

선거결과 예측 모델이 상정하는 가정들

단일화 효과

가정 1. 윤-안 후보의 단일화 효과로 인해 발생하는 지지율의 변화는 단일화 발표 직전 여론조사 결과를 출발점으로 삼아 각 후보에게 부가한다.

이에 따라 이 분석에서 2월 28일에서 3월 2일까지의 여론조사를 종합해서 시작점으로 삼는 수치는 이재명: 40.7%, 윤석열: 44.5%, 안철수: 6.9%, 심상정: 1.8%, 부동층: 4.8%이다. 단일화 때문에 기존의 여론조사를 무시해도 된다거나 그것들이 무의미해졌다고 말하는 이들이 있으나, 이는 올바른 태도가 아니다. 단일화 효과를 정확하게 가늠하기 위해서는, 단일화 이전의 판세를 정확하게 파악해야 한다.

가정 2. 윤-안 후보의 단일화 효과는 2월 27일 윤석열 후보의 단일화 '최종' 결렬 기자회견 이후부터 3월 3일 단일화 합의까지 이미 일정 부분 반영되었다.

이를 공식 선거 운동이 시작된 이후 윤후보의 지지율 추이를 보면 알 수 있다. 단일화 논의의 부침에 따라 윤후보의 지지율이 약 3 포인트 가량 늘어났다가 빠졌다 하는 것을 보면, 그리고 27일 기자회견 이후부터 2일까지 윤후보의 지지율이 역시나 3프로 가량 오른 것을 보면, 정권교체를 강력하게 요구하는 유권자들 중심으로 이미 안에서 윤후보에게로 단일화를 주창한 세력이 많이 이동해 간 것을 볼 수 있다.

가정 3. 윤-안 단일화가 이루어진 방식으로 인해, 단일화 효과의 일정 부분이 위축되었다.

특히 안철수 후보를 선호하지만 정권교체의 대의를 위해 차선으로 윤석열 후보에게 옮겨갔을 유권자들이 단일화가 진행되었던 방식과 그 이후 국민의힘 지도부의 태도 때문에 선뜻 윤후보로 지지를 옮기지 못하고 부동층으로 전환했을 가능성이 높다.

가정 4. 안철수 후보의 지지율은 여론조사에서 윤후보로 단일화시 3자 대결을 상정한 문항에서 안철수 지지층이 각각의 후보를 지지하겠다고 응답한 비율로 우선 배당한다.

여론조사에 따라 나뉘어지는 비율이 상당한 차이가 있으므로 통합지지율 지표를 산출하는데 사용하는 가중치 부여기준에 따라 가중평균을 내서 이 비율을 도출한다. 그 결과 안철수 후보의 지지층을 이재명: 26%, 윤석열: 37%, 심삼정: 9%, 부동층: 22%으로 각각 배당한다. 여기서 유심히 보아야 할 것은 심상정 후보 또는 부동층으로 옮겨간다고 밝힌 비율이 무려 31%나 된다는 것이다. 따라서 이들의 향방에 의해 단일화 효과가 크게 달라진다고 결론지을 수 있다.

가정 5. 가정 3에서 밝혔듯 윤석열 후보가 안 후보 지지층의 37%를 온전히 다 가져가지 못하고 기존에 윤 후보에게 옮겨가려고 했던 유권자 중 20%가 이탈한다.

따라서 37% * 0.80 = 29.6%만 옮겨가고 나머지 7.4%는 부동층으로 빠진다.

가정 6. 윤-안 단일화로 인해 심상정 후보 기존 지지자들과 안후보 지지층 중 단일화 후 심후보에게 옮겨가려고 했던 유권자 중 일부가 윤석열 후보의 당선은 반드시 막아야겠다는 이유로 이재명 후보에게로 이탈한다.

여론조사 상에서 심후보 지지층 중 꾸준히 50% 가량이 상황에 따라 지지후보를 바꿀 수 있다고 응답한 것을 감안하면 전략적인 이유로 심상정 후보의 기존 지지층과 안 후보로부터 올 예정이었던 지지층의 50%는 이후보에게로 가고 나머지 50%만 심 후보를 계속 지지한다고 가정한다.

가정 7. 안후보 지지층 중 단일화 시 지지후보 없음 혹은 무응답 의견을 표방한 22%와 가정 5에서 윤후보로 옮겨가지 않은 7.4%는 전체 부동층으로 유입되서 단일화 후 부동층이 4.5%에서 6.4%로 늘어난다.

샤이 지지층/무응답 편향

가정 8. 샤이 지지층 혹은 무응답 편향으로 인해 이재명 후보의 여론조사 상 지지율이 실제 지지율보다 저평가 되었다.

이러한 현상은 같은 전화면접 방식으로 이뤄어진 조사들 중에서 지지 후보를 재질문을 하는 조사 (i.e., 지지 후보가 없다, 혹은 모른다라고 하는 응답자에게 그래도 이중 누가 조금이라도 더 낫습니까라고 물어보는 것)와 재질문 하지 않은 조사에서 이후보 지지율 차이에서 확인할 수 있다. 재질문을 하지 않는 전화면접 조사에서는 이후보 지지율 가중평균이 36.9%로 나오는 반면, 재질문을 하는 조사에서는 40.6%로 나와 무려 3.7포인트의 차이를 보인다 (윤후보 지지율에서는 이에 상당하는 크기의 차이가 나타나지 않는다). 이러한 행태는 애초에 여론조사 전화를 받는 사람과 받지 않는 사람의 차이로 인해 생겨나는 무응답 편향으로도 발현되었을 가능성이 높다. 이 때문에 위에서 도출한 3.7포인트의 절반이 한참 안되는 수치인 평균 1.5%, 표준편차 0.15인 정규분포에서 무작위로 추출한 값을 이후보의 지지율에 더하고, 그에 상응하는 수치를 전체 부동층에서 삭감한다.

부동층

가정 9. 부동층에 속한 유권자들이 최종적으로 어떤 후보를 선택하는지의 문제는 여론조사 공표 금지기간 이후부터 선거일까지 그들에게 인지되는 여론의 추이와 판세의 흐름에 영향을 받는다.

(이 부분은 저의 확증 편향이 개입했을 소지가 큰 분석이라는 점을 밝힙니다) 이러한 측면에서 볼 때 윤-안 단일화에 대한 여러가지 뒷말과 불협화음이 계속 등장하고, 그동안 관망세로 일관하였던 2030 여성들의 적극적인 합류로 현재 이재명 후보에게 여러가지로 유리한 흐름이 형성되었다고 볼 수 있다. 또한 윤후보와 관련된 다수의 녹취 파일의 공개로 인해 윤후보에게 적어도 유리한 흐름은 아니라고 읽힌다. 구글 트랜드에서도 선거 막바지에 두 후보 사이의 관심도 격차가 이후보가 유리한 쪽으로 많이 벌어졌다. 이러한 추세를 대선 막바지에 윤호보와의 격차를 평균 1포인트 좁히는 추세를 상정하고 랜덤 보행 (random walk) 모델에 대입해서 부동층을 배분한다.

여론조사

가정 10. 본 분석에서 기사 제목으로 보통 회자되는 여론조사의 헤드라인 지지율 수치를 사용하는 것이 아니라, 투표 의향을 물은 문항에서의 각 후보 지지율을 사용한다.

이는 여론조사의 모집단이 되는 대한민국에 거주하는 만18세 이상의 유권자와 선거에서 관심의 대상이 되는 표적 집단인 투표자들의 모집단이 다른 점을 감안하기 위해서이다. 이에 대한 부가 내용은 아래 통합지지율 지표에 대한 설명에서 확인할 수 있다.

투표율

가정 11. 여론조사 상에서 적극투표층과 소극투표층으로 응답한 비율을 기반으로 각 층에 있는 유권자들이 투표할 확률의 범위를 다르게 상정해서 무작위 추출을 통해 각 계층의 투표율을 산정하고 이에 따라 여론조사 세부지표의 가중평균을 산출하는데 부여하는 가중치를 조정한다.

이에 대한 직관적인 이해를 돕기 위해 전체투표율 예측 그래프에 커서를 올려 놓으면 투표율에 따라 적극/소극투표층의 투표율이 각기 어떻게 달라지는지 확인 할 수 있다.

가정 12. 윤-안 단일화의 여파로 투표 의지가 유의미하게 높아졌다.

이것은 위에 단일화 이전 여론조사를 기반으로 한 사전투표율 그래프의 평균 예측치가 35.4%였는데 실제로 36.9%로 나온 것을 반영하기 위해서이다. 그래프에서 실제 사전투표율에 해당되는 구간을 보면 이 정도로 예측치에서 벗어난 숫치가 나올 확률이 약 10%로 계산되는데, 이것은 체감되는 현실에 비춰봤을 때 다소 낮게 잡힌걸로 여겨진다. 따라서 가정 11에서 적극/소극 투표층에 부여했던 투표 확률을 상향 조정해서, 이전에는 76%의 전체투표율이 예상되었는데, 지금은 79%정도로 내다보는 것으로 수정되었다. 참고로 종속변수를 윤-이 격차, 독립변수를 투표율로 설정한 단순 회귀 분석 모델로 분석한 결과 투표율이 높으면 어느 후보에게 유의미하게 유리하다고 볼 수 없는 것으로 나타났다.

불확실성

가정 13. 위 가정들에서 언급된 수치 중 여론조사 데이터로 산출한 것이 있다면, 표본오차와 그것을 둘러싼 불확실성을 감안하면서도, 혹시 누락하는 요인이 있을 가능성을 대비해 원래 수치의 1.5배로 오차범위를 넉넉하게 잡는다.

이렇게 해서 각각의 수치를 그것에 알맞는 정규분포에서 10,000번의 무작위 추출하여 10,000번의 대선 시뮬레이션을 도출한다. 가정 9에서의 추세를 반영한 랜덤보행 수치도 10,000번의 무작위 추출을 통해 얻는다.

대선후보 통합지지율 지표에 대한 안내

문제 의식: 객관적 후보 지지율 지표의 필요성

선거철만 되면 매일매일 쏟아지는 여론조사 결과에 갈피를 못 잡을 때가 많다. 특히 이번 대선처럼 지지율이 엎치락뒤치락하며 후보들 사이의 격차가 박빙인 경우엔 더욱 그렇다. 특정 조사에서 한 후보가 오차 범위 밖에서 우위를 점하고 있다는 보도가 나오기 무섭게, 바로 몇 시간 뒤 다른 조사에서 상대 후보가 오차 범위 안이지만 앞서고 있다는 보도를 심심찮게 접할 수가 있다. 이러한 경우에 선거 판세를 도대체 어떻게 이해하고 해석하여야 할까? 더욱이 혼란을 가중시키는 것은 각 후보자측에서는 자신에게 유리한 결과만 콕 찝어서 언급하고, 불리한 결과는 정치적으로 편향(bias)돼 있다고 폄하하거나 아예 언급 자체를 하지 않는다. 그렇다면 모두가 그저 자신의 입맛에 맞는 결과만 소비하면 그만인 것인가? 보다 객관적으로 여러 상반되는 결과들을 종합적으로 이해할 수 있는 방법은 없을까?

물론 있다. 그것은 여러 여론조사의 결과를 바탕으로 각 후보지지율의 평균치를 내는 것이다. 그렇게 한다면 특정 조사의 표본이 다소 대표성이 떨어진다 하더라도 다른 조사들의 표본과 통틀어서 보기 때문에 개별 조사에 의존하는 것 보다 현실에 가까운 지지율 판세를 읽을 수 있을 것이다.

하지만 이런식으로 접근하다보면 금방 또 다른 문제에 봉착하게 된다. 그것은 모든 여론조사를 동일한 수준에 놓고 똑같이 취급할 수 없다는 사실이다. 우선 표본수랑 조사방법이 매우 상이할 수 있다. 더 문제의 소지가 될 수 있는 것은 같은 날 발표한 조사라 하더라도 조사기간 그리고 조사일시가 제각각일 수 있다는 것이다. 특히 여론조사 결과를 발표하는 시점이 꼭 조사를 실시한 날짜와 가깝다는 보장이 없기 때문에 같은 날 발표한 여론조사들만 모아 그날의 평균 지지율을 내는 것은 우매한 일일 것이다. 따라서 이러한 사항들을 충분히 감안하고 반영하여 후보 지지율의 단순 평균이 아닌 신중하고 합리적 기준으로 선택한 가중치를 부여한 가중평균(weighted average)을 낼 필요가 있다.

미국 선거의 경우엔 이미 이러한 가중평균을 기반으로 한 통합지지율을 계산해서 제공하는 언론사가 여럿 있다. 대표적으로 네이트 실버(Nate Silver)가 운영하는 데이터 저널리즘(data journalism) 사이트 FiveThirtyEight가 가장 많은 신뢰를 받아서 선거 판세를 객관적으로 조망하는 기사에서 많이 인용된다. 그에 반해, 한국에는 아직까지 모두의 신뢰를 얻어서 각종 보도에 인용되는 통합지지율 지표가 존재하지 않는다.

본 페이지는 유권자들이 선거 판세를 정확하게 파악하여 투표권을 행사하는데 도움이 될 수 있도록 이와 같은 객관적 지표를 제공하기 위한 목적으로 고안되었다.

특정 조사가 지표에 포함되기 위한 조건

이곳에서 제공하는 통합지지율 지표는 중앙선거여론조사심의위원회에 등록되어 있는 2022년 대통령 선거 전국 단위 여론조사 데이터를 기반으로 산출한다. 그런데 지표를 산출하는데 특정한 조사가 포함이 되기 위해서는 중요한 한가지 조건을 충족해야 한다. 보통 여론조사를 실시할 때 모집단(population)을 만 18세 이상의 대한민국 국민으로 설정하는 경우가 많은데, 이는 주 관심의 대상이 되는 표적 집단인 실제로 선거에서 투표를 하는 투표자들이라는 모집단과 상이할 소지가 크다. 따라서 미국 선거의 경우 앞서 언급한 FiveThirtyEight에서는 투표가능성이 높은 피조사자(likely voter)들 사이에서의 지지율로 보통 평균 지지율을 낸다. 심지어 아예 조사기관에서 선행질문으로 likely voter만 선별해서 조사하는 것이 관행처럼 되어있다.

한국에서는 이렇게 미리 투표가능성이 높은 집단을 선별하는 조사업체는 존재하지 않지만, 투표할 의향을 묻는 질문을 포함하는 조사들은 조사업체 혹은 조사의뢰기관에 따라 얼마든지 있다. 이에 따라 실제 투표 예정자들이라는 모집단 사이에서 각 후보 지지율을 보다 정확하게 파악할 수 있도록, 특정 조사가 본 지표를 산출하는데 포함되기 위해서는 투표의향을 묻는 문항이 꼭 조사에 포함되어 있어야 하고, 어떤 후보를 지지하는지 묻는 문항의 교차통계표에, 앞서 투표의향을 묻는 질문의 응답에 따라 각 후보지지율이 따로 기재되어있어야 한다. 이 중 투표 의지를 표방한 응답자들 중에서도 적극적 투표 의지층(“반드시 투표 할 것이다”)으로 분류된 응답자들 사이에서의 각 후보지지율, 그리고 소극적 투표 의지층(“가능하면" 혹은 "가급적이면 투표 할 것이다”)에서의 후보지지율을 각각 뽑아서 투표 의향의 적극성에 따라 가중치를 다르게 부여해서 통합지지율을 산출한다. 다시 강조하자면, 통합지지율 지표를 산출할 때 사용되는 후비지지율은 각 조사에서 흔히 기사 제목으로 회자되는 전체 응답자 사이에서의 지지율이 아니라 투표의지층으로 분류된 응답자들 사이에서의 지지율을 사용한다.

가중치를 부여하는 기준

그렇다면 각 후보 지지율의 가중평균을 낼 때 어떻게 가중치를 부여하는 것이 합리적일까? 여기 제시하는 새로운 통합지지율 지표의 신뢰성을 확보하기 위해서는 투명하게 그 기준을 밝히고 설명할 필요가 있다. 다음 사항들을 고려하였다.

1. 조사일시

일정한 날짜를 기준으로 평균지지율을 계산할 때 그 날로부터 일정기간 (14일 혹은 10일)내의 모든 여론조사들을 포함시켰다 (단, 위에서 밝힌 여론조사 포함 조건을 충족시키는 조사에 한해서). 이들 중 최근 실시된 조사일 수록 그것에 비례해서 더 높은 가중치를 부여한다. 여러날에 걸친 조사의 경우에는 조사기간에 포함되는 모든 조사일의 가중치 값을 합산하여 해당 조사의 조사기간으로 나누어 평균을 낸 가중치를 부여한다.

2. 표본수/투표의지

조사 전체 표본수가 아닌 투표의향을 표방한 응답자로 표본수를 계산한다. 표본수가 높을 수록 그에 상응하는 더 높은 가중치를 부여한다. 이 중 위에서 언급한 것 같이 적극 투표 의지층과 소극 투표 의지층으로 구분하여 전자에 더 높은 가중치를 둔다.

3. 조사방법

ARS 방식보다 사람이 직접 전화를 걸어 인터뷰하는 면접 방식에 약간의 우위를 둔다. 그것은 ARS 방식은 실수로 입력하거나 빨리 질문을 넘기기 위해 아무 숫자나 누르는 응답자들로 인해 에러률(error rate)이 더 높을 수 있기 때문이다. 또한 여러 여론조사 전문가들이 ARS조사가 전화면접에 비해 무응답 편향에 영향을 더 많이 받는다는 여러가지 직간접적인 정황들이 있다고 하여 전화면접에 비해 ARS 조사의 가중치를 조사에 포함된 ARS 표본 비율에 따라 적게 부여한다.

4. 유선조사 vs. 무선조사

이번 대선에서 대부분의 조사기관이 휴대전화에 거는 방식으로 조사를 시행하는 휴대전화조사 의존률이 높다. 그에 따라 휴대전화로 조사에 응하는 집단이 표적 모집단과의 구성의 차이로 인해 휴대전화 조사결과의 편향(bias)이 생길 수 있다. 그러한 표본의 사각지대를 메우기 위해 조사결과에 유선조사로 조사된 집단이 포함될 경우 유선전화 조사의 비율에 따라 일정한 가중치를 부여한다.

통합지지율 그래프

위에서 제시한 가중치 부여 방식을 토대로 윤석열 후보가 국민의힘 대선 후보로 확정됐던 시점부터 여론조사 공표 금지기간이 시작되기 직전까지 통합지지율 추이를 보기 쉬운 그래프 형태로 이곳에서 제공할 예정이다. 마우스 커서를 그래프 위로 이동거나 손가락으로 그래프를 탭하면 날짜별로 각 후보의 정확한 통합지지율 수치를 볼 수 있다. 중앙선거여론조사심의위원회에 조사가 등록되어 공표됨에 따라 통합지지율이 수시로 업데이트 되기 때문에 같은 날 수치라도 여론조사 수가 늘어남에 따라 다소 변동이 있을 수 있다.

기준일(마우스 커서를 이동하거나 손가락으로 탭 했을 때 그래프 하단에 표시되는 날짜)로부터 과거 14일 혹은 과거 10일 여론조사들을 종합하여 산출한 두 가지 통합지지율 그래프가 제공된다. 과거 14일 조사로 산출한 그래프는 각 날짜별 통합지지율을 계산할 때 포함되는 여론조사 수가 많아서 더 많은 표본을 기반으로 산출 되었다는 장점을 갖는 대신에 최근 지지율 변화의 반영이 느릴 수 있다. 반면에 과거 10일 조사로 산출한 그래프는 최근 지지율 변화에 더 민감하게 반응하는 대신에 일부 편향된 조사에 의해 수치가 좌우될 소지가 있다. 이러한 점을 유의해서 결과를 해석하여야 할 것이다.


Follow 정치학자의 서잭