예측치 생성에 사용된 가정들
여론조사
가정 1. 본 분석은 여론조사 공표 금지 기간 직전 3일간 전국을 대상으로 실시한 여론조사들의 수치들을 출발점으로 삼는다.
분석에 사용된 여론조사는 4월 1일에서 4월 3일 사이에 실시된 것들로 가정 2에서 더 자세히 다루듯이 투표 의지를 물어보는 문항을 포함하는 조사들에만 국한되었다.
가정 2. 분석에서 여론조사 수치를 활용할 경우 전체 응답자가 아닌 투표 의지층이 응답한 수치들을 기초로 분석을 진행한다.
투표의지층이란 "반드시", 혹은 "꼭" 투표 하겠다고 응답한 응답자들의 집합인 적극 투표층과, "가능하면", 혹은 "아마도" 투표하겠다고 응답한 응답자들의 집합인 소극 투표층의 총합이다. 투표의지층만 따로 떼어내서 보는 이유는 여론조사의 모집단이 되는 대한민국에 거주하는 만18세 이상의 유권자와 선거에서 관심의 대상이 되는 표적 집단인 투표자들의 모집단이 다른 점을 감안하기 위해서이다. 이 밖에도 여론조사의 품질과 표본수 등을 반영하기 위해 개별 조사의 수치들에 미리 정한 가중치들을 부여하여 가중평균을 낸 통합수치를 분석의 기준 수치로 사용하였다. 가중치들에 대한 더 자세한 설명은 다음 페이지 참조 (바로가기).
무응답 편향
가정 3. 무응답 편향 여부와 편향의 방향과 정도를 추측하기 위해 재질문을 하는 여론조사와 그렇지 않는 조사간에 각 정당에 대한 지지 의사의 차이를 살펴보고 편향이 예상되는 경우에 이를 반영하여 수치를 조정한다.
무응답 편향 혹은 비대칭적 응답 편향은 근본적으로 일어나지 않은 사건 (무응답)을 그 대상으로 하기 때문에 사후 측정이 원천적으로 불가능하다. 다만 가정에서 말한 방법으로 그것의 존재 여부와 크기를 합리적으로 추론해 볼 수는 있다. 재질문이란 가령 비례대표 투표에서 지지하는 정당을 물었을 때 "잘모르겠다"거나 "없다"라고 대답하는 응답자들에게만, 그래도 고르라고 한다면 어느 정당에게 투표하겠는가라고 재차 물어보는 조사 행태를 말한다. 이러한 기준으로 살펴보았을 때 국민의 힘/국민의 미래 수치들에서 무응답 편향이 의심되어서 지역구와 비례대표에서 각각 평균 +1.9%, +1.2%만큼 더한 수치를 기준 수치로 사용하였다. 아래 말하는 불확실성에 관한 가정에서 더 다루겠지만, 10000번의 선거 시뮬레이션 중 개별 시뮬레이션에 따라 무응답 편향 크기는 평균치를 중심으로 더 크거나 작게 조정 됐을 수 있다.
부동층
가정 4. 부동층의 10%는 여론조사 수치상 군소정당 (개혁신당, 녹색정의당, 새로운 미래)에게 우선적으로 배분한다. 가정 1에서 여론조사 수치들 상 군소정당들 간의 비율에 따라 배분한다.
부동층 배분에 대한 가정은 지난 대선 때와는 달리 최대한 간소화하였다. 추세에 대한 가정 또한 정확하게 가늠하기 어려운 언론 환경이어서 이번 예측에서 제외하였다. 양대 정당 사이의 긴장과 결집이 그 어느때보다 강력한 때에 부동층 중 군소정당에게 흘러들어가는 비율은 제한적일 수 밖에 없을 것이라고 판단하여 위와 같은 가정을 도입하였다.
가정 5. 나머지 90%의 부동층은 평균 여권 45:야권 55의 비율로 기존 수치에 더하여 배분한다.
이는 여론조사상 정권지원론:정권심판론의 대략적 비율을 반영한 것이다. 지역구에서는 국민의힘:더불어민주당이 위의 비율대로 나머지 부동층을 배분받고, 비례대표에서는 국민의미래:야권양대정당(더불어민주연합+조국혁신당)이 우선 위 비율대로 부동층을 배당을 받고, 야권 정당 간에는 군소정당의 경우와 마찬가지로 여론조사 수치 상 두 정당간의 비율에 따라 그것을 배분한다 (민주당의 조국혁신당 추격은 없다고 가정한다).
투표율
가정 6. 여론조사 상에서 적극투표층과 소극투표층으로 응답한 비율을 기반으로 각 층에 있는 유권자들이 투표할 확률의 범위를 다르게 상정해서 무작위 추출을 통해 두 계층의 투표율을 산정한다.
이에 대한 직관적인 이해를 돕기 위해 전체투표율 예측 그래프에 커서를 올려 놓으면 투표율에 따라 적극/소극투표층의 투표율이 각기 어떻게 달라지는지 확인 할 수 있다.
불확실성
가정 7. 위 가정들에서 언급된 수치 중 여론조사 데이터로 산출한 것이 있다면, 표본오차와 그것을 둘러싼 불확실성을 감안하면서도, 혹시 누락하는 요인이 있을 가능성을 대비해 원래 수치의 1.5배로 오차범위를 넉넉하게 잡는다.
이렇게 해서 각각의 수치를 그것에 알맞는 정규분포에서 10,000번의 무작위 추출하여 10,000번의 총선 시뮬레이션을 도출한다.