ANALIZA I RUNDY WYBORÓW PREZYDENCKICH 2010 i PROGNOZA WYNIKÓW II RUNDY(opublikowano 29.06.2010, przed II rundą)

Poniżej przedstawiono analizę wyników pierwszej rundy wyborów prezydenckich przeprowadzoną za pomocą metod i narzędzi dostępnych w pakiecie STATISTICA. Wszystkie analizy były wykonane tylko na podstawie danych z poniższej tabeli, czyli wyników I rundy wyborów prezydenckich, podanych przez Państwową Komisje Wyborczą (wg stanu na dzień 22 czerwca 2010 r.).



 


Macierz korelacji potrzebna jest do wyliczenia „odległości” między kandydatami. Korelacje oznaczone na czerwono są istotne statystycznie, czyli nie mogą być uznane za przypadkowe. Zwraca uwagę bardzo wysoki ujemny współczynnik korelacji pomiędzy dwoma głównymi kandydatami: -0,966. Podobna polaryzacja miała miejsce w wyborach prezydenckich w 1993 roku. Współczynnik korelacji pomiędzy Wałęsą a Kwaśniewskim wyniósł po pierwszej rundzie -0,92. Dodatnie współczynniki korelacji sugerują kierunek głównego przepływu głosów od kandydatów, którzy odpadli – do dwóch, którzy pozostali.


Macierz korelacji przekształcono w macierz odległości znormalizowanych według wzoru d=(1-r)/2. Taka odległość przyjmuje wartości z przedziału [0;1].

 


Macierz odległości wyliczona z macierzy korelacji obrazuje odległości między kandydatami w 16-wymiarowej przestrzeni województw. Macierz ta jest informacją wejściową do Skalowania Wielowymiarowego. Metoda ta rozmieszcza obiekty (kandydatów) na płaszczyźnie tak, aby jak najwierniej oddać odległości liczone w oryginalnej przestrzeni województw. Współrzędne punktów na diagramie otrzymanym w wyniku skalowania wielowymiarowego nie mają zadanej interpretacji. W badaniach dotyczących realiów wyborczych Polski wielokrotnie potwierdzono jednak, że dwoma podstawowymi wymiarami są: wymiar ideologiczny oraz wymiar urbanizacyjny (patrz: Pietrzyk-Zieniewicz i in. (1996, 1998), Sokołowski (1996, 2002, 2005)).


Układ punktów-kandydatów na diagramie otrzymanym ze skalowania wielowymiarowego pozwala na sformułowanie prognozy na II turę wyborów prezydenckich. Prognozy, która sprawdzi się o ile przez dwa tygodnie pomiędzy I i II rundą wyborów nic istotnego się nie zdarzy i nie nastąpią istotne zmiany preferencji wyborczych oraz frekwencji w poszczególnych grupach wyborców. Założenia są następujące:

  • Ci, którzy głosowali na Komorowskiego i Kaczyńskiego w I rundzie, zagłosują również na nich w drugiej rundzie.
  • Elektorat Kaczyńskiego okaże się bardziej „karny” i do drugiej rundy pójdzie 97,5% jego zwolenników z I rundy. W przypadku Komorowskiego będzie to 95%.
  • Połowa z tych wyborców, którzy głosowali na kandydatów, którzy odpadli w I rundzie, nie weźmie udziału w II rundzie.
  • Głosy pozostałej połowy rozdzielą się na dwóch kandydatów odwrotnie proporcjonalnie do kwadratu odległości na diagramie ze skalowania wielowymiarowego.

Wynik takiego postępowania daje prognozę na II rundę wyborów: KOMOROWSKI – 53,96%, KACZYŃSKI – 46,04%.

W dalszej części pokazano kilka analiz dotyczących wyników I rundy. Poniższa tabela zawiera współczynniki korelacji wyników poszczególnych kandydatów z frekwencją wyborczą. Jest tylko jedna istotna korelacja. Jest ona ujemna. Andrzej Lepper stracił na relatywnie wysokiej frekwencji, bo jego nieliczny „żelazny” elektorat bardziej rozmywa się w lepszej frekwencji .


Ten brak związku z frekwencją widać na dwóch następnych rysunkach dotyczących głównych kandydatów. Dopasowane parabole nie są istotne statystycznie. Te rysunki są bardzo podobne. Są jak lustrzane odbicie – to kolejne potwierdzenie wysokiej korelacji ujemnej.



Na podstawie wyników wyborów można wnioskować o podobieństwie postrzegania kandydatów. Zastosowano taksonomiczną metodę Warda i otrzymano dendrogram pokazany na kolejnym rysunku.


Rozsądnym wydaje się podział dendrogramu na poziomie 1,2 (jest to tzw. odległość aglomeracyjna). Otrzymujemy cztery grupy kandydatów, którym nadamy raczej orientacyjne etykiety: „Prawicowi” – Jurek i Korwin-Mikke, „Wiejscy” – Kaczyński, Pawlak (tu nazwa jest niewątpliwie pewnym nadużyciem w stosunku do Kaczyńskiego), „Miejscy” – Komorowski, Olechowski, Morawiecki (ten ostatni trochę na doczepkę), „Lewicowi” – Lepper, Napieralski, Ziętek.

Ciekawe spostrzeżenia przynosi diagram korelacyjny pokazujący rozkład województw według głosów oddanych na głównych kandydatów. Oszacowana funkcja regresji liniowej ma współczynnik regresji mniejszy od jedności. Oznacza to, że każdy procent głosów oddanych na Komorowskiego więcej trochę „ciągnął” za sobą przyrost głosów na innych kandydatów i w efekcie Kaczyński tracił 1,03% głosów


 

Kolejny diagram korelacyjny zawiera te same punkty, lecz przez jego środek (po przekątnej) przeprowadzono linie równomiernego podziału głosów oddanych na Kaczyńskiego i Komorowskiego. W województwach leżących „pod tą kreską” przewagę uzyskał Komorowski, a „nad kreską” – Kaczyński. Po obydwu stronach możemy wyróżnić po dwie grupy województw – ze słabszym i mocniejszym poparciem. Wydaje się, że Komorowski utrzyma przewagę w „swoich” województwach, ale też ma szansę przeciągnąć na swoją stronę województwa mazowieckie i łódzkie.

Występowanie zróżnicowań terytorialnych potwierdza dendrogram z metody Warda, zastosowanej tym razem do województw rozpatrywanych w przestrzeni kandydatów.


Wyniki jednoczynnikowej analizy wariancji pokazują, że zróżnicowanie terytorialne zostało spowodowane rozkładem głosów oddanych na Komorowskiego, Kaczyńskiego, Pawlaka i (raczej też) Olechowskiego. W następnej tabeli przedstawiono średnie procentu głosów w grupach województw.


Kolorem zielonym zaznaczono największe wartości (w kolumnach), a różowym najmniejsze. Pozwala to zwrócić uwagę na szczególne znaczenie poszczególnych regionów dla rozpatrywanych kandydatów.

Grupa 1: Dolnośląskie, Śląskie, Kujawsko-pomorskie, Warmińsko-mazurskie, Wielkopolskie (najlepsza grupa dla Napieralskiego).

Grupa 2: Lubuskie, Zachodniopomorskie, Opolskie, Pomorskie (tu Komorowski uzyskał ponad 50%, najlepsza grupa dla Olechowskiego).

Grupa 3: Lubelskie, Podkarpackie, Świętokrzyskie (zdecydowana przewaga Kaczyńskiego, najlepsza grupa dla Pawlaka).

Grupa 4: Łódzkie, Mazowieckie, Małopolskie, Podlaskie (najgorsza dla Napieralskiego).


LITERATURA

Pietrzyk-Zieniewicz E., Sokołowski A. (1996) ,„Scena polityczna w oczach wyborców – wybory parlamentarne 1993”, w: Studia Politologiczne, vol. 1, „Trudna sztuka polityki – szanse, ryzyko, błąd”, (red. Klementewicz T.), Instytut Nauk Politycznych Uniwersytetu Warszawskiego, Dom Wydawniczy Elipsa, Warszawa 1996, 139-155.

Pietrzyk-Zieniewicz E., Sokołowski A., Zieniewicz A. (1998) Jak Polak z Polakiem …., Ciechanów: Krajowy Ośrodek Dokumentacji Regionalnych Towarzystw Kultury, s.132.

Sokołowski A. (1996), „Unemployment and Presidential Election in Poland 1995” w: Statistical Methods of the Analysis of Socio-Economic Aspects of Labour Market in Poland and Slovakia. Kraków: Akademia Ekonomiczna, 49-51.

Sokołowski A. (2002), „Polska scena polityczna 2001 – wyniki wyborów parlamentarnych”, Prace Naukowe Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, Nr 942, Taksonomia 9. Klasyfikacja i analiza danych – teoria i zastosowania. (Jajuga K., Walesiak M., pod red.), Wrocław, 417-419.

Sokołowski A. (2005), „Analiza wyników wyborów w III RP”, w: „Przegląd programów z rodziny STATISTICA”, StatSoft Polska, Warszawa – Kraków, 57-66.

StatSoft, Inc. (2009). STATISTICA PL (systemy analizy danych i data mining), wersja 9.0. www.statsoft.pl.

 

Warto przeczytać: