Wprowadzenie do analizy kanonicznej
Istnieje wiele miar korelacji wyrażających zależności między dwiema lub większą liczbą zmiennych. Na przykład, standardowy współczynnik korelacji Pearsona (r) mierzy stopień liniowego powiązania między dwiema zmiennymi. Jest wiele nieparametrycznych miar zależności, które są oparte na podobieństwie rang dwóch zmiennych. Rozdział Regresja wieloraka umożliwia badanie związków między zmienną zależną i zbiorem zmiennych niezależnych. Natomiast wielowymiarowa analiza korespondencji pomaga wyjaśniać współzależności występujące w zbiorze zmiennych jakościowych.
Korelacja kanoniczna to dodatkowa procedura szacowania związku między zmiennymi. W szczególności, analiza ta umożliwia badanie związku między dwoma zbiorami zmiennych. Na przykład, w badaniach pedagogicznych badacz może chcieć ocenić (jednoczesny) związek między trzema miarami zdolności uczenia się a pięcioma miarami powodzenia w nauce. Socjolog może interesować się związkiem między dwoma predyktorami ruchliwości społecznej uzyskanymi w wywiadach a faktyczną późniejszą ruchliwością społeczną mierzoną przy pomocy czterech innych wskaźników. W naukach medycznych można studiować związek różnych czynników ryzyka z powstawaniem pewnej grupy symptomów. We wszystkich tych przypadkach badacz jest zainteresowany związkiem między dwoma zbiorami zmiennych, do którego badania odpowiednią metodą analizy jest korelacja kanoniczna.
W poniższych tematach przedstawimy w skrócie główne pojęcia i statystyki występujące w analizie korelacji kanonicznej. Zakładamy, że Czytelnik zna współczynnik korelacji, który jest opisany w module Statystyki podstawowe i tabele oraz ogólne założenia regresji wielorakiej, które są opisane w module Regresja wieloraka .
| Indeks |
Metody obliczeniowe i wyniki
Omówimy teraz pewne kwestie obliczeniowe związane z korelacją kanoniczną oraz główne wyniki, które są zwykle podawane.
Wartości własne. Przy wyodrębnianiu pierwiastków kanonicznych oblicza się wartości własne. Można je interpretować jako proporcję wariancji wyjaśnianej przez korelację między odpowiednimi zmiennymi kanonicznymi. Zauważmy, że proporcję tę oblicza się w stosunku do wariancji zmiennych kanonicznych, to znaczy ważonych wartości sumarycznych dwóch zbiorów zmiennych; wartości własne nie mówią nam, jak duża zmienność jest wyjaśniania w którymś ze zbiorów zmiennych. Obliczamy tyle wartości własnych, ile jest pierwiastków kanonicznych, to znaczy tyle, ile wynosi minimalna liczba zmiennych w którymś z dwóch zbiorów.
Kolejne wartości własne będą coraz mniejsze. Najpierw obliczamy wagi, które maksymalizują korelację dwóch wartości sumarycznych. Po wyodrębnieniu pierwszego pierwiastka, znajdujemy wagi, które dają drugą największą korelację między wartościami sumarycznymi, z zastrzeżeniem, że następny zestaw wartości sumarycznych nie jest skorelowany z poprzednim i tak dalej.
Korelacje kanoniczne. Pierwiastki kwadratowe z wartości własnych interpretujemy jako współczynniki korelacji. Ponieważ korelacje te odnoszą się do zmiennych kanonicznych, nazywa się je korelacjami kanonicznymi. Podobnie jak wartości własne, korelacje między kolejno wyodrębnianymi zmiennymi kanonicznymi są coraz mniejsze. Dlatego jako ogólny wskaźnik korelacji kanonicznej między dwoma zbiorami zmiennych przyjęło się podawać największą korelację, to znaczy tę dla pierwszego pierwiastka. Niemniej jednak inne zmienne kanoniczne także mogą być skorelowane w sposób znaczący i dający się zinterpretować (patrz poniżej).
Istotność pierwiastków. Test istotności korelacji kanonicznych opiera się na prostej zasadzie. Testuje się pojedynczo różne korelacje kanoniczne, począwszy od największej. Do interpretacji zostawia się tylko te pierwiastki, które są istotne statystycznie. W rzeczywistości natura testu istotności jest nieco inna. Najpierw ocenia się istotność wszystkich pierwiastków łącznie, następnie pierwiastków pozostałych po usunięciu pierwszego pierwiastka, drugiego pierwiastka itd.
Niektórzy autorzy krytykowali tę sekwencyjną procedurę testowania istotności pierwiastków kanonicznych (np. Harris, 1976). Jednakże procedura ta została "zrehabilitowana" w późniejszym badaniu Monte Carlo przez Mendozę, Markosa i Gontera (1978).
Mówiąc w skrócie, wyniki tego badania wykazały, że ta procedura testowania wykrywa silne korelacje kanoniczne w większości przypadków, nawet przy stosunkowo małych próbach (np. n = 50). Do wykrycia w co najmniej 50% przypadków słabszych korelacji kanonicznych (np. R = .3) wymaga się większych prób (n > 200). Zauważmy, że mała korelacja kanoniczna wielkości mniejszej ma małą wartość praktyczną, ponieważ wyjaśniają bardzo mało faktycznej zmienności w danych. Poniżej omówimy w skrócie tę kwestię oraz problem wielkości próby.
Wagi kanoniczne. Po wyznaczeniu liczby istotnych pierwiastków kanonicznych, pojawia się pytanie, jak interpretować każdy (istotny) pierwiastek. Pamiętajmy, że każdy pierwiastek faktycznie reprezentuje dwie ważone sumy, po jednej dla każdego zbioru zmiennych. Jednym ze sposobów interpretacji znaczenia pierwiastka kanonicznego byłoby przyjrzenie się wagom dla każdego zbioru. Wagi te nazywa się wagami kanonicznymi.
Ogólnie, im większa waga (tzn. wartość bezwzględna wagi), tym większy dodatni lub ujemny wkład danej zmiennej do sumy. Aby ułatwić porównania między wagami, wagi kanoniczne podaje się zwykle dla zmiennych standaryzowanych, to znaczy dla zmiennych zo średniej 0 i odchyleniu standardowym 1.
Jeśli Czytelnik zna regresję wieloraką , to może interpretować wagi kanoniczne w taki sposób, jak interpretuje się wagi beta w równaniu regresji wielorakiej. W pewnym sensie reprezentują one korelacje cząstkowe zmiennych z danym pierwiastkiem kanonicznym. Jeśli Czytelnik zna analizę czynnikową , to może interpretować wagi kanoniczne w taki sposób, jak interpretuje się współczynniki wartości czynnikowych. Podsumowując, wagi kanoniczne pozwalają zrozumieć strukturę każdego pierwiastka kanonicznego, to znaczy umożliwiają zrozumienie, jaki jest swoisty wkład każdej zmiennej w każdym zbiorze do danej sumy ważonej (zmiennej kanonicznej).
Wartości kanoniczne. Wagi kanoniczne można także wykorzystać do obliczenia faktycznych wartości zmiennych kanonicznych; to znaczy, możemy po prostu użyć tych wag do obliczenia odpowiednich sum. I znów pamiętajmy, że wagi kanoniczne są zwyczajowo podawane dla zmiennych standaryzowanych (przekształconych przy pomocy transformacji z).
Struktura czynnikowa. Inny sposób interpretacji pierwiastków kanonicznych polega na obejrzeniu prostych korelacji między zmiennymi kanonicznymi (lub czynnikami) a zmiennymi w każdym zbiorze. Korelacje te nazywa się także ładunkami czynnikowymi. Rozumowanie opiera się tutaj na tym, że zmienne, które są wysoce skorelowane ze zmienną kanoniczną mają z nią więcej wspólnego. Dlatego powinniśmy kłaść na nie większy nacisk, gdy wyprowadzany znaczącą interpretację danej zmiennej kanonicznej. Ta metoda interpretacji zmiennych kanonicznych jest identyczna jak ta, którą się stosuje do interpretacji czynników w analizie czynnikowej.
Struktura czynnikowa a wagi kanoniczne. Czasami wagi kanoniczne dla zmiennej są bliskie zera, a odpowiedni ładunek dla tej zmiennej jest bardzo duży. Może się także pojawić odwrotny układ wyników. Z początku taki wynik może się wydać sprzeczny; pamiętajmy jednak, że wagi kanoniczne odpowiadają swoistemu wkładowi każdej zmiennej, podczas gdy kanoniczne ładunki czynnikowe reprezentują proste ogólne korelacje. Na przykład załóżmy, że w sondażu zadowolenia zamieściliśmy dwa pytania mierzące w istocie tę samą rzecz, mianowicie: (1) Czy jesteś zadowolony ze swoich przełożonych? oraz (2) Czy jesteś zadowolony ze swoich szefów? Oczywiście oba wskaźniki są bardzo redundantne. Gdy program oblicza wagi dla sum ważonych (zmiennych kanonicznych) w każdym zbiorze, tak aby były one maksymalnie skorelowane, to "potrzebuje" włączyć tylko jeden z tych wskaźników, aby objąć treść, którą one mierzą. Gdy pierwszemu wskaźnikowi zostanie przypisana duża waga, wkład drugiego wskaźnika jest redundantny; zatem otrzyma on zerową lub bardzo małą wagę kanoniczną. Niemniej jednak, jeśli przyjrzymy się prostym korelacjom między odpowiednią wartością sumaryczną, a tymi dwoma wskaźnikami (tzn. ładunkom czynnikowym), mogą być one znaczne w obu przypadkach. Powtórzmy: wagi kanoniczne odpowiadają swoistym wkładom odpowiednich zmiennych do określonej sumy ważonej lub zmiennej kanonicznej; kanoniczne ładunki czynnikowe odpowiadają ogólnej korelacji odpowiednich zmiennych ze zmienną kanoniczną.
Wariancja wyodrębniona. Jak pisaliśmy wcześniej, współczynnik korelacji kanonicznej odnosi się do korelacji między ważonymi sumami dwóch zbiorów zmiennych. Nic on nam nie mówi o tym, ile zmienności (wariancji) tych zmiennych wyjaśnia każdy pierwiastek kanoniczny. Możemy jednak wywnioskować proporcję wariancji wyodrębnionej przez dany pierwiastek z każdego zbioru zmiennych analizując kanoniczne ładunki czynnikowe. Pamiętajmy, że ładunki te reprezentują korelacje między zmiennymi kanonicznymi a zmiennymi w odpowiednim zbiorze zmiennych. Jeśli podniesiemy te korelacje do kwadratu, to liczby, które otrzymamy, odzwierciedlają proporcję wyjaśnionej wariancji każdej zmiennej. Dla każdego pierwiastka możemy wyciągnąć średnią tych proporcji po zmiennych, aby otrzymać wskazanie, ile wariancji wyjaśnia średnio dana zmienna kanoniczna w tym zbiorze zmiennych. Innymi słowy, możemy obliczyć w ten sposób średnią proporcję wariancji wyodrębnionej przez każdy pierwiastek.
Redundancje. Korelacje kanoniczne można podnieść do kwadratu, aby obliczyć proporcję wariancji wyjaśnianej przez wartości sumaryczne (zmienne kanoniczne) w każdym zbiorze. Jeśli pomnożymy tę proporcję przez proporcję wyodrębnionej wariancji, to otrzymamy miarę redundancji, to znaczy tego, na ile jest redundantny jeden zbiór zmiennych przy danym innym zbiorze zmiennych. W postaci równania można wyrazić redundancję jako:
Redundancjalewy = [
(ładunkilewy2)/p]*Rc2
Redundancjaprawy = [
(ładunkiprawy2)/q]*Rc2
W równaniach tych, p oznacza liczbę zmiennych w pierwszym (lewym) zbiorze zmiennych, a q oznacza liczbę zmiennych w drugim (prawym) zbiorze zmiennych; Rc2 to kwadrat odpowiedniej korelacji kanonicznej.
Zauważmy, że możemy obliczyć redundancję pierwszego (lewego) zbioru zmiennych przy danym drugim (prawym) zbiorze oraz redundancję drugiego (prawego) zbioru zmiennych przy danym pierwszym (lewym) zbiorze. Ponieważ kolejno wyodrębniane pierwiastki kanoniczne nie są skorelowane, to możemy zsumować redundancje po wszystkich (lub tylko pierwszych istotnych) pierwiastkach, aby otrzymać prosty indeks redundancji (jak zaproponowali Stewart i Love, 1968).
Istotność praktyczna. Miara redundancji przydaje się także do oszacowania praktycznej istotności pierwiastków kanonicznych. Przy dużych próbach (patrz poniżej), korelacje kanoniczne rzędu R = .30 mogą okazać się istotne statystycznie (patrz powyżej). Jeśli podniesiemy ten współczynnik do kwadratu (R-kwadrat = .09) i wprowadzimy go do równania redundancji pokazanego powyżej, to będzie jasne, że takie pierwiastki kanoniczne wyjaśniają jedynie niewielką część zmienności. Oczywiście ostateczna ocena, tego co stanowi, a co nie stanowi odkrycia o praktycznym znaczeniu ma charakter subiektywny. Aby jednak dokonać realnej oceny, ile wariancji (kolejnych zmiennych) wyjaśnia pierwiastek kanoniczny, należy pamiętać o mierze redundancji, to znaczy o tym, na ile faktyczna zmienność w jednym zbiorze zmiennych jest wyjaśniana przez drugi.
| Indeks |
Założenia
Poniższe rozważania stanowią zestawienie tylko najważniejszych założeń analizy korelacji kanonicznej i głównych zagrożeń dla rzetelności i trafności wyników.
Rozkłady. Testy istotności korelacji kanonicznych opierają się na założeniu, że rozkłady zmiennych w populacji (z której pobrano próbę) są wielowymiarowe normalne. Niewiele wiadomo o skutkach naruszenia założenia o wielowymiarowej normalności. Jednakże przy dostatecznie dużych próbach (patrz poniżej) wyniki analizy korelacji kanonicznej są zwykle całkiem odporne.
Wielkości prób. Stevens (1986) przeprowadził bardzo gruntowne rozważania na temat wielkości prób, których trzeba używać, aby otrzymać rzetelne wyniki. Jak wspomniano wcześniej, jeśli w danych występują silne korelacje kanoniczne (np. R > .7), to nawet przy małych próbach (np. I>n = 50) zostaną one w większości przypadków wykryte. Aby jednak otrzymać rzetelne oceny kanonicznych ładunków czynnikowych (do interpretacji), Stevens zaleca, by mieć co najmniej 20 razy więcej przypadków niż zmiennych w analizie, jeśli chcemy interpretować tylko najbardziej istotne pierwiastki kanoniczne. Aby otrzymać rzetelne oceny dla dwóch pierwiastków kanonicznych, Barcikowski i Stevens (1975) zalecają, w oparciu o badania bazujące na metodzie Monte Carlo, włączenie do analizy 40 do 60 razy więcej przypadków niż zmiennych.
Przypadki odstające. Przypadki odstające mogą poważnie wpływać na wielkości współczynników korelacji. Ponieważ analiza korelacji kanonicznej jest oparta na współczynnikach korelacji, więc mogą one także poważnie wpływać na korelacje kanoniczne. Oczywiście im większa liczność próby, tym mniejszy wpływ jednego lub dwóch przypadków odstających. Warto jednak prześledzić rozmaite wykresy rozrzutu, aby wykryć potencjalne przypadki odstające (jak np. pokazano na poniższej animacji).

Patrz także elipsa obszaru ufności .
Złe uwarunkowanie macierzy. Jedno z założeń mówi, że zmienne w dwóch zbiorach nie powinny być zupełnie redundantne, tzn. powinny one być w dużym stopniu od siebie niezależne. Na przykład, jeśli włączyliśmy do któregoś zbioru tę samą zmienną dwa razy, to nie jest jasne, jak przypisać każdej z nich różne wagi. W sensie obliczeniowym takie zupełne redundancje rozstroją analizę korelacji kanonicznej. Jeśli w macierzy korelacji występują doskonałe korelacje lub jeśli któraś z wielokrotnych korelacji między jedną zmienną, a innymi jest doskonała (R = 1.0), to macierzy korelacji nie można odwrócić i nie można wykonać analizy kanonicznej. Takie macierze korelacji nazywa się źle uwarunkowanymi.
Założenie o niezależności jest często bliskie naruszenia (tzn. współczynnik korelacji wielokrotnej jednej ze zmiennych z innymi jest "bliski" 1) gdy analiza obejmuje bardzo dużo wysoce redundantnych pomiarów, co często ma miejsce w analizie odpowiedzi kwestionariuszowych.
| Indeks |
Ogólne idee
Wyobraźmy sobie, że prowadzimy badania, w których mierzymy zadowolenie z pracy przy pomocy trzech pytań kwestionariuszowych oraz zadowolenie w różnych innych dziedzinach życia przy pomocy siedmiu innych pytań. Pytanie ogólne, na które chcemy odpowiedzieć, brzmi, jaki jest związek zadowolenia z pracy z zadowoleniem w innych dziedzinach.
Wartości sumaryczne
Pierwsze podejście, które moglibyśmy zastosować, polegałoby na dodaniu odpowiedzi na pytania o zadowolenie z pracy i skorelowaniu tej sumy z odpowiedziami na wszystkie inne pytania dotyczące zadowolenia. Jeśli korelacja między tymi dwoma sumami byłaby istotna statystycznie, powiedzielibyśmy, że zadowolenie z pracy jest związane z zadowoleniem w innych dziedzinach.
W gruncie rzeczy jest to raczej "zgrubny" wniosek. Nadal nic nie wiemy na temat poszczególnych dziedzin zadowolenia, które są związane z zadowoleniem w pracy. W istocie, przez zwykłe dodanie wskaźników mogliśmy utracić ważne informacje. Na przykład, wyobraźmy sobie, że mieliśmy dwa pytania, jedno mierzące zadowolenie ze związku z współmałżonkiem, a drugie mierzące zadowolenie z sytuacji finansowej. Dodawanie ich do siebie przypomina oczywiście dodawanie "jabłek do pomarańczy." Oznacza bowiem, że osoba, która jest niezadowolona z sytuacji finansowej, ale szczęśliwa w małżeństwie, może być zrównana z osobą, która jest zadowolona z sytuacji finansowej, ale niezadowolona z małżeństwa. Struktura psychologiczna ludzi nie jest chyba tak prosta...
Problem prostego korelowania dwóch sum polega więc na tym, że można w jego toku "stracić" ważne informacje, a także, w najgorszym razie, dodając "jabłek do pomarańczy.", można faktycznie pominąć ważne związki między zmiennymi.
Wykorzystanie sum ważonych. Zamiast tego, sensowne wydaje się korelowanie pewnego rodzaju sum, tak aby "struktura" zmiennych w dwóch zbiorach była odzwierciedlona poprzez wagi. Na przykład, jeśli zadowolenie z małżonka jest tylko marginalnie związane z zadowoleniem z pracy, ale zadowolenie z sytuacji finansowej jest silnie związane z zadowoleniem z pracy, to moglibyśmy przypisać mniejszą wagę pierwszemu czynnikowi, a większą wagę drugiemu czynnikowi. Ideę tę możemy wyrazić przy pomocy następującego równania:
a1*y1 + a2*y2 + ... + ap*yp = b1*x1 + b2*x2 + ... + bq*xq
Jeśli mamy dwa zbiory zmiennych, pierwszy zawierający p zmiennych, a drugi zawierający q zmiennych, to chcielibyśmy skorelować ze sobą ważone sumy po każdej stronie równania.
Przypisanie wag. Sformułowaliśmy właśnie ogólne "równanie modelu" dla korelacji kanonicznej. Pozostał tylko problem, jak określić wagi dla dwóch zbiorów zmiennych. Mało sensowne wydaje się przypisanie wag, tak aby rozpatrywane dwie sumy ważone nie korelowały ze sobą. Rozsądnym podejściem wydaje się narzucenie warunku, że dwie sumy ważone muszą być ze sobą maksymalnie skorelowane. Dokładnie na tym polega analiza kanoniczna w oparciu o łączną macierz korelacji wszystkich zmiennych.
| Indeks |
Pierwiastki i zmienne kanoniczne
W terminologii analizy korelacji kanonicznej, sumy ważone definiują pierwiastek lub zmienną kanoniczną. Możemy przyjąć, że zmienne kanoniczne (ważone sumy) opisują pewne zmienne "ukryte". Na przykład, jeśli dla zbioru rozmaitych wskaźników zadowolenia uzyskaliśmy sumę ważoną cechującą się dużymi wagami dla wszystkich wskaźników związanych z pracą, moglibyśmy wnioskować, że odpowiednia zmienna kanoniczna mierzy zadowolenie z pracy.
Liczba pierwiastków
Do tej pory przyjmowaliśmy, że jest tylko jeden zbiór wag (sum ważonych), który może zostać wyprowadzony z rozważanych dwóch zbiorów zmiennych. Wyobraźmy sobie jednak, że wśród wskaźników zadowolenia z pracy mieliśmy szczegółowe pytania dotyczące zadowolenia z wynagrodzenia i pytania odnoszące się do zadowolenia ze stosunków społecznych z innymi pracownikami. Możliwe jest, że wskaźniki zadowolenia z wynagrodzenia są skorelowane z zadowoleniem z własnej sytuacji finansowej oraz że wskaźniki zadowolenia ze stosunków społecznych są skorelowane z deklarowanym zadowoleniem z małżonka. Jeśli tak, to aby oddać "złożoność" struktury zadowolenia, faktycznie powinniśmy wyodrębnić dwie sumy ważone.
Istotnie, obliczenia dotyczące analizy korelacji kanonicznej doprowadzą do więcej niż jednego zbioru sum ważonych. Mówiąc ściśle, liczba wyodrębnionych pierwiastków będzie równa minimalnej liczbie zmiennych w którymś ze zbiorów. Na przykład, jeśli mamy trzy wskaźniki zadowolenia z pracy i siedem wskaźników ogólnego zadowolenia, to wyodrębnione zostaną dokładnie trzy pierwiastki kanoniczne.
Wyodrębnianie pierwiastków
Jak wspomniano wcześniej, program będzie wyodrębniał pierwiastki w ten sposób, aby wynikowa korelacja między zmiennymi kanonicznymi była maksymalna. Jeśli pierwiastków będzie więcej niż jeden, to każdy następny pierwiastek będzie wyjaśniał dodatkową swoistą część zmienności w dwóch zbiorach zmiennych. Zatem kolejno wyodrębniane pierwiastki kanoniczne będą ze sobą nieskorelowane i będą wyjaśniać coraz to mniejszą zmienność.
| Indeks |
