© Copyright StatSoft, Inc., 1984-2024
Przeszukaj Internetowy Podręcznik Statystyki
Analiza log-liniowa tabel liczności


Ogólny cel

Jedną z podstawowych metod analizy danych jest badanie tabel krzyżowych. Na przykład, w badaniach medycznych można tworzyć tabele liczności ujmujące występowanie różnych symptomów w różnych grupach wiekowych czy według płci pacjentów; w badaniach pedagogicznych można tworzyć tabele liczby absolwentów szkół średnich ze względu na wiek, płeć, narodowość; ekonomista może zestawiać w tabeli krzyżowej liczbę bankructw ze względu na gałęzie przemysłu, regiony i kapitał zakładowy; badacz rynku może tworzyć tabele preferencji konsumenckich ze względu na rodzaj produktu, wiek, płeć itd. We wszystkich tych przypadkach podstawowe wyniki mogą być zestawione w wielodzielczej tabeli liczności, to znaczy tabeli krzyżowej z dwoma lub więcej czynnikami.

Analiza log-liniowa to bardziej "wyrafinowany" sposób patrzenia na tabele krzyżowe. W szczególności możemy testować istotność statystyczną (patrz Podstawowe pojęcia statystyki , gdzie znajduje się dyskusja na temat testowania istotności statystycznej) wpływu różnych czynników, które zostały ujęte w tabeli krzyżowej (np. płeć, region itd.) i ich interakcji . Poniższy tekst zawiera krótkie wprowadzenie do tych metod, ich logiki i interpretacji.

Analiza korespondencji jest techniką opisową i eksploracyjną zaprojektowaną dla tabel dwu- i wielodzielczych zawierających pewne miary korespondencji między wierszami i kolumnami. Wyniki dostarczają informacji podobnych do tych, które dają techniki analizy czynnikowej i pozwalają one badać strukturę zmiennych jakościowych ujętych w tabeli.

Indeks

Dwudzielcze tabele liczności

Zaczniemy od najprostszej możliwej tabeli krzyżowej tj. tabeli 2 na 2. Wyobraźmy sobie, że jesteśmy zainteresowani zależnością między wiekiem a siwieniem włosów. Pobraliśmy próbę 100 osób i ustaliliśmy kto ma, a kto nie ma siwych włosów. Zanotowaliśmy także przybliżony wiek osób. Wyniki tego badania możemy zestawić w następujący sposób:

Siwe
włosy
WiekOgółem
Poniżej  4040 lub więcej
Nie
Tak
40
20
  5
35
45
55
Ogółem6040100

Interpretując wyniki naszego małego badania, wprowadzimy terminologię, która ułatwi nam przejście do tabel bardziej złożonych.

Zmienne objaśniające i objaśniane. W regresji wielorakiej (patrz regresja wieloraka ) lub analizie wariancji (ANOVA/MANOVA ) rozróżnia się zwyczajowo zmienne niezależne i zależne. Zmienne zależne to te, które staramy się wyjaśnić, to znaczy te, o których zakładamy, że zależą od zmiennych niezależnych. Zatem czynniki w tabeli 2 na 2 możemy sklasyfikować następująco: kolor włosów (siwy, nie siwy) możemy potraktować jako zmienną zależną, a wiek jako zmienną niezależną. W przypadku tabel liczności używa się także alternatywnych terminów -- odpowiednio: zmienne objaśniane (odpowiedzi) i zmienne objaśniające (układu). Zmienne objaśniane to te, które ulegają zmianie w reakcji na zmienne objaśniające. W przykładowej tabeli powyżej możemy zatem potraktować kolor włosów jako zmienną objaśnianą, a wiek jako zmienną objaśniającą.

Dopasowanie liczności brzegowych. Przejdźmy do analizy naszej przykładowej tabeli. Moglibyśmy zadać pytanie, jak wyglądałyby liczności, gdyby pomiędzy zmiennymi nie było żadnej zależności (hipoteza zerowa). Nie wchodząc w szczegóły, można intuicyjnie oczekiwać, że liczności w poszczególnych komórkach proporcjonalnie odzwierciedlałyby liczności brzegowe (Ogółem). Rozważmy, na przykład, następującą tabelę:

Siwe
włosy
WiekOgółem
Poniżej 4040 lub więcej
Nie
Tak
27
33
18
22
45
55
Ogółem6040100

W tabeli tej proporcje liczności brzegowych znajdują odzwierciedlenie w poszczególnych komórkach. Stąd: 27/33=18/22=45/55 i 27/18=33/22=60/40. Liczności brzegowe odpowiadają licznościom komórek, których oczekiwalibyśmy, gdyby nie było żadnej zależności między wiekiem a siwieniem. Jeśli porównamy tę tabelę z poprzednią, zauważmy, że poprzednia odzwierciedla zależność między naszymi dwoma zmiennymi: jest więcej niż należałoby oczekiwać (na podstawie hipotezy zerowej) przypadków poniżej 40 lat bez siwych włosów i więcej przypadków powyżej 40 lat z siwymi włosami.

Przykład ten ilustruje ogólną zasadę, na której opiera się analiza log-liniowa: mając sumaryczne liczności brzegowe dla dwóch (lub więcej) czynników możemy obliczyć liczności komórek, których należałoby oczekiwać, gdyby nie było zależności między tymi dwoma (lub więcej) czynnikami. Istotne odchylenia liczności obserwowanych od liczności oczekiwanych wskazują na istnienie zależności między dwoma (lub więcej) zmiennymi.

Podejście stosowane przy dopasowaniu modelu. Sformułujmy problem tabeli 2 na 2 w jeszcze inny sposób. Możemy powiedzieć, że dopasowanie modelu dla dwóch zmiennych, które nie są powiązane (wiek i kolor włosów), jest równoznaczne z obliczeniem liczności komórek tabeli na podstawie odpowiednich liczności brzegowych (sumarycznych). Istotne odchylenia tabeli liczności obserwowanych od liczności dopasowanych odzwierciedlają brak dopasowania modelu niezależności (między dwoma zmiennymi). W takim przypadku odrzucilibyśmy ten model, przyjęlibyśmy natomiast model, który dopuszcza zależność lub związek między wiekiem i kolorem włosów.

Indeks

Wielodzielcze tabele liczności

Rozumowanie zastosowane do analizy tabel 2 na 2 może być uogólnione na tabele bardziej złożone. Na przykład załóżmy, że w naszym studium uwzględnimy trzecią zmienną, mianowicie to, czy jednostki w naszej próbie są narażone na stres w pracy. Ponieważ interesuje nas wpływ stresu na siwienie, potraktujemy stres jako następną zmienną objaśniającą. (Zauważmy, że gdyby nasze studium było nastawione na badanie wpływu siwych włosów na powstawanie stresu, zmienna stres byłaby zmienną objaśnianą, a kolor włosów zmienną objaśniającą). W efekcie otrzymamy trójdzielczą tabelę liczności.

Dopasowanie modeli. Do analizy tej tabeli możemy zastosować nasze poprzednie rozumowanie. W szczególności możemy dopasowywać różne modele, które odzwierciedlają różne hipotezy na temat danych. Na przykład, możemy na początek zastosować model, który zakłada niezależność między wszystkimi czynnikami. Tak jak poprzednio, oczekiwane liczności będą odzwierciedlały odpowiednie liczności brzegowe. Jeśli pojawią się jakieś istotne odchylenia, odrzucimy dany model.

Efekty interakcyjne. Inny możliwy do sprawdzenia model polegałby na założeniu, że i wiek, i stres są związane z kolorem włosów, ale nie ma interakcji między wpływami obu czynników (wieku i stresu). W tym przypadku należałoby jednocześnie dopasować liczności brzegowe dla tabeli dwudzielczej wieku z kolorem włosów zredukowanej o wymiar stresu i dla tabeli dwudzielczej stresu i koloru włosów zredukowanej o wymiar wieku. Jeśli ten model nie pasowałby do danych, uznalibyśmy, że wiek, stres i kolor włosów są wszystkie wzajemnie powiązane. Mówiąc inaczej, wyciągnęlibyśmy wniosek, że istnieje interakcja wieku i stresu w oddziaływaniu tych zmiennych na siwienie.

Stosowane tutaj pojęcie interakcji jest analogiczne do tego używanego w analizie wariancji (ANOVA /MANOVA ). Na przykład, interakcja wieku i stresu może być interpretowana w ten sposób, że wpływ wieku na kolor włosów jest modyfikowany przez stres. O ile sam wiek powoduje tylko niewielkie siwienie, to wpływ wieku jest silny w obecności stresu. Innymi słowy, wpływy wieku i stresu na siwienie nie są addytywne, ale interakcyjne.

Jeśli pojęcie interakcji nie jest czytelnikowi znane, polecamy przeczytanie Wprowadzenia do rozdziału ANOVA/MANOVA. . Interpretacja wyników analizy log-liniowej wielodzielczej tabeli liczności jest w wielu punktach bardzo podobna do analizy wariancji.

Iteracyjne dopasowanie proporcjonalne. Obliczanie liczności oczekiwanych staje się skomplikowane, gdy tabela zawiera więcej niż dwa czynniki. Jednak mogą one być obliczone i dlatego łatwo możemy zastosować do tabel złożonych rozumowanie zastosowane przy tabelach 2 na 2. Popularną metodą obliczania liczności oczekiwanych jest tak zwana procedura iteracyjnego dopasowania proporcjonalnego.

Model log-liniowy

Termin log-liniowy bierze się stąd, że poprzez transformacje logarytmiczne można przedefiniować problem analizy wielodzielczych tabel liczności w kategoriach bardzo podobnych do analizy wariancji (ANOVA). W szczególności, można wyobrazić sobie wielodzielczą tabelę liczności jako odzwierciedlenie głównych efektów i efektów interakcyjnych, które dodają się do siebie w sposób liniowy tworząc tabelę liczności obserwowanych. Bishop, Fienberg i Holland (1974) wyjaśniają, jak wyprowadzić równania log-liniowe wyrażające związek między czynnikami w wielodzielczej tabeli liczności.

Dobroć dopasowania

Do tej pory odwoływaliśmy się wielokrotnie do "istotności" odchyleń liczności obserwowanych od liczności oczekiwanych. Istotność statystyczną dobroci dopasowania konkretnego modelu można ocenić przy pomocy testu chi-kwadrat . Możemy obliczyć dwa rodzaje statystyk chi-kwadrat, tradycyjny chi-kwadrat Pearsona oraz statystyka chi-kwadrat największej wiarygodności (termin iloraz wiarygodności został wprowadzony przez Neymana i E. Pearsona; 1931, natomiast termin największa wiarygodność został po raz pierwszy użyty przez Fishera; 1922a). W praktyce interpretacja i wielkości obu statystyk chi-kwadrat są zasadniczo identyczne. Oba testy służą do oceny, czy oczekiwane liczności komórek, zgodnie z odpowiednim modelem, są istotnie różne od liczności obserwowanych. Jeśli tak, dany model dla tabeli jest odrzucany.

Przeglądanie i tworzenie wykresów liczności resztowych. Po wybraniu modelu dla tabeli liczności obserwowanych, zawsze warto zbadać liczności resztowe, to znaczy liczności obserwowane minus liczności oczekiwane. Jeśli model jest odpowiedni dla danej tabeli, to wszystkie liczności resztowe powinny stanowić "losowy szum", to znaczy powinny składać się z dodatnich i ujemnych wartości o w przybliżeniu jednakowej wielkości, które rozkładają się równomiernie w obrębie tabeli.

Istotność statystyczna efektów. Wielkości statystyk chi-kwadrat dla modeli, które są wzajemnie hierarchicznie powiązane mogą być porównywane bezpośrednio. Na przykład, jeśli najpierw dopasujemy model z interakcją wieku z kolorem włosów i interakcją stresu z kolorem włosów, a następnie dopasujemy model z interakcją (trzeciego rzędu) wieku ze stresem z kolorem włosów, to drugi model będzie nadzbiorem modelu poprzedniego. Możemy ocenić różnicę w wielkości statystyk chi-kwadrat w oparciu o różnicę w liczbie stopni swobody; jeśli różnicowa statystyka chi-kwadrat jest istotna, to możemy stwierdzić, że model z interakcją trzeciego rzędu jest istotnie lepszym dopasowaniem do tabeli liczności obserwowanych niż model bez tej interakcji. Zatem interakcja trzeciego rzędu jest istotna statystycznie.

Ogólnie, dwa modele są hierarchicznie wzajemnie powiązane, jeśli jeden można utworzyć z drugiego albo przez dodanie składników (zmiennych lub interakcji ), albo usunięcie składników (ale nie jedno i drugie równocześnie).

Automatyczne dopasowanie modelu

Podczas analizy tabel czterodzielczych i tabel wyższego rzędu poszukiwanie najlepiej pasującego modelu może stać się skomplikowanie. Możemy użyć automatycznego dopasowywania modelu, które ułatwiają poszukiwanie "dobrego modelu", który pasuje do danych. Ogólna logika tego algorytmu jest następująca: najpierw program dopasuje model bez jakichkolwiek zależności między czynnikami; jeśli ten model nie będzie pasował (tzn. odpowiednia statystyka chi-kwadrat będzie istotna), to dopasuje model z wszystkimi interakcjami drugiego rzędu. Jeśli i ten model nie będzie pasował, to program będzie dopasowywał wszystkie interakcje trzeciego rzędu i tak dalej. Załóżmy, że proces doszedł do modelu z wszystkimi interakcjami drugiego rzędu jako pasującego do danych. Program będzie następnie zmierzał do wyeliminowania wszystkich interakcji drugiego rzędu, które nie są istotne statystycznie. Końcowym modelem będzie ten, który obejmuje najmniejszą liczbę interakcji koniecznych do dopasowania do tabeli liczności obserwowanych.

Indeks






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.