© Copyright StatSoft, Inc., 1984-2024
Przeszukaj Internetowy Podręcznik Statystyki
Statystyki nieparametryczne


Ogólny cel

Krótki przegląd problematyki testowania istotności statystycznej. Dla dobrego zrozumienia istoty metod nieparametrycznych wymagana jest wcześniejsza znajomość podstaw metod parametrycznych. W rozdziale podręcznika zatytułowanym Podstawowe pojęcia zawarto wprowadzenie do problematyki testowania istotności statystycznej w oparciu o rozkład statystyki z próby (zalecane jest przeglądnięcie tego rozdziału przed dalszym czytaniem). Krótko mówiąc, jeśli mamy podstawową wiedzę na temat rozkładu zmiennej, wtedy możemy przewidywać, jak zachowa się dana statystyka, tzn. jaki będzie jej rozkład w kolejnych próbach o tej samej liczności. Rozważmy przykład, w którym z populacji generalnej pobrano 100 prób losowych zawierających po 100 dorosłych osobników, a następnie obliczono średni wzrost w każdej z prób. Rozkład standaryzowanych średnich z prób będzie zmierzał do rozkładu normalnego (a dokładniej, będzie podlegał rozkładowi t Studenta z liczbą stopni swobody równą 99; patrz poniżej). Wyobraźmy sobie następnie, że pobrano dodatkową próbę spośród mieszkańców określonej miejscowości ("Wysoka Wola"), w której, jak przypuszczamy, średni wzrost jest wyższy od średniej populacyjnej. Jeśli wartość średniej z próby znajdzie się poza 95-procentowym obszarem krytycznym, wtedy wnioskujemy, że rzeczywiście mieszkańcy tej miejscowości przewyższają pod względem wzrostu średnią populacyjną.

Czy większość zmiennych podlega rozkładowi normalnemu? W powyższym przykładzie wykorzystaliśmy wiedzę o tym, że przy pobieraniu kolejnych prób o równej liczności standaryzowane średnie (dla wzrostu) będą podlegać rozkładowi t (o pewnej liczbie stopni swobody). Nasze przypuszczenia będą prawdziwe tylko pod warunkiem, że rozkład interesującej nas zmiennej w populacji będzie rozkładem normalnym, tzn. rozkład osobników pod względem wzrostu podlega rozkładowi normalnemu.

W przypadku wielu zmiennych nie wiemy na pewno, czy sytuacja taka ma miejsce. Na przykład, czy wielkość dochodu podlega rozkładowi normalnemu? -- prawdopodobnie nie. Również rozkład w populacji wskaźnika zapadalności na rzadkie choroby oraz rozkład liczby wypadków samochodowych nie są rozkładami normalnymi. Istnieje ponadto wiele innych interesujących dla badacza zmiennych, których rozkład także odbiega od rozkładu normalnego.

Więcej informacji dotyczących rozkładu normalnego znajdziemy w rozdziale Podstawowe pojęcia . Natomiast informacje odnośnie testów normalności, w podrozdziale Testy normalności

Liczność próby. Kolejnym czynnikiem, który często ogranicza stosowalność testów opierających się na założeniu o normalności rozkładu z próby, jest liczność próby zawierającej dane dostępne do analizy (liczność próby; n). Założenie to można przyjąć za spełnione w odniesieniu do wystarczająco licznej próby (np. 100 lub więcej obserwacji) nawet w sytuacji, gdy nie jesteśmy pewni, czy rozkład zmiennej w populacji jest rozkładem normalnym. Jeżeli jednak rozważana próba posiada bardzo małą liczność, testy te mogą być stosowane tylko w sytuacji, gdy mamy pewność, że dana zmienna podlega rozkładowi normalnemu, a nie ma możliwości weryfikacji tego założenia ze względu na małą liczność próby.

Trudności pomiaru. Zastosowania testów opierających się na założeniach normalności rozkładu są ponadto ograniczone na skutek braku dokładności pomiaru. Weźmy na przykład pod uwagę badania, w których głównym przedmiotem zainteresowania jest średnia ocena punktowa. Czy można stwierdzić, że średnia A jest dwukrotnie wyższa od średniej C, a różnica pomiędzy średnimi B i A jest porównywalna z różnicą między średnimi D i C? Wiemy tylko, że średnia ocena punktowa jest przybliżoną miarą osiągnięć szkolnych, umożliwiającą uszeregowanie uczniów według kolejności od dobrych do słabych. W podręcznikach statystyki zagadnienie pomiaru jest zwykle rozważane w kategoriach skali pomiaru. Bez wchodzenia w szczegółowe rozważania w większości z powszechnie stosowanych technik statystycznych, takich jak analiza wariancji (i test t), regresja itd. zakłada się, że podstawowe pomiary zostały dokonane co najmniej na skali interwałowej , co oznacza, że przedziały o równej długości na tej skali mogą być bezpośrednio porównywane (np. różnica pomiędzy B i A jest równa różnicy pomiędzy D i C). Bardzo często jednak, tak jak w naszym przykładzie, założenia tego nie udaje się utrzymać i dane pozwalają tylko na rangowanie obserwacji (tzn. można użyć skali porządkowej ), a nie dokładny pomiar.

Metody parametryczne i nieparametryczne. Miejmy nadzieję, że po tym wprowadzeniu bardziej oczywistą stała się potrzeba przedstawienia procedur statystycznych, umożliwiających przetwarzanie danych o niższym poziomie pomiaru, pochodzących z małych prób oraz pozwalających na analizę zmiennych o nieznanym rozkładzie. Metody nieparametryczne były rozwijane szczególnie pod kątem ich zastosowania w przypadku nieznajomości parametrów rozkładu w populacji analizowanej zmiennej (stąd zresztą pochodzi nazwa nieparametryczne). Używając bardziej fachowych terminów stosowanie metod nieparametrycznych nie polega na estymacji parametrów (takich jak średnia czy odchylenie standardowe) opisujących rozkład danej zmiennej w populacji. Z tego względu dla określenia tych metod bywa również często stosowana nazwa metody niezależne od parametrów lub niezależne od rozkładu.

Indeks

Krótki przegląd metod nieparametrycznych

W zasadzie dla każdego typu testu parametrycznego istnieje przynajmniej jeden odpowiednik wśród testów nieparametrycznych. Ogólnie testy te można podzielić na następujące kategorie:

Różnice pomiędzy grupami niezależnymi. Gdy mamy do czynienia z dwoma grupami, które chcemy porównać pod względem wartości średniej danej zmiennej, wtedy stosujemy zwykle test t dla prób niezależnych; nieparametryczną alternatywą dla tego testu jest test serii Walda-Wolfowitza, test U Manna-Whitneya oraz test dla dwóch prób Kołmogorowa-Smirnowa. W przypadku wielu grup użyjemy analizy wariancji (patrz ANOVA/MANOVA ) - nieparametrycznymi odpowiednikami tej metody są test rangowy Kruskala-Wallisa oraz test mediany.

Różnice pomiędzy grupami zależnymi. Gdy chcemy porównać dwie zmienne zmierzone w tej samej próbie zazwyczaj stosujemy test t dla grup zależnych (patrz Statystyki podstawowe i tabele ; np. przy porównaniu umiejętności matematycznych na początku i na końcu semestru). Nieparametrycznym odpowiednikiem tego testu jest test znaków oraz test kolejności par Wilcoxona. Jeśli brane pod uwagę zmienne są zmiennymi dychotomicznymi (tj. "zdał" lub "nie zdał") wówczas odpowiednim będzie test McNemary . W sytuacji gdy mamy do czynienia z więcej niż dwoma zmiennymi z tej samej próby, zazwyczaj zastosowalibyśmy metodę ANOVA dla powtarzanych pomiarów. Nieparametryczną alternatywą dla tej metody jest dwukierunkowa analiza wariancji Friedmana oraz test Q Cochrana (dla zmiennych dychotomicznych). Test Q Cochrana jest szczególnie użyteczny do mierzenia zmian częstości (proporcji) w czasie.

Współzależności pomiędzy zmiennymi. Aby wyrazić współzależność pomiędzy dwiema zmiennymi, obliczamy zazwyczaj współczynnik korelacji. Odpowiednikami nieparametrycznymi są: R Spearmana , Tau Kendalla oraz współczynnik gamma (zob. Korelacje nieparametryczne ). W przypadku gdy brane pod uwagę zmienne są zmiennymi skategoryzowanymi (np. "zdany" lub "nie zdany" oraz "mężczyzna" lub "kobieta"), do oceny współzależności pomiędzy zmiennymi stosownymi statystykami są test chi-kwadrat , współczynnik fi2 oraz dokładny test Fishera. Ponadto dostępny jest test jednoczesny dla współzależności pomiędzy wieloma przypadkami: współczynnik zgodności W Kendalla. Test ten jest często stosowany do wyrażania wewnętrznej zgodności ocen niezależnych sędziów, oceniających (porządkujących) ten sam bodziec.

Statystyki opisowe. W sytuacji gdy dane nie podlegają rozkładowi normalnemu, a pomiary są w najlepszym wypadku wyrażone na skali porządkowej, wówczas obliczanie standardowych statystyk opisowych (np. średniej, odchylenia standardowego) nie jest najlepszym sposobem zbiorczego przedstawienia danych. W przypadku badań psychometrycznych powszechnie wiadomo, że relatywna intensywność bodźca (np. odczuwany poziom jasności światła) często jest logarytmiczną funkcją rzeczywistej intensywności bodźca (jasność mierzona w luksach). W naszym przykładzie zwykła średnia wskaźnika (suma wskaźników podzielona przez liczbę bodźców) nie daje dobrej sumarycznej informacji o rzeczywistej przeciętnej intensywności bodźca. (W przykładzie tym sugerowalibyśmy raczej obliczenie średniej geometrycznej ). Statystyki nieparametryczne i rozkłady pozwalają na wyliczanie szerokiego zakresu różnych miar położenia (średnia , mediana , moda itd.) i dyspersji (wariancja , odchylenie przeciętne, rozstęp kwartylowy itd.), dając w ten sposób pełny obraz danych.

Indeks

Kiedy zastosować daną metodę

Podanie prostej rady na temat stosowania procedur nieparametrycznych nie jest proste. Każda z nich ma bowiem specyficzną wrażliwość oraz słabe strony. Przykładowo test dla dwóch prób Kołmogorowa-Smirnowa jest wrażliwy nie tylko na różnice położenia rozkładów (np. różnice średnich) ale również uzależnienie na kształty rozkładów. Z kolei test kolejności par Wilcoxona zakłada, że istnieje możliwość nadania rang wielkościom różnic par obserwacji w jednoznaczny sposób. W przeciwnym przypadku powinno się raczej zastosować test znaków. Na ogół jeżeli wynik badania jest ważny (np. czy bardzo kosztowna i bolesna kuracja farmakologiczna wyraźnie poprawia stan zdrowia pacjenta?), wówczas doradza się przeprowadzenie różnych testów nieparametrycznych w celu stwierdzenia, czy pojawiające się rozbieżności w wynikach są wynikiem użytego testu. Należy spróbować dociec, dlaczego niektóre testy dają różne wyniki. Z drugiej strony, testy nieparametryczne charakteryzują się mniejszą mocą (wrażliwością) niż ich odpowiedniki parametryczne i w sytuacji, gdy bardzo ważnym jest wykrycie nawet bardzo małych wpływów (np. czy dany składnik żywności jest szkodliwy dla ludzi?), należy postępować bardzo uważnie przy wyborze statystyki testu.

Duże liczności zbiorów danych a metody nieparametryczne. Metody nieparametryczne są najbardziej odpowiednie w przypadku prób o małych licznościach. W przypadku dużych zbiorów danych (np. n > 100) stosowanie statystyk nieparametrycznych najczęściej nie ma uzasadnienia. W rozdziale zatytułowanym Podstawowe pojęcia omówiono w skrócie ideę centralnego twierdzenia granicznego. Mówiąc krótko, gdy liczność próby bardzo wzrasta, wówczas średnie prób podlegają rozkładowi normalnemu nawet w sytuacji, gdy odpowiednia zmienna w populacji nie posiada rozkładu normalnego lub nie jest wystarczająco dobrze zmierzona. Tak więc metody parametryczne, które są zwykle bardziej wrażliwe (tzn. charakteryzują się wyższą mocą statystyczną), w większości przypadków nadają się lepiej dla dużych prób. Jednakże testy istotności opisanych tutaj statystyk nieparametrycznych są oparte o teorie rozkładów asymptotycznych; tak więc często znaczące testy nie mogą zostać przeprowadzone ze względu na małą liczność próby. Aby uzyskać więcej informacji na temat mocy i efektywności testów, należy sięgnąć do opisów poszczególnych testów.

Indeks

Korelacje nieparametryczne

Poniżej opisano trzy najpowszechniejsze nieparamtryczne współczynniki korelacji: R Spearmana , tau Kendalla i współczynnik gamma ). Warto zauważyć, że statystyka chi-kwadrat obliczana dla dwudzielczych tabeli liczności również jest dokładna miarą współzależności dwóch (stabelaryzowanych) zmiennych, a w odróżnieniu od miar korelacji opisanych niżej, może być stosowana dla zmiennych jakościowych (tzn. wyrażonych na skali nominalnej).

R Spearmana. Przy obliczaniu R Spearmana (por. Siegel i Castellan, 1988) zakłada się, że rozważane zmienne zostały zmierzone co najmniej na skali porządkowej (rangowej), tzn. że indywidualne obserwacje mogą być zestawione w dwóch uporządkowanych szeregach. Współczynnik R Spearmana można traktować podobnie jak współczynnik korelacji liniowej Pearsona , tj. w kategoriach procentu wyjaśnianej zmienności, tyle że R Spearmana jest wyliczany w oparciu o rangi.

Tau Kendalla. Przy stosowaniu tego współczynnika powinny być spełnione te same podstawowe założenia jak w przypadku R Spearmana. Podobna jest też ich moc statystyczna. Jednakże wielkości obu współczynników zwykle nie pokrywają się, gdyż ich podstawy logiczne oraz formuły obliczeniowe bardzo się różnią. Zależność pomiędzy tymi dwoma miarami Siegel i Castellan (1988) wyrażają w postaci nierówności:

-1 Ł 3 * Tau Kendalla - 2 * R Spearmana Ł 1

Co ważniejsze, współczynniki te posiadają różną interpretację: współczynnik R Spearmana można traktować podobnie jak współczynnik korelacji liniowej Pearsona , tj. w kategoriach procentu wyjaśnianej zmienności. Różnica polega na tym, że R Spearmana jest wyliczany w oparciu o rangi. Z kolei współczynnik tau Kendalla opiera się na prawdopodobieństwie, tzn. różnicy między prawdopodobieństwem tego, że dwie zmienne układają się w tym samym porządku w obrębie obserwowanych danych a prawdopodobieństwem, że ich uporządkowanie się różni.

Gamma. Statystyka gamma (Siegel i Castellan, 1988) jest zalecana w przypadkach, gdy dane zawierają wiele powiązanych obserwacji (tzn. obserwacji o takich samych wartościach). W kategoriach podstawowych założeń jest ona odpowiednikiem R Spearmana lub tau Kendalla, natomiast pod względem interpretacji i obliczania jest bardziej podobna do współczynnika tau Kendalla. Krótko mówiąc, współczynnik gamma opiera się również na prawdopodobieństwie; liczy się go jako różnicę między prawdopodobieństwem, że uporządkowanie dwóch zmiennych jest zgodne a prawdopodobieństwem, że jest niezgodne, podzieloną przez 1 minus prawdopodobieństwo występowania obserwacji powiązanych. W tym sensie jest bardziej odpowiednikiem tau Kendalla, prócz tego, że powiązania są wprost uwzględniane w obliczeniach.






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.