© Copyright StatSoft, Inc., 1984-2024
Przeszukaj Internetowy Podręcznik Statystyki
Podstawowe pojęcia statystyki

Przegląd podstawowych pojęć statystyki. We wstępie tym przedyskutowane zostaną te niezbędne pojęcia statystyki, które stanowią podstawę do głębszego zrozumienia zasad postępowania w każdej dziedzinie statystycznej analizy danych. Poruszone tu wybrane tematy ilustrują podstawowe założenia większości procedur statystycznych i, jak wykazały badania, stanowią one minimum niezbędne do zrozumienia ilościowej natury otaczającej nas rzeczywistości (Nisbett i in., 1987). Z powodu szczupłości miejsca skoncentrujemy się głównie na aspektach funkcjonalnych omawianych idei, a prezentacja będzie bardzo krótka. Więcej informacji o każdym z omawianych zagadnień można znaleźć w częściach Wprowadzenie i Przykłady tego opisu oraz w podręcznikach statystyki. Zalecane podręczniki dla początkujących to: Kachigan (1986) oraz Runyon i Haber (1976); zainteresowanych bardziej zaawansowaną dyskusją podstaw teorii i założeń leżących u podstaw statystyki odsyłamy do klasycznych książek: Hays (1988), oraz Kendall i Stuart (1979).
 


Co to są zmienne? Zmienne są to wielkości, które mierzymy, kontrolujemy lub ustalamy w jakiś sposób w trakcie badań. Zmienne mogą mieć różne właściwości, zwłaszcza ze względu na rolę, jaką pełnią w naszych badaniach, jak też ze względu na to, jaki rodzaj miary można do nich zastosować.
Indeks


Badania korelacyjne a badania eksperymentalne. Większość badań empirycznych można zaliczyć do jednej z dwóch kategorii: W badaniu korelacyjnym (obserwacyjnym) badacz nie wpływa (albo przynajmniej stara się nie wpływać) na żadną ze zmiennych, rejestrując je jedynie i obserwując relacje (korelacje) między pewnymi podzbiorami zmiennych, na przykład między ciśnieniem krwi i poziomem cholesterolu. W badaniach eksperymentalnych badacz określa wartości niektórych zmiennych i mierzy wartości innych zmiennych, przy zadanych ustawieniach. Przykładowo badacz może ustawić trzy poziomy zawartości aluminium w stopie i mierzyć właściwości magnetyczne stopu dla każdego z tych poziomów. W trakcie analizy danych będących wynikiem badania eksperymentalnego zdarza się również obliczać korelacje między zmiennymi, w szczególności pomiędzy zmiennymi mierzonymi, a tym, których wartości określamy z góry. Dane pochodzące z badania eksperymentalnego dostarczają jednak najczęściej informacji lepszej jakościowo niż dane z badań korelacyjnych. W szczególności pamiętać należy, że jedynie badania typu eksperymentalnego mogą efektywnie dowieść relacji przyczynowej między zmiennymi. Jeśli na przykład stwierdzimy, że ilekroć zmieniamy wartość zmiennej A, to zmienia się wartość zmiennej B, wówczas możemy wysnuć wniosek, że zmienna A wpływa na zmienną B. Dane z badań korelacyjnych mogą być jedynie interpretowane w sposób przyczynowy w świetle pewnych teorii, lecz nigdy nie pozwalają na ostateczne udowodnienie istnienia związku przyczynowego.
Indeks


Zmienne zależne a zmienne niezależne. Niezależnymi nazywamy te spośród zmiennych, których wartość zmieniamy, podczas gdy zmienne zależne są jedynie mierzone. Rozróżnienie to wielu osobom wydaje się terminologicznie mylące, ponieważ, jak mówią studenci, wszystkie zmienne zależą od czegoś. Kto wszakże raz przywykł do takiego rozróżnienia, dla tego staje się ono nieodzowne. Terminy zależny i niezależny mają zastosowanie głównie w badaniach typu eksperymentalnego, w których z góry ustalamy wartości pewnych zmiennych i w tym sensie zmienne te są niezależne od wzorców zachowania, intencji itp. cech obiektów. Oczekujemy, że wartości zmiennych zależnych będą zależały od wartości zmiennych niezależnych. Nieco w opozycji do natury tego rozróżnienia, terminy "zmienne niezależne" i "zmienne zależne". bywają również używane w badaniach obserwacyjnych, gdzie nie ustala się wartości zmiennych niezależnych, lecz jedynie przypisuje obiekty do pewnych grup eksperymentalnych na podstawie posiadanych przez nie cech. Jeśli na przykład w pewnym eksperymencie mężczyźni porównywani są z kobietami pod względem liczby białych komórek krwi, to Płeć może być nazwana zmienną niezależną, a Liczba białych ciałek (LBC) zmienną zależną.
Indeks


Skale pomiarowe. Zmienne różnią się pod względem tego jak dobrze mogą być mierzone, to znaczy jaką ilość mierzalnej informacji można uzyskać w trakcie ich pomiaru. Oczywiście powyższe stwierdzenie musi być rozważane w świetle tego, że każdy pomiar dokonywany jest z błędem, który ogranicza ilość informacji dostępnej w trakcie pomiaru. Innym czynnikiem określającym ilość informacji, jaką może dostarczyć określona zmienna, jest typ skali pomiarowej. Pod tym względem zmienne dzieli się na: (a) nominalne, (b) porządkowe, (c) przedziałowe, (d) ilorazowe.
  1. Zmienne nominalne pozwalają jedynie na jakościową klasyfikację. Znaczy to, że mogą one być mierzone jedynie pod kątem zaliczenia poszczególnych obiektów (jednostek, osobników itd.) do jednej z rozłącznych kategorii, lecz kategoriom tym nie możemy nadać żadnej ilościowej miary ani nie możemy ich uporządkować wedle rang. Na przykład w kategoriach zmiennej A możemy o dwóch osobnikach powiedzieć jedynie, że się różnią (np. są różni pod względem rasy), ale nie możemy powiedzieć, który z nich posiada własność opisywaną przez zmienną A w większym stopniu. Typowymi przykładami zmiennych nominalnych są płeć, rasa, kolor, miasto itp.
  2. Zmienne porządkowe pozwalają na rangowanie (ustawianie w określonym porządku) elementów, które mierzymy w tym sensie, że element z wyższą rangą posiada cechę reprezentowaną przez mierzoną zmienną w większym stopniu, lecz ciągle nie można powiedzieć w o ile większym stopniu. Typowym przykładem zmiennej porządkowej jest status socjoekonomiczny rodzin. Wiemy na przykład, że status powyżej średniej jest wyższy niż średni, lecz nie możemy powiedzieć, że jest on, dajmy na to, wyższy o 18%. W rzeczy samej, omawiane tu rozróżnienie pomiędzy skalami nominalną, porządkową i przedziałową stanowi dobry przykład zmiennej porządkowej. Możemy bowiem powiedzieć, że pomiar nominalny dostarcza mniej informacji niż pomiar porządkowy, lecz nie potrafimy powiedzieć, o ile mniej, ani też jak porównać tę różnicę z różnicą pomiędzy skalami porządkową i przedziałową.
  3. Zmienne przedziałowe pozwalają nie tylko szeregować (rangować) mierzone elementy, lecz również mierzyć różnice wielkości pomiędzy nimi. Na przykład temperatura mierzona w stopniach Celsjusza jest zmienną przedziałową. Możemy powiedzieć, że temperatura 40 stopni jest wyższa niż temperatura 30 stopni oraz że wzrost temperatury od 20 do 40 stopni jest dwa razy większy niż od 30 do 40 stopni.
  4. Zmienne ilorazowe są podobne do zmiennych przedziałowych, lecz oprócz wszystkich cech skali przedziałowej charakteryzuje je istnienie punktu absolutnego zera skali, dzięki czemu prawomocne jest w odniesieniu do tych zmiennych stwierdzenie typu: x jest dwa razy większe niż y. Typowymi przykładami skal ilorazowych są skale przestrzeni i czasu. Również skala Kelvina pomiaru temperatury jest skalą ilorazową. Możemy bowiem powiedzieć iż 200 stopni Kelvina jest temperaturą dwa razy wyższą niż 100 stopni Kelvina. Skale przedziałowe nie posiadają tej cechy. Należy nadmienić, że w większości procedur statystycznych nie dokonuje się rozróżnienia pomiędzy skalami przedziałową i ilorazową.
Indeks


Relacje (zależności) między zmiennymi. Niezależnie od tego, jakiego są typu, dwie lub więcej zmiennych pozostaje w relacji, jeśli wartości tych zmiennych w mierzonej próbie rozłożone są w określony, systematyczny sposób. Innymi słowy znaczy to, że zmienne pozostają w relacji, jeśli ich odpowiedające sobie wartości są zależne od siebie. Na przykład Płeć i LBC mogą być uznane jako pozostające w relacji, jeśli większość mężczyzn posiada wysoką LBC, a większość kobiet niską LBC (lub na odwrót). Wzrost jest w relacji z Ciężarem, ponieważ zazwyczaj wysocy osobnicy więcej ważą. IQ (iloraz inteligencji) jest powiązany z liczbą błędów w teście, jeżeli osobnicy z wyższym IQ popełniają mniej błędów itp.
Indeks


Dlaczego zależności (relacje) między zmiennymi są ważne. Poszukiwanie zależności między zmiennymi jest, ogólnie rzecz biorąc, podstawowym celem każdego badania naukowego. Filozofia nauki uczy nas, że nie ma innego sposobu wyrażenia znaczenia niż poprzez relacje pomiędzy pewnymi kategoriami ilościowymi lub jakościowymi. W obydwu przypadkach sprowadza się to do wykrywania relacji pomiędzy zmiennymi. W badaniach typu korelacyjnego pomiar takich relacji odbywa się w najprostszy sposób. Należy jednak podkreślić, że badania typu eksperymentalnego nie różnią się pod tym względem. Na przykład eksperyment polegający na porównaniu LBC u kobiet i mężczyzn może być określony jako pomiar korelacji między dwiema zmiennymi Płeć i LBC. Statystyka to nic innego jak nauka pomagająca nam w ocenianiu zależności pomiędzy zmiennymi. Prawdę mówiąc, setki procedur opisanych w tym podręczniku może być interpretowanych w kategoriach oceny różnorakich zależności pomiędzy rozmaitymi zmiennymi.
Indeks


Dwie podstawowe cechy każdej relacji pomiędzy zmiennymi. Formalnie rzecz biorąc, każdą relację (zależność) między zmiennymi można scharakteryzować dwiema własnościami: (a) siłą (lub "wielkością") i (b) wiarygodnością (lub "prawdziwością") tej relacji.
  1. Siła ("wielkość") zależności (relacji) jest łatwiejsza do zrozumienia niż wiarygodność (istotność). Jeśli na przykład w mierzonej próbie każdy mężczyzna posiada większą LBC niż jakakolwiek kobieta, to możemy powiedzieć, iż siła relacji pomiędzy dwiema zmiennymi (Płeć i LBC) jest duża w mierzonej próbie. Innymi słowy można przewidzieć jedną zmienną na podstawie pomiaru drugiej (przynajmniej w obrębie naszej próbki).
  2. Wiarygodność ("prawdziwość") jest znacznie mniej oczywista intuicyjnie, lecz jest niezmiernie ważna. Dotyczy ona reprezentatywności wyniku uzyskanego na podstawie pobranej próbki w odniesieniu do całej badanej populacji. Informuje nas ona, jakie jest prawdopodobieństwo tego, że analogiczna (jak ta stwierdzona w próbce aktualnie mierzonej) relacja zostałaby zmierzona, gdyby eksperyment powtórzyć na innych próbkach pobranych z tej samej populacji. Pamiętajmy, że badacz nigdy nie ogranicza swoich zainteresowań do mierzonej próbki, lecz faktycznie próbka potrzebna mu jest jedynie do tego, aby dostarczyć mu informacji o całej badanej populacji. Jeżeli badanie przeprowadzone jest wedle pewnych zasad, o których będzie mowa w dalszej części, wówczas wiarygodność relacji zmierzonej w próbie może być wyrażona ilościowo w postaci konkretnej liczby (technicznie nazywa się ją poziomem istotności lub poziomem α, zobacz następny akapit).
Indeks


Co to jest poziom istotności (poziom istotności α). Przede wszystkim należy znać rozróżnienie pomiędzy poziomem istotności α, który jest ustalany a istotnością statystyczną, czyli wartością p, która jest obliczana. Istotność statystyczna wyniku to prawdopodobieństwo, że zaobserwowane związki (np. pomiędzy zmiennymi) lub różnice (np. pomiędzy średnimi) w próbce pojawiły się czysto przypadkowo (są "dziełem przypadku") przy założeniu, że w populacji, z której próbka została wylosowana powyższe związki lub różnice nie istnieją. Mniej technicznie możemy powiedzieć, że statystyczną istotnością wyniku nazywamy miarę (im mniejsza tym prawdziwość większa) stopnia, do jakiego jest on prawdziwy (w sensie jego reprezentatywności dla całej badanej populacji). Bardziej technicznie rzecz biorąc, wartość istotności p stanowi malejący wskaźnik wiarygodności rezultatu (patrz Brownlee, 1960). Im wyższa wartość p, tym mniej możemy być pewni, że relacja obserwowana w próbce jest wiarygodnym wskaźnikiem relacji pomiędzy mierzonymi wielkościami w całej interesującej nas populacji. Natomiast poziom istotności α jest równy ustalonemu przez nas dopuszczonemu prawdopodobieństwu popełnienia błędu polegającego na tym, że przyjmujemy uzyskany rezultat jako prawdziwy, tj. reprezentatywny dla populacji. Na przykład poziom α równy 0,05 (tzn. 1/20) oznacza, że dopuszczamy prawdopodobieństwo 5% tego, że odkrytą w próbce relację błędnie uznamy za dzieło przypadku. Innymi słowy, zakładając, że w populacji relacja taka nie zachodzi, a my będziemy powtarzać doświadczenie jedno po drugim w długim ciągu, to możemy oczekiwać, że w przybliżeniu w co dwudziestym eksperymencie zmierzona relacja będzie na tyle silna, że uznamy, że wskazuje ona na błędne założenie o braku relacji w populacji. (Należy zauważyć, że czymś innym jest stwierdzenie, że możemy oczekiwać 5% lub 95% powtarzalności wyników w sytuacji, gdy JEST zależność między zmiennymi. Jeśli istnieje relacja między zmiennymi w populacji, to prawdopodobieństwo powtarzalności wyników i prawdziwości znalezionej zależności jest związane z mocą statystyczną testu. Zobacz także Analiza mocy testów). W wielu dziedzinach badań poziom istotności równy 0,05 jest przyjmowany jako graniczna wartość akceptowalnego poziomu błędu.
Indeks


Jak stwierdzić czy rezultat jest rzeczywiście istotny? Decyzja o tym, jaki poziom istotności skłonni jesteśmy uznać za rzeczywiście istotny, jest zawsze podejmowana w sposób arbitralny. Oznacza to, że wybór poziomu istotności, powyżej którego rezultat będzie odrzucany jako nieistotny, jest wyborem umownym. W praktyce oznacza to, że ostateczna decyzja w tym względzie zależy od wielu czynników: od tego, czy wynik był przewidziany a priori, czy został uzyskany post hoc (po fakcie) w wyniku wielu analiz i porównań przeprowadzonych na określonym zestawie danych, od siły nagromadzonych świadectw, które go potwierdzają i od tradycji panującej w danej dziedzinie badań. W wielu dziedzinach badań jako typową wartość graniczną poziomu istotności przyjmuje się α=0,05. Gdy otrzymane w próbie p jest poniżej tej wartości rezultat oceniany jest jako statystycznie istotny. Pamiętać jednak należy, że wartość ta niesie w sobie dość dużą możliwość popełnienia błędu (5%). Wyniki istotne na poziomie α=0,01 uważa się powszechnie za statystycznie istotne, zaś wyniki istotne na poziomie α=0,005 lub α=0,001 nazywane bywają wysoce istotnymi. Pamiętajmy jednak, że tego typu klasyfikacje są niczym innym niż tylko umownymi konwencjami opartymi na doświadczeniu badawczym.
Indeks


Istotność statystyczna a liczba przeprowadzonych analiz. Pamiętać trzeba o tym, że im więcej analiz przeprowadzimy na określonym zbiorze danych, tym większa liczba wyników ma szansę przekroczyć ustalony poziom istotności przez przypadek. Jeśli na przykład policzymy współczynniki korelacji pomiędzy dziesięcioma zmiennymi (łącznie 45 współczynników korelacji), to możemy się spodziewać, że przez przypadek około dwa z nich (tzn. jeden na każde 20) będzie istotnych na poziomie α=0,05, nawet jeżeli wartości zmiennych były kompletnie losowe, a w populacji generalnej nie występują żadne korelacje między tymi zmiennymi. Niektóre procedury statystyczne, w których ma się do czynienia z wieloma porównaniami (i w związku z tym większą szansą wystąpienia takich błędów) przewidują na tę okoliczność specjalne poprawki lub korekty w zależności od liczby porównań. Większość podstawowych metod statystycznych (a w szczególności metody eksploracji danych) nie oferuje jednak żadnych rozwiązań, które by pozwoliły uniknąć takich sytuacji. Okoliczność ta stawia przed badaczem szczególne wymagania co do ostrożności w ocenie niespodziewanych rezultatów badań. Wiele przykładów w tym podręczniku zawiera porady, jak postępować w takich wypadkach. Podręczniki statystyki są również zalecane jako źródło wiedzy w tym względzie.
Indeks


Siła a wiarygodność zależności między zmiennymi. Powiedzieliśmy poprzednio, że siła i wiarygodność są dwiema różnymi cechami zależności między zmiennymi. Nie są one jednakowoż zupełnie niezależne od siebie. Najogólniej rzecz traktując, można powiedzieć, że w próbce o określonej liczności, im większa siła zależności istnieje między zmiennymi, tym bardziej istotna jest ta zależność (zobacz następny akapit).
Indeks


Dlaczego silniejsze relacje między zmiennymi są bardziej istotne? Jeżeli założymy, że w populacji generalnej pomiędzy interesującymi nas zmiennymi nie ma żadnej zależności, to najbardziej prawdopodobnym wynikiem badania statystycznego w próbce będzie również brak takiej zależności. Łatwo na tej podstawie wysnuć wniosek, że im silniejsza relacja między zmiennymi została zmierzona w próbce, tym mniej prawdopodobnym jest brak takiej relacji w populacji generalnej. Jak widać, siła i istotność relacji między zmiennymi są ze sobą związane i można wyliczyć istotność na podstawie wartości siły relacji i na odwrót. Stwierdzenie to jest jednak prawdziwe tylko w odniesieniu do próbki o stałej wielkości. Relacja (zależność) o określonej sile może się bowiem okazać albo bardzo istotna, albo kompletnie nieistotna w zależności od wielkości próbki (zobacz następny akapit).
Indeks


Dlaczego istotność relacji między zmiennymi zależy od wielkości próbki. Jeśli mamy do czynienia z małą liczbą obserwacji, wówczas istnieje też mała liczba wszystkich możliwych kombinacji różnych wartości poszczególnych zmiennych, a co za tym idzie, prawdopodobieństwo tego, że przez przypadek zdarzy się w pomiarze kombinacja wskazująca na silną zależność jest relatywnie duże. Rozważmy następujący przykład. Jeśli interesują nas dwie zmienne (Płeć - mężczyzna/kobieta i LBC - wysoka/niska) oraz mamy do dyspozycji tylko cztery obiekty w naszej próbce (dwie kobiety i dwóch mężczyzn), wówczas prawdopodobieństwo tego, że z powodów czysto losowych stwierdzimy 100% relację między zmiennymi wynosi 1/8. Szansa, iż obie kobiety mają niską LBC, a obydwaj mężczyźni wysoką LBC (lub na odwrót), równa jest jednej ósmej. Zastanówmy się teraz, jaka byłaby szansa w próbce liczącej 100 obiektów. Rachunek wskazuje, że szansa ta wynosi wówczas praktycznie zero. Przeanalizujmy bardziej ogólny przykład. Wyobraźmy sobie teoretyczną populację, w której średnia wartość LBC u mężczyzn i kobiet jest dokładnie taka sama. Jest oczywiste, że jeśli zaczniemy przeprowadzać sekwencyjnie eksperyment polegający na losowaniu par próbek o ustalonej wielkości (próbka mężczyzn i próbka kobiet) i obliczaniu różnicy średnich wartości LBC w każdej parze próbek, to większość wyników będzie bliska wartości 0. Jednakże od czasu do czasu wylosowana para próbek da wynik, który będzie się znacznie różnił od zera. Jak często można się spodziewać takiego wyniku? Otóż im mniejsza jest liczność próbki, tym częstość takiego błędnego rezultatu będzie większa, wskazując tym samym na istnienie zależności, która faktycznie w populacji generalnej nie występuje.
Indeks


Przykład: stosunek liczby urodzeń dziewczynek do chłopców. Prześledźmy następujący przykład z badań o wnioskowaniu statystycznym (Nisbett i in., 1987). Rejestrujemy liczbę urodzeń dziewczynek i chłopców w dwóch szpitalach. W jednym z nich rodzi się dziennie 120 dzieci, w drugim 12. Średnio w każdym ze szpitali rodzi się tyle samo chłopców co dziewczynek (stosunek liczby urodzeń jest 50/50). Jednego dnia wszakże w jednym ze szpitali urodziło się dwa razy tyle dziewczynek co chłopców. W którym ze szpitali to się zdarzyło? Odpowiedź jest oczywista dla statystyka, lecz jak wykazują badania, nie jest taka oczywista dla laika. Otóż prawdopodobieństwo zajścia takiej sytuacji jest nieporównanie wyższe w mniejszym ze szpitali, szansa że wśród 120 dzieci urodzonych w większym szpitalu będzie dwukrotnie więcej dziewczynek jest praktycznie zerowa. Wynika to z tego, że prawdopodobieństwo losowego odchylenia o określonej proporcji względem średniej wartości maleje wraz ze wzrostem liczności próbki.
Indeks


Dlaczego małe efekty można wykryć tylko przy użyciu próbek o dużej liczności? Podane poprzednio przykłady (zobacz poprzedni akapit) wskazują, że jeśli siła zależności między zmiennymi jest obiektywnie (to znaczy w populacji generalnej) mała, to nie sposób taką zależność wykryć inaczej niż przy pomocy próbek o dużej liczności. Nawet jeżeli nasza próbka jest doskonale reprezentatywna, rezultat nie będzie statystycznie istotny, jeśli próbka jest mała. Analogicznie, w przypadku, kiedy zależność jest obiektywnie (w populacji generalnej) bardzo silna, to może być udowodniona, nawet jeśli próbka nie jest liczna. Niech zilustruje to następujący dodatkowy przykład. Jeżeli rzucamy lekko niesymetryczną monetą (dającą dajmy na to stosunek 40% do 60% orłów do reszek), to dziesięć rzutów nie wystarczy, żeby kogokolwiek przekonać o jej asymetryczności (nawet jeśli w wyniku doświadczenia otrzymamy perfekcyjnie reprezentatywny wynik: 4 do 6). Powstaje pytanie: czy dziesięć rzutów to za mało żeby udowodnić jakąkolwiek tezę o naszej monecie? Otóż odpowiedź jest taka, że jeśli efekt, który chcemy udowodnić, jest bardzo silny, to dziesięć rzutów może być aż nadto wystarczające! Załóżmy bowiem na przykład, że moneta, o której mówimy, jest tak niesymetryczna, iż bez względu na sposób rzucania zawsze wychodzi orzeł. Jeśli jakiemukolwiek sceptykowi zademonstrujemy dziesięć rzutów za każdym razem zakończonych wyrzuceniem orła, to dla większości będzie to wystarczająco przekonywujący argument, że z naszą monetą coś jest nie w porządku. Inaczej mówiąc, wynik ten może być uważany za przekonywujący dowód, że w teoretycznej populacji nieskończonej liczby rzutów częściej będą wypadały orły niż reszki. Jeśli zatem relacja jest silna, to będzie ona istotna nawet w małej próbie.
Indeks


Czy brak relacji może być uznany za istotny wynik? Im mniejsza siła relacji między zmiennymi, tym większa liczność próbki jest niezbędna dla jej udowodnienia. Spróbujmy sobie na przykład wyobrazić, jak wiele rzutów potrzeba, aby wykryć niesymetryczność monety wynoszącą 0,000001%! Widać, że niezbędna liczność próbki wzrasta wraz ze zmniejszaniem się badanego efektu. Kiedy wielkość efektu zbliża się do zera, wówczas liczność próbki niezbędnej do jego wykrycia musi rosnąć do nieskończoności. Znaczy to, że jeżeli zależność między zmiennymi jest znikomo mała, to liczność próbki musi być porównywalna z licznością populacji, która to z założenia jest nieskończenie wielka. Istotność statystyczna reprezentuje prawdopodobieństwo tego, że analogiczny wynik otrzymalibyśmy, gdybyśmy przebadali całą populację. Innymi słowy, wszystko, co można wykazać po przebadaniu całej populacji generalnej, jest z definicji istotne na najwyższym poziomie istotności. Dotyczy to także rezultatu mówiącego o braku istnienia badanych efektów (braku relacji między zmiennymi).
Indeks


Jak można mierzyć siłę relacji między zmiennymi. Statystycy zaproponowali wiele miar siły powiązań między zmiennymi. Wybór którejś z nich w określonym przypadku zależy od tego, ile zmiennych wchodzi w rachubę, jakie są skale pomiarowe, jaka jest natura badanych relacji itp. Prawie wszystkie z nich jednakże oparte są na zasadzie porównania siły badanej relacji z największą siłą relacji możliwą dla zmiennych, których pomiaru dokonujemy. Używając języka fachowego, normalna droga dokonania takiej oceny polega na zbadaniu zróżnicowania (zmienności) wartości mierzonych zmiennych, a następnie na obliczeniu, jaka część tej ogólnie dostępnej zmienności może być przypisana faktowi, że zmienność jest wspólna dla dwóch lub więcej badanych zmiennych. W terminologii mniej technicznej da się to wyrazić w ten sposób, że porównujemy to, co jest wspólne dla interesujących nas zmiennych, z tym, co mogłoby być dla nich wspólne, gdyby były powiązane ze sobą w stu procentach. I znów pozwólmy sobie na prostą ilustrację. Przypuśćmy, że w próbce, którą badamy, średnia wartość LBC wynosi 100 dla mężczyzn i 102 dla kobiet. Można powiedzieć, że średnio odchylenie każdej wartości zmierzonej od średniej ogólnej (101) zawiera składnik związany z płcią; wielkość tego składnika wynosi 1. Wartość ta w pewnym sensie reprezentuje miarę relacji pomiędzy zmiennymi Płeć i LBC. Jest to jednak kiepska miara, ponieważ nie mówi nam ona nic o tym, jak wielki jest omawiany składnik relatywnie w stosunku do całkowitej zmienności wartości LBC. Rozważmy dwie możliwości ekstremalne:
  1. Gdyby wszystkie wartości LBC dla mężczyzn były równe dokładnie 100, a w przypadku kobiet 102, wtedy wszystkie odchylenia od średniej ogólnej w naszej próbce można by przypisać czynnikowi płci. Moglibyśmy powiedzieć, że w naszej próbce płeć jest doskonale skorelowana z LBC, to znaczy że 100% zaobserwowanych różnic pomiędzy badanymi obiektami można przypisać płci.
  2. Gdyby wartości LBC leżały w przedziale 0-1000, to taka sama różnica (2) pomiędzy średnimi wartościami LBC dla mężczyzn i kobiet stanowiłaby tak niewielki składnik całkowitej zmienności tych wartości, że śmiało można by uznać ją za zaniedbywalną. Na przykład dodanie jednego dodatkowego elementu do próbki mogłoby spowodować kompletne odwrócenie zaobserwowanej tendencji. Dobra miara zależności między zmiennymi musi zatem brać pod uwagę całkowitą zmienność wartości w próbce i ocenić relację poprzez to, jaką część tej całkowitej zmienności można przypisać jej wpływowi (wyjaśnić poprzez wpływ tej zależności).
Indeks


Wspólna ogólna postać większości testów statystycznych. Ponieważ ostatecznym celem większości testów statystycznych jest ocena relacji zachodzących między zmiennymi, więc większość tych testów posiada wspólną postać opartą na zasadach opisanych w poprzednim akapicie. Używając ponownie terminologii fachowej, oparte są one na wartości stosunku pewnej miary wspólnej zmienności interesujących nas zmiennych do ich ogólnej (całkowitej) zmienności. Na przykład może to być stosunek tej części całkowitej zmienności LBC, którą można wyjaśnić wpływem czynnika płci do całkowitej zmienności LBC. Stosunek ten nazywany jest zazwyczaj stosunkiem zmienności wyjaśnionej do zmienności całkowitej. W ramach terminologii statystycznej termin zmienność wyjaśniona nie oznacza bynajmniej, że zmienność ta jest przez badacza zrozumiała w sensie konceptualnym. Używamy jej jedynie po to, by zaznaczyć, że chodzi o wspólną zmienność badanych cech, to znaczy tę część zmienności jednej zmiennej, która może być wyjaśniona wartościami drugiej zmiennej i na odwrót.
Indeks


Jak ocenić wartość istotności. Przypuśćmy, że obliczyliśmy już miarę relacji pomiędzy dwiema zmiennymi (tak jak zostało to opisane powyżej). Natychmiast powstaje pytanie: jak istotna jest ta zależność? Czy na przykład 40% wyjaśnionej zmienności jest wystarczające do uznania relacji za istotną? Odpowiedź brzmi: to zależy. Przede wszystkim istotność zależy od liczności próbki. Jak powiedzieliśmy wcześniej, na podstawie bardzo licznej próbki nawet bardzo słaba zależność może być uznana za istotną, podczas gdy małe próbki nie pozwalają na ocenę wiarygodności nawet bardzo silnych zależności. Widać potrzebę posiadania funkcji, która wyrażałaby związek pomiędzy siłą a istotnością relacji pomiędzy zmiennymi w zależności od liczności próbki. Funkcja taka odpowiadałaby na pytanie: jak dalece prawdopodobne jest uzyskanie obserwowanej (lub większej) siły zależności w próbce określonej wielkości, przy założeniu, że zależność ta nie istnieje w ogóle w populacji generalnej? Innymi słowy, funkcja ta podaje wartości prawdopodobieństwa błędu polegającego na odrzuceniu hipotezy, że zależność, którą badamy, nie występuje w populacji generalnej (podczas gdy zakładamy, że w rzeczywistości występuje). Ta hipoteza (brak zależności w populacji generalnej) nazywana jest w statystyce hipotezą zerową. Byłoby stanem idealnym, gdyby omawiana funkcja była funkcją liniową. Niestety jej postać jest bardziej złożona i różna w różnych przypadkach. Na szczęście jednak w większości przypadków znamy jej kształt i możemy go użyć do obliczania poziomów istotności dla różnych liczności próbek. Większość tych funkcji jest związana z ogólnym typem funkcji zwanej dystrybuantą rozkładu normalnego.
Indeks


Dlaczego rozkład normalny jest ważny. Rozkład normalny jest ważny dlatego, że w wielu przypadkach przybliża on w dostatecznym stopniu funkcję opisaną w poprzednim akapicie (więcej szczegółów można znaleźć w części Czy wszystkie statystyki testowe posiadają rozkład normalny?). Rozkład wielu statystyk testowych jest rozkładem normalnym lub może być otrzymany w wyniku przekształceń rozkładu normalnego. W tym sensie, mówiąc filozoficznie, rozkład normalny reprezentuje zweryfikowaną empirycznie "prawdę ogólną o istocie rzeczy" i jego status można porównać do statusu podstawowych praw nauk przyrodniczych. Dokładny kształt rozkładu normalnego (charakterystyczna "krzywa dzwonowa") zdefiniowany jest przez funkcję posiadającą jedynie dwa parametry: wartość średnią i odchylenie standardowe, gdyż rozkład normalny nie jest jeden jedyny a jest ich cała dwuparametrowa rodzina.

Charakterystyczną cechą rozkładu normalnego jest to, że 68% wszystkich opisywanych przezeń przypadków trafia do przedziału obejmującego wartość średnią ±1 odchylenie standardowe, a przedział wartość średnia ±2 odchylenia standardowe obejmuje 95% przypadków. Innymi słowy w rozkładzie normalnym wartości standaryzowane mniejsze niż -2 i większe niż +2 zdarzać się mogą z częstością równą około 5% (wartość standaryzowaną oblicza się odejmując od wartości zmiennej jej wartość średnią i dzieląc wynik przez odchylenie standardowe). Wartości prawdopodobieństw w rozkładzie normalnym można prześledzić przy pomocy kalkulatora prawdopodobieństwa w module Statystyki podstawowe. Jeśli na przykład wprowadzimy wartość standaryzowaną Z równą 4, to wartość prawdopodobieństwa wyliczona przez program STATISTICA będzie mniejsza niż 0,0001, ponieważ w rozkładzie normalnym prawie wszystkie obserwacje (więcej niż 99,99%) trafiają w przedział wartość średnia ±4 odchylenia standardowe. Poniższa animacja prezentuje prawdopodobieństwa dla innych wartości zmiennej o rozkładzie normalnym.


Indeks


Ilustracja zastosowania rozkładu normalnego we wnioskowaniu statystycznym (indukcji). Przypomnijmy sobie omawiany wcześniej przykład, gdzie pary próbek mężczyzn i kobiet były losowane z populacji ogólnej, w której średnia wartość LBC dla obu płci była dokładnie taka sama. Chociaż zazwyczaj wynik takiego eksperymentu (jedna para próbek w eksperymencie) polegać będzie na braku różnicy średnich wartości LBC w obu próbkach, to jednak od czasu do czasu w jakiejś próbce może się zdarzyć wynik znacznie odbiegający od zera. Jak często możemy się tego spodziewać? Otóż jeśli wielkość próbki jest dostatecznie duża, to rezultaty takich powtórzeń podlegają rozkładowi normalnemu (tę istotną zasadę omówimy w następnym paragrafie), w ten sposób znając kształt rozkładu normalnego, możemy dokładnie obliczyć prawdopodobieństwo przypadkowego otrzymania wyników, w których różnica średnich przekracza dowolną, z góry zadaną wartość (odchyla się od hipotetycznej wartości w populacji - równej 0 o dowolną wielkość). Jeżeli tak obliczone prawdopodobieństwo jest na tyle małe, że nie przekracza ustalonego wcześniej poziomu istotności, wówczas badacz musi uznać, że otrzymany wynik lepiej opisuje rzeczywistą sytuację w populacji generalnej niż hipoteza zerowa. Przypomnijmy, że hipoteza zerowa sformułowana została z powodów czysto technicznych, jako odniesienie, wobec którego oceniamy rezultat naszego doświadczenia. Zauważmy, że całe powyższe rozumowanie oparte jest na założeniu, że rozkład tych powtórzeń (rozkład statystyki testowej z próby) jest normalny. Założenie to zostanie omówione w następnym paragrafie.
Indeks


Czy wszystkie statystyki testowe posiadają rozkład normalny? Nie wszystkie, lecz większość z nich albo bezpośrednio wywodzi się z rozkładu normalnego, albo jest z nim związana, tak jak np. t, F czy Chi-kwadrat. Zazwyczaj testy takie wymagają, żeby same badane zmienne miały rozkład normalny. Nazywamy to założeniem o normalności. Wiele zmiennych faktycznie występujących w doświadczeniach posiada rozkład normalny, co stanowi dodatkowy powód, dla którego rozkład normalny odgrywa tak wielką rolę w naukach przyrodniczych. Problem powstaje wówczas, gdy ktoś usiłuje zastosować test oparty na założeniu o normalności do zmiennych, które nie posiadają rozkładu normalnego (zob. testy normalności w opisie modułów Statystyki nieparametryczne lub ANOVA/MANOVA). W takich wypadkach mamy zazwyczaj dwie możliwości: możemy zastosować testy nie wymagające założenia o normalności (inaczej zwane testami nieparametrycznymi lub niezależnymi od rozkładu, zob. Statystyki nieparametryczne); przy czym jest to zazwyczaj niedogodne ze względu na małą moc takich testów i ich nieelastyczność w formułowaniu wniosków, albo mimo wszystko możemy posłużyć się testami opartymi o normalność, pod warunkiem, że dysponujemy dostatecznie liczną próbką. Ta ostatnia możliwość opiera się na ogromnie ważnym twierdzeniu, dzięki któremu testy oparte na rozkładzie normalnym posiadają tak wielkie znaczenie. Mówi ono, że w miarę jak wzrasta liczność próbki, rozkład statystyki testowej opartej na średniej(Fisher, 1928a) zbliża się do rozkładu normalnego, niezależnie od rozkładu zmiennej, którą mierzymy. Poniższa animacja ilustruje to twierdzenie. Widzimy na niej jak przy wzroście liczności próby (próby o liczności kolejno: 2,5,10,15 i 30) zmienia się rozkład średnich z próby dla zmiennej o bardzo niesymetrycznym (skośnym) rozkładzie, który wyraźnie odbiega od normalnego.

W miarę wzrostu liczności próby (dla prób użytych do wyznaczenia rozkładu statystyki z próby) rozkład statystyki z próby upodabnia się coraz bardziej do rozkładu normalnego. Zauważmy, że dla n=30, rozkład jest "nieomal" doskonale zgodny z normalnym (jak widzimy dopasowany rozkład normalny jest bardzo bliski rozkładowi statystyki z próby). Twierdzenie to nosi nazwę centralnego twierdzenia granicznego (termin ten został użyty po raz pierwszy przez Pólya, 1920; "Zentraler Grenzwertsatz").
Indeks


Skąd wiemy o konsekwencjach niespełnienia założenia o normalności? Chociaż wiele twierdzeń wzmiankowanych poprzednio można dowieść metodami matematycznymi, to jednak niektóre z nich ciągle nie doczekały się takiego dowodu i mogą być jedynie zademonstrowane w sposób empiryczny przy pomocy tak zwanej metody Monte Carlo. W eksperymencie przeprowadzanym tą metodą generuje się wielką liczbę próbek przy pomocy komputera. Próbki te mają z góry zadane własności, a wyniki uzyskane z nich są następnie analizowane przy pomocy szeregu różnych testów. W ten sposób można empirycznie ocenić typy i wielkość błędów, jakie popełniane są, gdy pewne założenia niezbędne do zastosowania specyficznych testów nie są spełnione przez analizowane dane. Metody Monte Carlo były intensywnie stosowane do zbadania wpływu niespełnienia założenia o normalności na zachowanie się testów opartych na tym założeniu. Ogólny wniosek, jaki wypływa z tych badań, jest taki, że konsekwencje złamania założenia o normalności nie są na ogół takie poważne, jak sądzono wcześniej. Chociaż konkluzja ta nie powinna nikogo zachęcać do zaniechania troski o sprawdzenie spełnienia założenia o normalności w jego badaniach, to jednak spowodowała ona niewątpliwie wzrost popularności stosowania testów statystycznych zakładających rozkład normalny we wszystkich dziedzinach badań.
Indeks






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.