Omówione są tu zagadnienia dotyczące mocy testów statystycznych, liczności próby, jak i zaawansowanych technik przedziałów ufności. Głównym celem pierwszych dwóch, wymienionych typów analiz jest umożliwienie, w trakcie planowania eksperymentu, (a) doboru wielkości próby na poziomie dającym wnioskom statystycznym odpowiednią dokładność i pewność, oraz (b) obliczenie prawdopodobieństwa wykrywania przez test efektów podanej wielkości, w konkretnych sytuacjach. Trzecia technika jest wykorzystywana w implementacji metod (a) oraz (b), a także do praktycznej oceny efektów doświadczalnych.
Obliczenia liczności próby stanowią ważny etap planowania eksperymentu, gdyż bez nich, próba może być za duża lub za mała. Jeśli próba jest zbyt mała eksperyment może mieć za małą dokładność albo dawać wnioski ze zbyt dużym błędem. Jeśli próba będzie zbyt duża, badania wymagać będą dużych środków i czasu, zazwyczaj przy minimalnym zysku statystycznym.
W niektórych programach do analizy mocy znaleźć można szereg analitycznych i graficznych narzędzi pozwalających na dokonanie dokładnej oceny czynników mających bezpośredni wpływa na moc testu czy wymaganą liczność próby, w większości powszechnie spotykanych typów analiz statystycznych. Mogą to być informacje kluczowe przy projektowani efektywnych ekonomicznie i skutecznych badań.
Procedury niecentralnej estymacji przedziałowej i inne zaawansowane procedury obliczania przedziałów ufności pozwalają stwierdzać istotność otrzymanych wyników doświadczalnych. Coraz większa liczba statystyków skłania się do poglądu, że w analizie danych przedziały ufności powinny zastąpić tradycyjne podejście poprzez testy statystyczne.
| Indeks |
Coraz szersze jest wykorzystanie przy planowaniu doświadczeń możliwości jakie daje analiza mocy testów oraz wyznaczanie liczności prób, czemu nie można się dziwić, ze względu na oszczędności przy eksperymentach. Niżej omówione są podstawowe idee leżące u podstaw tych metod.
Tak więc pobieramy próbkę i na jej podstawie obliczamy wielkość nazywaną statystyką, która jest estymatorem (oceną) pewnej charakterystyki (parametru) całej populacji.
Rozpatrzmy, na przykład sytuację polityka, który chciałby wiedzieć jaki procent ludności popiera jego pogląd na pewną sprawę. Polityk ten działa we władzach dużego miasta, liczącego prawie milion uprawnionych do głosowania. Interesującym parametrem, który oznaczyć możemy przez
będzie tutaj proporcja ludności popierającej stanowisko naszego polityka. Polityk zamierza przeprowadzić badanie ankietowe w grupie losowo wybranych osób. Grupa ta, o liczności N będzie oczywiście mała w stosunku do liczby wszystkich osób, których opinia interesowałaby polityka. Po przeprowadzeniu ankiety i policzeniu głosów "Za", otrzymujemy proporcję osób popierających kwestię. Proporcję tę, która jest statystyką, oznaczmy przez p.
Jednego możemy być w tej sytuacji pewni już przed przeprowadzeniem ankiety, tego że otrzymane p nie będzie równe rzeczywistemu
. Przyczyną jest fakt, że nie zapytaliśmy wszystkich obywateli, a jedynie losowy ich wybór. Różnicę między p i
nazywamy błędem losowym.
Zawsze mieć będziemy jakiś błąd losowy, który wyjątkowo, tylko na zasadzie przypadku może być równy zeru. Nigdy nie znamy konkretnej wartości błędu losowego. Gdybyśmy ją znali, znalibyśmy de facto poszukiwaną wartość
.
Ogólnie, im większa próbka (N) tym mniejszy błąd. (Podkreślić trzeba, że jest to generalna zależność, może się zdarzyć, że w próbie 10-cio elementowej otrzymamy lepszy wynik niż w 100-elemantowej, ale nie będziemy o tym wiedzieli.) Im dokładniej znać chcemy wielkość poparcia wyrażającą się proporcją
, tym większe N trzeba zastosować (co oczywiście będzie kosztowało). Przy zbyt małym N wynik (p) może być w ogóle bezużyteczny, a cała ankieta marnowaniem sił i środków.
Z drugiej strony, zbyt duże N da nam znikomy przyrost pewności wyniku, nie wart poniesionych kosztów. Po prostu, liczba N powinna być "wystarczająco duża" byśmy otrzymali wynik o "rozsądnym" poziomie dokładności.
Tak więc, planując badanie zadajemy sobie pytania: "Jaka będzie dokładność oceny interesującego mnie parametru, jeśli wezmę próbkę o danej wielkości?" albo "Jak dużą muszę mieć próbkę by osiągnąć zamierzony poziom dokładności?"
Zadaniem analizy mocy testów i oceny liczności prób jest właśnie udzielanie odpowiedzi na tak postawione pytania. W module tym są proste okna dialogowe pozwalające wykonywać obliczenia mocy testów statystycznych i wielkości (liczności) próby, dla wielu klasycznych procedur statystycznych oraz w bardziej złożonych sytuacjach (rozkłady niecentralne).
Logika testów statystycznych. Wróćmy do naszego polityka, który chciałby wykazać, że popiera go większość. Wyraża się to w pytaniu: "Czy
> 0,5?" Polityk oczekuje oczywiście pozytywnej odpowiedzi.
Strategia postępowania statystycznego jest następująca. Nazwijmy "zerową hipotezą statystyczną" tezę logicznie przeciwną temu czego oczekujemy. Hipotezę tą oznaczamy H0. Następnie zbieramy dane. Używając danych i odpowiedniej teorii statystycznej wykazujemy (albo nie wykazujemy), że hipoteza H0 jest raczej fałszywa i należy ją odrzucić.
Odrzucenie H0 oznacza potwierdzenie naszych oczekiwań. Tego typu sposób rozumowania, powszechny w wielu badaniach bywa nazywany "testowaniem odrzucająco-potwierdzającym" (OP) gdyż odrzucenie hipotezy zerowej oznacza potwierdzenie badanej tezy.
Hipoteza zerowa jest prawdziwa albo fałszywa i statystyczny proces decyzyjny nie zakłada innej możliwości. Hipotezę zerową odrzucamy albo jej nie odrzucamy. W sumie, przed podjęciem badania, mamy cztery możliwości, zebrane w poniższej tabeli.
| Rzeczywistość | |||
| H0 | H1 | ||
| Decyzja | H0 | Poprawne przyjęcie | Błąd II-rodzaju![]() |
| H1 | Błąd I-rodzaju
![]() | Poprawne odrzucenie | |
W tabeli występują dwa rodzaje błędów. Zwykle przyjmuje się, że częstość popełniania błędu I-rodzaju, oznaczana przez
powinna wynosić co najwyżej 0,05 lub być mniejsza, przy tym częstość
popełniania błędu II -rodzaju również nie może być duża. "Moc statystyczna", równa 1 -
, powinna być wysoka. Moc powinna wynosić co najmniej 0,8, aby zapewnić wykrycie znaczących odstępstw od hipotezy zerowej.
Konwencjonalnie, podejście do
jest znacznie sztywniejsze niż w przypadku
. Na przykład, w naukach społecznych bardzo rzadko badacz pozwala sobie na przekraczanie "magicznego" poziomu
=0,05.
Testowanie typu OP i PP. W kontekście testowania istotności statystycznej spotykamy się z dwiema sytuacjami, odrzucająco-potwierdzającą (OP - wspomnianą już wyżej) i przyjmująco-potwierdzającą (PP). Przy testowaniu typu OP, hipoteza zerowa jest przeciwieństwem tego, co badacz chciałby wykazać. Lekarz testujący nową terapię oczekuje, ze da ona wynik, czyli że pacjenci szybciej wyzdrowieją, tymczasem hipoteza zerowa mówi o braku różnicy w czasie powrotu do zdrowia przy nowej i starej terapii.
Przy testowaniu OP, błąd I-rodzaju oznacza błędne potwierdzenie tezy badacza. Z punktu widzenia reszty społeczeństwa, błąd ten jest szczególnie niekorzystny. Spowodować on może podjęcie inwestycji i wysiłków, a co najmniej dalszych badań, które nie mają szans powodzenia.
Natomiast błąd II-rodzaju (przy teście OP) jest bardzo niekorzystny dla badacza, gdyż jego słuszne przewidywania nie zostały potwierdzone jedynie na skutek losowego błędu. Lekarz, który wymyślił nową terapię wpada w frustrację, gdyż był głęboko przekonany o swojej racji, a wynik testu statystycznego jednak jej nie potwierdził. Badania nad tą terapią nie będą kontynuowane i nikt się już nie dowie, jaka była prawda, a medycyna straciła cenny pomysł.
Interesy rozkładają się więc następująco. Społeczeństwo (reprezentowane na przykład przez wydawców czasopism naukowych) zainteresowane jest w utrzymywaniu wielkości
na niskim poziomie. Natomiast zorientowany w statystyce badacz będzie chciał mieć w swoim teście jak najmniejsze b. Najlepiej byłoby, dla wszystkich, mieć małe a i jednocześnie małe
, niestety, jak można się spodziewać, nie można mieć jednocześnie sytego wilka i owcy w dobrym zdrowiu.
Testowanie typu OP (odrzucająco-potwierdzające) występuje najczęściej i dlatego związane z nim konwencje zdominowały popularne widzenie zagadnienia testów statystycznych. Niedopuszczalne wydaje się więc przekraczanie konwencjonalnych progów oczekiwanych częstości błędów, a badacz ma obowiązek zapewnić właściwą moc testu. Można mieć różne poglądy na tak ostro postawione wymagania, jednak nie można odmówić im racjonalności.
Przy testowaniu PP (przyjmująco-potwierdzającym) inaczej patrzy się na możliwość błędów obu rodzajów. Hipoteza H0 wyraża tu pogląd (nadzieję) badacza. W takiej sytuacji błąd I-rodzaju jest fałszywym zaprzeczeniem przewidywań badacza, a błąd II-rodzaju fałszywym ich potwierdzeniem. Tak więc korzystne dla teorii przedstawianej przez badacza byłoby tu coś zupełnie nierealnego przy testowaniu OP, mianowicie przyjęcie bardzo niskiego a, na przykład 0,001.
W obu sytuacjach, OP i PP, łatwo podać przykłady trudnych badań i nierealistycznego testowania ich wyników. Rozpatrzmy najpierw przypadek OP. Czasami nie da się powiększyć próbki. Psycholog kliniczny może spędzić kilka dni na badaniu tylko jednego pacjenta; po roku będzie miał on N=50 obserwacji. A testy korelacji (częste w tego typu badaniach) mają małą moc przy małych licznościach próbek. W takiej sytuacji konieczne (i sensowne) może być wyjście ponad wartość
=0,05, jeżeli otrzyma się przy tym rozsądną moc testu.
Z drugiej strony, możliwe są sytuacje za dużej mocy testu. Na przykład w testowaniu zgodności dwóch średnich (mi1 = mi2) przy milionie pomiarów w każdej grupie (w przemyśle, przy automatycznych pomiarach N=1000000 nie jest od rzeczy). W takiej sytuacji, hipoteza zerowa prawie zawsze będzie odrzucona, przy najmniejszych, w jakimś sensie przypadkowych różnicach.
Sytuacja taka jest tym bardziej sztuczna przy testach PP. Jeżeli N jest bardzo duże, to badacz prawie zawsze zmuszony będzie odrzucić swoją teorię, nawet jeżeli "tak naprawdę" jest to dobra i wartościowa hipoteza i "całkiem" dobrze pasuje do danych. Zbyt duża dokładność doświadczenia działałaby tu na niekorzyść eksperymentatora.
Podsumowując:
Przy testach typu OP (odrzucająco-potwierdzających):
| Indeks |
| Indeks |
Przyjrzyjmy się pokrótce jakiego typu rozumowanie statystyczne będzie odpowiednie przy obliczaniu mocy i liczności próby. Wróćmy do przykładu polityka zastanawiającego się nad tym ilu mieszkańców miasta trzeba spytać o opinię o jego nowym pomyśle.
Oczywiście żadna teoria statystyczna nie powie co będzie w przypadku jednego badania opinii. Statystyka wypowiada się o zachowaniu w hipotetycznej długiej serii badań (danej liczby respondentów).
Ważne jest tu pojecie rozkładu z próby, czyli rozkładu wartości pewnej statystyki przy powtarzanych badaniach wielu prób. Wróćmy do proporcji p z próbki otrzymanej w wyniku ankietowania N mieszkańców, w sytuacji, gdy rzeczywista proporcja preferencji
wynosi dokładnie 0,50. Teoria rozkładów z próby mówi, że p ma rozkład, który można obliczyć z rozkładu prawdopodobieństwa dwumianowego. Dla niezbyt małych N i dla
niezbyt bliskiego 0 ani 1, rozkład ten przypomina rozkład normalny o średniej
i odchyleniu standardowym
sp = (p(1-p)/N)**1/2
Załóżmy, że polityk zlecił ankietowanie N=100 osób. Rozkład obserwowanej proporcji p będzie wtedy następujący (przy założeniu, że
= 0,5).

Najwyższe prawdopodobieństwo jest przy (i wokół) 0,5, ale jest też pewne prawdopodobieństwo otrzymania p większego od 0,6 albo mniejszego od 0,4. Taki rozkład prawdopodobieństwa wskazuje na niedoskonałość badania opartego na zaledwie N=100 elementowej próbie.
Wartość p odwzorowywała by
doskonale, gdyby odchylenie standardowe było zerowe i całe prawdopodobieństwo (=1) było skupione na wartości p=0,5. Szerokość rozkładu z próby wskazuje jak dużo "szumu" mamy we właściwym "sygnale" dotyczącym parametru
.
Zauważmy, że według podanego wyżej wzoru na odchylenie standardowe proporcji p, im większe N tym mniejsze będzie odchylenie (czyli szerokość rozkładu). Przy dostatecznie dużym N, będziemy mogli być niemal pewni, że otrzymane p jest bardzo bliskie rzeczywistości.
Przypuśćmy, że polityk przyjął następujące kryterium decyzyjne. Jeżeli otrzymane p jest większe od 0,58, to odrzuca hipotezę zerową o tym, że
jest mniejsze lub równe 0,50. Tę regułę odrzucania hipotezy można zilustrować następująco:

Sumując odpowiednie prawdopodobieństwa z wykresu sprawdzilibyśmy, że prawdopodobieństwo odrzucenia hipotezy zerowej (że p = 0,50) wynosi 0,044. Tak więc, przy takiej regule decyzyjnej mamy prawdopodobieństwo popełnienia błędu I rodzaju
= 0,044. Jest to najniższa (w sensie granicy 0,58) reguła zapewniająca
mniejsze od 0,05.
Nasz polityk interesuje się również mocą testu, gdyż to właśnie odrzucenie hipotezy zerowej pozwala mu stwierdzić, że opinia publiczna jest po jego stronie.
Przypuśćmy, że popiera go 55% ludności, tzn.
= 0,55 i hipoteza zerowa jest (de facto) fałszywa. Poprawną decyzją byłoby więc odrzucenie hipotezy. Jakie jest, w takiej sytuacji prawdopodobieństwo otrzymania p większego niż graniczne 0,58, wymagane do odrzucenia hipotezy zerowej?
Na poniższym wykresie dodano krzywą rozkładu p dla
= 0,55. Widać, że tylko mała część rozkładu znajduje się na prawo od 0,58, dlatego prawdopodobieństwo podjęcia właściwej decyzji o odrzuceniu hipotezy wynosi tylko 0,241.

Jasne jest, że nie ma sensu prowadzić badania, w którym prawdopodobieństwo potwierdzenia swojej słusznej tezy wynosi zaledwie 0,241! Statystyk powie w takiej sytuacji, że test statystyczny ma za małą moc do wykrycia niewielkiego, w końcu, odstępstwa od hipotezy zerowej, bo wynoszącego tylko 5 punktów procentowych (55% poparcia względem 50%).
Rzecz w szerokości rozkładów, gdyby próba była liczniejsza, odchylenie standardowe byłoby mniejsze i oba rozkłady w mniejszym stopniu zachodziłyby na siebie. Wtedy można byłoby znaleźć wartość graniczną (kryterium decyzyjne) dającą małe
i dużą moc testu.
Pytanie brzmi: jak duże musi być N by otrzymać rozsądną moc testu (zachowując przy tym rozsądnie niskie
).
Można, oczywiście, drogą wielokrotnych prób obliczeniowych znaleźć odpowiednie N. Jednak dobry program wykona odpowiednie obliczenia automatycznie. Ponadto, każda analiza mocy daje szerokie możliwości bliższego zrozumienia sytuacji, na przykład poprzez wykresy teoretycznych zależności między mocą, wielkością próby i odpowiednimi zmiennymi. Zakładając, że zamiast dokładnego testu bazującego na rozkładzie dwumianowym zastosujemy standardowy test Chi-kwadrat, i przyjmując, że polityka satysfakcjonuje moc 0,80 wykrycia p wynoszącego 0,8 otrzymujemy wielkość próby 607. Moc wynosi wtedy dokładnie 0,8009, a dokładny poziom alfa testu wynosi 0,0522 (przy nominalnej wartości 0,05).
| Indeks |
Rozsądne obliczanie mocy i wielkości próby, uwzględniające wiele różnych "ubocznych" warunków wymaga studiowania wykresów zależności mocy od liczności próby, od stopnia niezgodności z hipoteza zerową (czyli wielkości spodziewanego efektu) i innych czynników, takich jak prawdopodobieństwo błędu I rodzaju.
We wspomnianym już przykładzie z politykiem, celem jest zaplanowanie badania ankietowego, które rozstrzygnęłoby, z niskim prawdopodobieństwem błędu, czy stopień poparcia polityka przekracza 0,50. Dużo światła na zagadnienie możliwości testu statystycznego rzucają tu odpowiednie wykresy.
Możemy, na przykład wykreślić moc względem liczności próby, przy założeniu rzeczywistego poparcia na poziomie 0,55. Zacząć możemy od wykresu obejmującego szeroki zakres liczności próby, tak, by uzyskać całościowy pogląd na zachowanie się testu statystycznego. Poniższy wykres mocy względem liczności obejmuje zakres liczności od 20 do 2000 i wykorzystuje "przybliżenie normalne" dokładnego rozkładu dwumianowego.

Z powyższego wykresu odczytać można, że moc testu osiąga akceptowalny poziom (czyli ok. 0,8 - 0,9) przy liczności próby rzędu 600.
Nie wolno zapominać, że obliczenia te bazują na założeniu, że rzeczywista wartość p wynosi 0,55. A można się spodziewać, że kształt krzywej ilustrującej zależność mocy od wielkości próby będzie silnie zależał od przyjętej wartości p.
Jest wiele sposobów sprawdzenia tego przypuszczenia. Możemy, na przykład wykreślić moc w funkcji liczności próby dla innej wartości p. Niżej znajduje się wykres otrzymany dla p = 0,6.Jest wiele sposobów sprawdzenia tego przypuszczenia. Możemy, na przykład wykreślić moc w funkcji liczności próby dla innej wartości p. Niżej znajduje się wykres otrzymany dla p = 0,6.

Od razu widać, że w tym przypadku moc rośnie znacznie szybciej ze wzrostem N, niż przy p = 0,55. Różnicy lepiej przyjrzeć się można na łącznym wykresie zawierającym obie krzywe:

Planując badanie, a szczególnie wysyłając prośbę o finansowanie badań, w której podajemy wielkość próby, musimy rozpatrzyć jak silnego efektu się spodziewamy, jaka jest minimalna, potrzebna moc testu i jak wielką próbę badawczą musimy w związku z tym zebrać. Wielkość próby odczytujemy z takiego wykresu jak powyższe lub bezpośrednio uzyskujemy N w odpowiednim programie. Jeżeli, na przykład chcemy mieć moc 0,9 przy p = 0,55, to minimalną, wymaganą liczność próby odczytamy bezpośrednio w wynikowym arkuszu:
| Jedna frakcja, test Z, Chi-kwadrat H0: Pi < = Pi0 | |
| Wartość | |
|---|---|
| Frakcja wg H0 (Pi0) | 0,5000 |
| Frakcja w populacji (Pi) | 0,5500 |
| Alfa (Nominał) | 0,0500 |
| Moc docelowa | 0,9000 |
| Wymagana liczność próby (N) | 853,0000 |
| Alfa obliczone (dokładne) | 0,0501 |
| Moc (przybliżenie normalne) | 0,9001 |
| Moc (dokładnie) | 0,9002 |
Przy zadanym poziomie mocy testu, wykres liczności próby w funkcji p pokazuje jak N jest czułe na przyjętą wartość p. Na poniższym wykresie widać jak liczność próby wymagana do osiągnięcia mocy 0,9, zależy od wartości p, przy hipotezie zerowej p = 0.5.

Na powyższym wykresie widać jak gwałtownie spada N przy przejściu od p = 0,55 do 0,60. By wykryć różnicę w p wynoszącą zaledwie 0,05 (0,55 względem hipotezy zerowej 0,50) trzeba zbadać ponad 800 jednostek, ale już do wykrycia różnicy 0,1 wystarczy N ok. 200. Nie jest więc zupełnie oczywiste jakiej próby będziemy potrzebowali. Na pewno jednak dobrze jest wcześniej zorientować się, co test może nam dać w różnych sytuacjach, zanim zaczniemy pobieranie próbek i staniemy przed faktem, że mamy ich stanowczo za mało, a na więcej nie możemy sobie pozwolić i, w związku z tym wszystko na nic. Powiedzmy, na przykład, że badacz ocenił wielkość próby tak by wykryć p = 0,6 (z mocą 0,9). Pieniędzy otrzymał na, powiedzmy 220 pomiarów i sądzi, że to powinno wystarczyć, nawet jeśli efekt jest nieco słabszy niż 0,6. Po fakcie natomiast okazuje się, że efekt nie został wykryty, bo w istocie był tylko nieco słabszy, ale w tym obszarze wartości p zależność N od p jest bardzo stroma i wymagana liczność próby szybki rośnie gdy p zbliża się do 0,50. A można było to przewidzieć i inaczej zaplanować badanie.
W większości typowych sytuacji analitycznych postępowanie przy ocenie mocy testu i wymaganej liczności próby jest takie samo:
| Indeks |
Analizy mocy testów i estymacja przedziałowa korzysta z wielu metod obliczania przedziałów ufności, jakie nie są dostępne w pakietach statystycznych ogólnego stosowania. Niektóre z nich dotyczą zagadnień obejmowanych nazwą "niecentralna estymacja przedziałowa", a opracowanych przez Steigera i Fouladi'ego (1997). W poniższych punktach znajdują się omówienia przyczyn rosnącej popularności przedziałów ufności.
Nieadekwatność podejścia testowego. Wynik zastosowania testu statystycznego to, dokładnie rzecz biorąc, dychotomiczna decyzja o odrzuceniu lub nie odrzuceniu hipotezy zerowej. Takie dychotomiczne (tak/nie) podejście nie satysfakcjonuje typowego badacza, dla którego hipoteza zerowa oznacza najczęściej brak efektu, którego się spodziewał, gdyż poza tym, czy efekt jest, czy go nie ma, chciałby wiedzieć jak ten efekt jest silny. To skutkuje pojawianiem się pojedynczych, podwójnych albo i potrójnych gwiazdek w tabelach wyników, albo, po prostu podawaniem wartości p. Tymczasem wartość p (p-value) niekoniecznie jest dobrym, monotonicznym wskaźnikiem siły badanego efektu i może być myląca. Niektórzy statystycy (np. Guttman, 1977) uważają i zapewne mają rację, że dodawanie gwiazdek "wzmacniających" znaczenie wyniku jest niezgodne z logiką testu statystycznego.
Poziom prawdopodobieństwa (p-value) może wprowadzać w błąd co do "siły" wyniku, szczególnie jeśli nie towarzyszą mu żadne uzupełniające informacje. Na przykład, jeśli w tabeli ANOVA jeden z efektów ma poziom-p 0,019, a inny 0,048, to błędem jest sądzić, że wynik statystyczny jednoznacznie wskazuje na większą siłę pierwszego efektu względem drugiego. Konieczne są dodatkowe informacje. Dlaczego? Przypuśćmy, że ktoś podaje poziom-p 0,001. Liczba imponująca, ale może to być efekt istnienia w populacji nieciekawego, słabego efektu lecz ogromnie licznej próby, albo też poważnego efektu i próby umiarkowanej wielkości lub bardzo silnego efektu i małej próby. Podobnie p=0,075 może wynikać z istnienia silnego efektu badanego poprzez małą próbę albo słabego efektu wykrytego w dużej próbie. Jasne jest, że przy porównywaniu różnych prawdopodobieństw testowych p konieczna jest ostrożność.
Przy testowaniu PP (przyjmująco-potwierdzającym), częstym w kontekście budowy modeli w analizie czynnikowej (przy "modelowaniu przyczyn") logika testowania istotności jest z gruntu nieodpowiednia. Odrzucenie "niemal pewnej" hipotezy zerowej bywa tu często komentowane w niejasny sposób, że wyniku testu nie można traktować zbyt poważnie. Natomiast nieudana próba odrzucenia hipotezy zerowej skutkować może uwagami czujnego redaktora czasopisma naukowego zalecającymi wykonania skomplikowanych obliczeń mocy testu. Czasem da się uniknąć takich kłopotów stosując przedziały ufności.
| Indeks |
Obliczanie przedziałów ufności jest, w większości przypadków, dobrą alternatywą testów istotności. Rozpatrzmy jako przykład dwustronną hipotezę o braku różnicy pomiędzy średnimi. Na wstępie przypomnijmy, że odrzucenie hipotezy w teście, na poziomie istotności
, następuje wtedy i tylko wtedy, gdy przedział ufności 1-
, dla różnicy średnich nie zawiera zera. Tak więc można wykonać test za pomocą przedziału ufności. Sposób obliczania takiego przedziału ufności podawany jest w podstawowych podręcznikach do statystyki dla psychologów, ekonomistów itp. Przedział jest dokładny przy spełnieniu założeń standardowego testu t. Przedział ufności niesie informację o dokładności eksperymentu, której nie zawiera wynik testu istotności statystycznej.
Tak więc, jeżeli mamy dobre pomiary, to znacznie więcej informacji przekazujemy podając przedział ufności dla różnicy mi1-mi2, niż poziom-p otrzymany w teście t, przy hipotezie zerowej mi1-mi2=0. Przedział ufności zawiera więcej informacji i podaje ją w bardziej naturalny sposób, niż ma to miejsce w przypadku statystycznego testu istotności.
Rzecz staje się zupełnie przekonująca, gdy na jednym wykresie przedstawimy wyniki kilku doświadczeń:

Mamy tu przedziały ufności dla różnic między średnimi w trzech doświadczeniach, dotyczących tej samej sytuacji, w których używano miary o podobnej zmienności. W przypadku 1 i 3 przedział ufności nie zawiera zera, czyli hipoteza zerowa byłaby odrzucona. W przypadku 2 przedział zawiera zero, więc test statystyczny nie dał by podstaw do odrzucenia hipotezy o braku różnicy. Po przeprowadzeniu trzech testów statystycznych mielibyśmy wrażenie, a nawet więcej niż tylko wrażenie, że wynik drugiego eksperymentu nie zgadza się z wynikami pierwszego i trzeciego.
Inną interpretację sugerują przedziały ufności. W pierwszym przypadku mieliśmy bardzo dużą próbę i dokładne pomiary, co skutkuje bardzo wąskim przedziałem ufności. W takiej sytuacji wykryty został (w teście oceniony jako istotny) nawet słaby efekt.
W drugim doświadczeniu mamy słabą precyzję, a więc szeroki przedział ufności. Próba najwyraźniej była za mała. Całkiem możliwe jest, że efekt w tym doświadczeniu jest znacznie silniejszy niż w pierwszym, ale dokładność jest za niska by go wykryć.
W trzecim doświadczeniu efekt jest statystycznie istotny i zapewne silniejszy niż w pierwszym, jednak mniejsza dokładność nie pozwala tu na jednoznaczny wniosek. Przedział ufności jest węższy niż w przypadku 2, ale znacznie szerszy niż w przypadku 1.
Przypuśćmy, że omawiane doświadczenia polegały na badaniu IQ. Mając za dużą moc w pierwszym doświadczeniu wykazywać będziemy jako "wysoce istotny" efekt raczej słaby, wyraźnie mniejszy niż jeden stopień IQ. W drugim badaniu mamy za mało mocy by wykryć nawet silny efekt, natomiast badanie trzecie wydaje się dobrze zaplanowane.
Powyższe argumenty za stosowaniem przedziałów ufności podziela wielu badaczy. Mimo to, jednak rzadko spotyka się przedziały ufności w literaturze naukowej. Co więcej, jak to zostanie pokazane dalej, są wyjątkowo przydatne przedziały ufności, które nigdy nie są podawane. Przyczyny takiego stanu rzeczy są omawiane w kolejnym punkcie.
| Indeks |
Zwyczaj. Tradycyjne podejście do statystyki polega raczej na testowaniu istotności niż na estymacji przedziałów.
Pragmatyzm. W sytuacjach OP (odrzucająco-potwierdzających) przedziały mogą być kłopotliwe w interpretacji. Jeżeli są wąskie lecz bliskie zeru, wskazują na wynik "bardzo istotny" lecz banalny. Gdy są szerokie, zdradzają brak precyzji wykonanego doświadczenia.
Nieznajomość. Niezbyt wielu ludzi wie o dostępnych, bardzo przydatnych procedurach estymacji przedziałów. W wielu podręcznikach analizy wielowymiarowej nie wspomina się na przykład, w ogóle o możliwości skonstruowania przedziału dla kwadratu współczynnika korelacji wielokrotnej.
Niedostępność. Niektóre z najlepszych procedur estymacji przedziałowej wykorzystują algorytmy intensywne obliczeniowo i, w związku z tym nie znajdziemy ich w większości programów statystycznych.
| Indeks |
Analiza wariancji. Jednym z obszarów gdzie rzadko stosuje się przedziały ufności jest ocena siły efektów w analizie wariancji (ANOVA).
Powiedzmy, na przykład, że czytając pewien raport znajdujemy w nim informację o wykonanej jednoczynnikowej ANOVA z czterema grupami i N = 60 w grupach, gdzie w wyniku otrzymano statystykę F istotną na poziomie 0,05 ("F = 2,70, p =0,0464"). Wynik jest istotny statystycznie ale zachodzi pytanie jakie ma on praktyczne znaczenie? Czego dowiadujemy się o wielkości osiągniętego efektu?
Technika przedziałów ufności dla wielkości efektów w analizie wariancji (dyskutowana w pracy Fleischmana, 1980) pozwala znajdować przedziały dla RMSSE (root-mean-square standardized effect) - efektów standaryzowanych, wyrażanych w jednostkach odchylenia standardowego, dzięki czemu są porównywalne dla różnych wielkości. W przypadku wspomnianych wyżej danych statystyka F, istotna na poziomie 0,05 daje 90% przedział ufności dla RMSSE od 0,0190 do 0,3139. Dolna granica ma nieprzekonującą wartość, równą dwóm setnym odchylenia standardowego. Górna granica reprezentuje efekt na poziomie 1/3 odchylenia standardowego, wartość do przyjęcia, ale nie przytłaczająca wątpiących. Widać teraz, że wynik analizy nie wskazuje na istnienie naprawdę silnego efektu, choć jest on statystycznie istotny.
Regresja wieloraka. Kwadrat współczynnika korelacji wielorakiej uznawany jest za dobry wskaźnik ogólnej siły predykcyjnej otrzymanego równania. Jednak mając dopasowane do danych równanie predykcyjne, postawić można następujące pytania: (a) "Jak efektywna jest predykcja zmiennej zależnej?" i (b) "Jaka jest dokładność oceny tej efektywności?"
Widać, że bardzo popularna metoda statystyczna regresji wielorakiej domaga się wręcz przedziałów ufności. Publikując raport, w którym podaje się otrzymaną wartość R-kwadrat, razem z wynikiem testu z hipotezą zerową, że R=0, ujawnia się niewielką część dostępnej informacji statystycznej. Przedział ufności dla R-kwadrat niesie znacznie więcej informacji.
Jest jeden program, który oblicza dokładne przedziały ufności populacyjnego kwadratu współczynnika korelacji wielokrotnej, według metody Steigera i Fouladi'ego (1992). Rozpatrzmy przykład, w równanie regresji otrzymaliśmy na podstawie 45 niezależnych obserwacji 5 zmiennych, a R^2=0,40. Otóż 95% przedział ufności dla R^2 w populacji wynosi 0,095 - 0,562! Ograniczenie dolne, przy poziomie ufności 95% wynosi 0,129. Równocześnie otrzymane R^2 jest istotne na poziomie 0,001, gdyż odpowiadająca wartość p=0,0009 (skorygowane R^2 wynosi 0,327). Oczywiście sformułowanie "kwadrat R jest istotny na poziomie 0,001" brzmi znacznie lepiej niż "na poziomie ufności 95% kwadrat R populacji mieści się w przedziale od 0,095 do 0,562". Wydaje się jednak, że to drugie sformułowanie lepiej oddaje prawdę o wyniku regresji wielorakiej.
Niektórzy analitycy (np. Lee, 1972) wolą podawać jednostronne, dolne ograniczenie R^2 raczej niż przedział ufności. To wydaje się dość naturalne, jako, że najczęstszym pytaniem jest jak dobra jest regresja, czyli jaki procent wariancji wyjaśnia, a właściwie, co najmniej jaki procent. Jednak pełny przedział ufności, w którym poza dolną granicą mamy też górną daje pełniejszą informację o precyzji estymacji.
| Indeks |
