ANOVA opowiedziana od nowa

Analiza wariancji, w skrócie ANOVA, to klasyczny temat w statystycznej analizie danych. Czy napisano o niej już wszystko? Możliwe, że tak, za to tutaj położymy nacisk na obrazowanie rozmaitych pojęć z nią związanych za pomocą odpowiednich wykresów i rysunków. W końcu jeden obraz jest wart więcej niż tysiąc słów…

W analizie wariancji testujemy istotność wpływu czynników na pewną wielkość liczbową, mogącą się zmieniać w sposób ciągły, którą nazywamy zmienną zależną. Zakładamy, że żaden badany czynnik nie ma takiego charakteru jak zmienna zależna, a mianowicie może przyjąć tylko pewną spośród paru lub kilku możliwych wartości. Zatem to, którą wartość przyjął czynnik, albo ma wpływ na przeciętny poziom zmiennej zależnej, albo nie ma wpływu i wtedy mówimy o nim, że jest nieistotny. Początków analizy wariancji dopatrujemy się zazwyczaj w doświadczeniach polowych i rolniczych sprzed ponad wieku i łączymy z tym panem – ktoś go jeszcze kojarzy?

Niech więc przykładowe pytanie, na które może odpowiedzieć ANOVA, brzmi tak:

Przykład: Jak stopień nawadniania, rodzaj gleby i sposób nawożenia wpływają na wielkość plonu ziemniaka, wyrażoną w kwintalach na hektar?

Tutaj mamy trzy czynniki i powiedzmy, że każdy układ ich wartości, taki jak:

nawadnianie średnie + gleba gliniasta + nawóz B

zostaje zastosowany na pewnej liczbie osobnych poletek. Oprócz tych znanych czynników na wielkość plonu ma wpływ wiele innych rzeczy, które w zasadzie są poza naszą kontrolą i ich łączny wpływ uznajemy za losowy.

Czy to w tym przypadku, czy w innym, całkowitą zmienność zmiennej zależnej, czyli jej wariancję, chcemy rozbić na składniki pochodzące od różnych źródeł. Stąd też nazwa ‘analiza wariancji’. Dla ziemniaków mogłoby to wyglądać następująco:

I naturalnie chcemy stwierdzić także, ile wynosi przeciętny poziom zmiennej zależnej dla poszczególnych poziomów czynnika, o ile okaże się on istotny. Może to być przeciętny plon dla poszczególnych nawozów, rozważanych samodzielnie lub w połączeniu z rodzajem gleby. Odpowiedź na to wszystko da ANOVA, jeśli tylko będą spełnione odpowiednie założenia i zostaną wskazane prawidłowe powiązania między czynnikami. Tak jak na powyższym wykresie kołowym, takie powiązanie zazwyczaj występuje w postaci interakcji, kiedy to wpływ poziomu jednego czynnika zależy od poziomu drugiego czynnika. O tym, że ma miejsce interakcja, świadczy ,,istotna nierównoległość” przebiegu wartości średnich, a co to oznacza, staje się chyba jaśniejsze, gdy oglądamy poniższy wykres:

Gdyby nie było interakcji, widoczne wyżej kolorowe łamane byłyby w przybliżeniu równoległe.

A co gdybyśmy stosowali różne nawozy w zależności od rodzaju gleby, powiedzmy po trzy? Przy trzech rodzajach gleby mielibyśmy razem dziewięć rodzajów nawozu i znajomość nawozu wskazywałaby od razu na to, do której gleby został zastosowany. Wówczas mielibyśmy do czynienia z zagnieżdżeniem czynników, co oddaje poniższy rysunek:

Jeśli pomiary zmiennej zależnej są rozciągnięte w czasie, to mamy z kolei czynnik powtarzanych pomiarów. Ten czynnik do analizy wariancji może wejść sam lub razem z innymi, zwykłymi czynnikami. Wiąże się on z potrzebą uwzględnienia kolejnego czynnika – czynnika obiektu, który jest poddawany tym wielokrotnym pomiarom. Najczęściej nie testujemy jego istotności. Ważniejsze jest to, że jest on czynnikiem losowym, a nie stałym, jak pewnie większość opisywanych do tej pory czynników. Na czym polega różnica? Czynnik jest losowy, gdy jego poziomy, które znalazły się w doświadczeniu, zostały uzyskane w sposób losowy z większego zbioru wszystkich możliwych poziomów. Jeżeli uwzględnione poziomy czynnika to dokładnie te, które miały być przedmiotem badania lub też po prostu wszystkie możliwe, to czynnik jest stały. Takie rozróżnienie można zobrazować w ten sposób:

W przypadku plonu ziemniaka czynnikiem losowym mogłaby być gleba, jeśli zamiast trzech wskazanych przez nas rodzajów gleby losowalibyśmy trzy miejsca sadzenia ziemniaków spośród, na przykład, kilkudziesięciu miejsc o różnych warunkach glebowych.

Podsumowując, możemy rozważać interakcje, zagnieżdżenia, stałość/losowość, powtarzane pomiary… a nawet zagnieżdżenia w interakcjach. Nie ma przeszkód matematycznych, co najwyżej psychologiczne lub zdroworozsądkowe 😊

A jak powinna wyglądać ANOVA na Twoich danych? Chętnie doradzimy na szkoleniach, konsultacjach lub wykonamy ją w ramach zleconej analizy.

Autor: Paweł Januszewski, Starszy konsultant w zespole analizy danych.

Wróć do aktualności

Masz pytania?

Porozmawiaj z nami!

Jesteśmy tutaj, aby pomóc i rozwiać wszystkie Twoje wątpliwości. Wypełnij formularz, napisz do nas maila lub zadzwoń – odpowiemy najszybciej, jak to możliwe!

    Przejdź do treści