© Copyright StatSoft, Inc., 1984-2011
Przeszukaj Internetowy Podręcznik Statystyki
Uogólnione modele liniowe i nieliniowe (GLZ)


Rozdział ten opisuje wykorzystanie uogólnionego modelu liniowego do analizy liniowych lub nieliniowych wpływów predyktorów jakościowych lub ciągłych na zmienną zależną o charakterze skokowym lub ciągłym. Jeśli czytelnik nie jest dobrze obeznany z metodami analizy regresji w modelach liniowych, zaleca się przestudiowanie podstawowych informacji na ten temat zamieszczonych w rozdziale Podstawowe pojęcia w statystyce . Omówienie sposobów rozszerzenia modelu regresji liniowej za pomocą ogólnego modelu liniowego można znaleźć w rozdziale Ogólne modele liniowe .

Dalsze informacje na temat uogólnionych modeli liniowych można znaleźć w książkach: Dobsona (1990), Greena i Silvermana (1994) lub McCullagha i Neldera (1989).


Podstawowe idee

Uogólniony model linowy (GLZ) stanowi uogólnienie ogólnego modelu liniowego (patrz np. Ogólny model liniowy (GLM) , Regresja wieloraka oraz ANOVA/MANOVA ). W swojej najprostszej postaci model liniowy określa (liniowe) powiązanie pomiędzy zmienną zależną (lub odpowiedzią) Y, a zbiorem predyktorów (zmiennych objaśniających) X, o postaci

Y = b0 + b1X1 + b2X2 + ... + bkXk

W równaniu tym b0 jest współczynnikiem regresji dla wyrazu wolnego, a bi to współczynniki regresji dla zmiennych (o numerach od 1 do k), obliczone na podstawie danych.

Dzięki takiemu modelowi można na przykład ocenić (przewidzieć) wagę człowieka na podstawie jego wzrostu i płci. Do oszacowania współczynników regresji na podstawie obserwacji z próby można byłoby zastosować model regresji liniowej mierząc wzrost, wagę oraz określając płeć osób wchodzących w skład próby. Dla wielu zagadnień analizy danych estymacja liniowych związków pomiędzy zmiennymi wystarcza do opisu zebranych danych oraz do przewidywania wartości dla nowych obserwacji (dalsze szczegóły można znaleźć w rozdziale Regresja wieloraka ).

Istnieje jednakże wiele związków, których nie można w adekwatny sposób opisać za pomocą prostego równania liniowego z powodu dwóch głównych przyczyn:

Rozkład zmiennej zależnej. Po pierwsze rozkład interesującej nas zmiennej zależnej może nie być rozkładem ciągłym i dlatego wartości przewidywane powinny również podlegać takiemu rozkładowi; gdyż jakiekolwiek inne wartości prognozowane nie są logicznie możliwe. Przykładowo, badacz może chcieć przewidywać wystąpienia jednej z trzech możliwych wartości zmiennej wynikowej (np. wybór przez konsumenta jednego z trzech alternatywnych produktów). W tym przypadku zmienna zależna może przyjmować tylko jedną z trzech różnych wartości, a jej rozkład jest rozkładem wielomianowym . Podobnie w zagadnieniach planowania rodziny, relacja pomiędzy liczbą dzieci w rodzinie a wielkością dochodu i różnymi innymi wskaźnikami socjoekonomicznymi. Zmienna zależna - liczba dzieci w rodzinie - jest zmienną skokową (tzn. rodzina może liczyć 1, 2, 3 ... dzieci ale nie 2,4 dziecka) i najprawdopodobniej rozkład tej zmiennej jest rozkładem mocno skośnym (tzn. większość rodzin ma 1, 2 lub 3 dzieci, znacznie mniej rodzin będzie miało 4 lub 5 dzieci a tylko niewiele będzie miało 6 lub 7 dzieci, itd.). W tym wypadku rozsądnie byłoby założyć, że zmienna zależna podlega rozkładowi Poissona .

Funkcja wiążąca. Drugą przyczyną powodującą, że model liniowy (regresji wielorakiej) będzie nieodpowiedni dla opisu określonego związku, może być z natury nieliniowy charakter wpływu predyktorów (zmiennych objaśniających) na zmienną zależną. Na przykład związek pomiędzy wiekiem osoby oraz różnymi wskaźnikami jej stanu zdrowia jest najprawdopodobniej nieliniowy. Różnica między przeciętnym stanem zdrowia ludzi w wieku trzydziestu lat oraz przeciętnym stanem zdrowia ludzi w wieku czterdziestu lat jest niezbyt duża. Natomiast różnica stanu zdrowia ludzi w wieku 60 lat i ludzi w wieku 70 lat jest zapewne większa. A zatem, związek pomiędzy wiekiem i stanem zdrowia jest prawie na pewno z natury nieliniowy. Jakiś rodzaj funkcji potęgowej byłby prawdopodobnie bardziej adekwatny przy opisie związku pomiędzy wiekiem i stanem zdrowia, dlatego że każdy przyrost wieku w starszych osób będzie miał większy wpływ na stan zdrowia w porównaniu do takiego samego przyrostu wieku w okresie wczesnej dorosłości. Innymi słowy, związek pomiędzy wiekiem i stanem zdrowia jest najlepiej opisywane przez funkcję nieliniową np. potęgową.

Uogólniony model liniowy może być wykorzystywany do prognozowania odpowiedzi zarówno w przypadku zmiennych zależnych charakteryzujących się rozkładami skokowymi jak i wtedy gdy powiązanie zmiennej zależnej z predyktorami (zmiennymi objaśniającymi) ma charakter nieliniowy.

Indeks


Podejście obliczeniowe

Podsumowując fragment opisu poświęcony podstawowym ideom można stwierdzić, że uogólniony model liniowy różni się od ogólnego modelu liniowego (którego szczególnym przypadkiem jest np. regresja wieloraka) w dwóch głównych aspektach. Po pierwsze rozkład zmiennej zależnej (odpowiedzi) może być rozkładem innym niż normalny, a ponadto zmienna ta nie musi być zmienną o charakterze ciągłym, tzn. może być zmienną o rozkładzie dwumianowym , wielomianowym lub wielomianowym porządkowym (tzn. zawierającą informację tylko w postaci rang). Po drugie, wartości zmiennej zależnej są prognozowane na podstawie liniowej kombinacji predyktorów, która jest "powiązana" ze zmienną zależną za pomocą funkcji wiążącej. Ogólny model liniowy dla pojedynczej zmiennej zależnej może być rozpatrywany jako szczególny przypadek uogólnionego modelu liniowego. W przypadku ogólnego modelu liniowego oczekuje się, że wartości zmiennej zależnej podlegają rozkładowi normalnemu a funkcja wiążąca jest prostą funkcją identycznościową (tzn. kombinacja liniowa predyktorów nie jest przekształcana).

W ogólnym modelu liniowym zmienna zależna Y jest liniowo powiązana z wartościami zmiennych ze zbioru X równością:

Y = b0 + b1X1 + b2X2 + ... + bkXk) + e

(gdzie e oznacza zmienność wynikającą z błędu, która nie może zostać wyjaśniona przez predyktory; zakłada się, że wartość oczekiwana e wynosi 0). Natomiast w uogólnionym modelu liniowym zakłada się, że związek ma postać:

Y = g (b0 + b1X1 + b2X2 + ... + bkXk + e

gdzie e oznacza błąd, a g(...) jest pewną funkcją. Formalnie, funkcja odwrotna do g(...) , powiedzmy f(...) jest nazywana funkcją wiążącą; taką, że:

f(miy) = b0 + b1X1 + b2X2 + ... + bkXk

gdzie miy oznacza wartość oczekiwaną y.

Funkcje wiążące i rozkłady. W zależności od zakładanego rozkładu zmiennej y można użyć różnych funkcji wiążących (patrz McCullagh i Nelder, 1989)

Rozkład normalny, Gamma, normalny odwrotny i rozkład Poissona:
F. wiążąca identycznościowa: f(z) = z
F. wiążąca logarytmiczna: f(z) = log(z)
F. wiążąca potęgowa: f(z) = za,dla danego a
Rozkład dwumianowy i wielomianowy porządkowy:
F. wiążąca Logit: f(z)=log(z/(1-z))
F. wiążąca Probit: f(z)=invnorm(z) gdzie invnorm oznacza odwrotność
dystrybuanty standaryzowanego
rozkładu normalnego.
F. wiążąca Log-log dopełnienia: f(z)=log(-log(1-z))
F. wiążąca Log-log: f(z)=-log(-log(z))
Rozkład wielomianowy:
F. wiążąca uogólniony Logit: f(z1|z2,...,zc)=log(x1/(1-z1-...-zc))
gdzie model ma c+1 kategorii.

Estymacja w uogólnionym modelu liniowym. Wartości parametrów (od b0 do bk oraz parametr skali) występujących w uogólnionym modelu liniowym są otrzymywane za pomocą estymacji metodą największej wiarygodności (ML) . Istnieje wiele metod iteracyjnych stosowanych w ogólnym modelu liniowym, w przypadku estymacji metodą ML, spośród których najbardziej efektywnymi i najszerzej wykorzystywanymi są: metoda Newtona-Raphsona i metoda oceny Fishera (patrz Dobson, 1990). Metoda oceny Fishera (lub inaczej metoda iteracyjnie ważonych najmniejszych kwadratów) ma w szczególności ujednolicony algorytm dla wszystkich uogólnionych modeli liniowych, jak również podaje macierz oczekiwanych kowariancji ocen parametrów jako produkt uboczny przeprowadzonych obliczeń.

Testowanie istotności statystycznej. Testy istotności efektów uwzględnionych w modelu mogą być przeprowadzane w oparciu o statystykę Walda , iloraz wiarygodności (LR) lub statystykę punktową . Szczegółowy opis tych testów można znaleźć w książce McCullagha i Neldera (1989). Statystyka Walda (patrz np. Dobson, 1990) jest obliczana jako uogólniony iloczyn wewnętrzny ocen parametrów przez odpowiednią macierz kowariancji i stanowi łatwo wyliczaną, efektywną statystykę służącą do testowania istotności efektów. Statystyka punktowa jest otrzymywana w oparciu o uogólniony iloczyn wewnętrzny wektora ocen przez macierz Hessjana (macierz pochodnych cząstkowych drugiego rzędu ocen parametrów estymowanych metodą największej wiarygodności). Test ilorazu wiarygodności (LR) wymaga największych nakładów obliczeniowych (następnej iteracyjnej procedury estymacji) i dlatego nie jest tak szybki jak dwie wymienione wcześniej metody, ale jest za to najbardziej asymptotycznie efektywnym testem spośród wszystkich znanych. Szczegółowe informacje dotyczące tych testów można znaleźć w: Agresti (1996), McCullagh i Nelder (1989) oraz Dobson (1990).

Diagnostyka w przypadku uogólnionego modelu liniowego. Dwa podstawowe rodzaje wartości resztowych to tzw. reszty Pearsona i reszty odchylenia . Reszty Pearsona bazują na różnicy pomiędzy zaobserwowanymi wartościami odpowiedzi a wartościami przewidywanymi, natomiast reszty odchylenia bazują na wkładzie zaobserwowanych odpowiedzi do statystyki logarytmu wiarygodności. Ponadto mogą być obliczane wartości wpływowe , studentyzowane reszty , uogólnione odległości Cooka oraz inne statystyki obserwacji. Opis i dokładne omówienie tych statystyk można znaleźć w książce Hosmera i Lemeshowa (1989).

Indeks


Rodzaje analiz

Analizowany układ może zawierać efekty zarówno dla zmiennych ciągłych, jak i dla zmiennych o charakterze predyktorów jakościowych . Układy mogą zawierać wielomiany dla predyktorów ciągłych (np. wyrażenia w potędze drugiej lub trzeciej), jak również efekty interakcji (tzn. wyrażenia iloczynowe) dla predyktorów ciągłych. W przypadku predyktorów jakościowych istnieje możliwość dopasowywania układów podobnych do układów ANOVA, w tym układów czynnikowych, zagnieżdżonych, układów czynnikowych ułamkowych (frakcyjnych), itp. Analizowane układy mogą być układami niekompletnymi (tzn. zawierającymi brakujące podklasy), a efekty dla predyktorów jakościowych mogą być przedstawiane za pomocą parametryzacji z sigma-ograniczeniami lub modelu przeparametryzowanego (tzn. z wykorzystaniem zmiennej wskaźnikowej).

Zamieszczone poniżej tematy podają kompletne opisy rodzajów układów, które mogą być analizowane za pomocą uogólnionego modelu liniowego, jak również układów, które mogą być analizowane za pomocą ogólnego modelu liniowego.

Teoria wykrywania sygnałów. Podana poniżej lista układów nie jest w żaden sposób wyczerpująca, tzn. nie opisuje wszystkich możliwych problemów badawczych, w przypadku których można zastosować uogólniony model liniowy . Na przykład, ważnym zastosowaniem uogólnionego modelu liniowego jest estymacja parametrów modeli rozważanych w teorii wykrywania sygnałów (SDT) . W zagadnieniu tym wykorzystuje się statystyczną teorię decyzji do wykrywania sygnałów na tle szumu. Teoria wykrywania sygnałów (SDT) jest wykorzystywana w psychofizycznych badaniach rozpoznawania i dyskryminacji oraz w innych obszarach badawczych, np. w badaniach medycznych, prognozowaniu pogody, badaniach ankietowych i badaniach marketingowych. DeCarlo (1998) pokazuje na przykład, w jaki sposób modele wykrywania sygnałów bazujące na różnych rozkładach mogą być stosunkowo łatwo rozważane poprzez zastosowanie uogólnionego modelu liniowego z różnymi funkcjami wiążącymi .

Omówienie uogólnionego modelu liniowego oraz wykorzystywanych przez niego funkcji wiążących znajdziemy w części Podejście obliczeniowe .

Układy międzygrupowe

Wstęp. Poziomy lub wartości zmiennych objaśniających (predyktorów) uwzględnionych w analizie opisują różnice pomiędzy n obiektami lub n poprawnymi przypadkami, które są analizowane. A zatem mówiąc o analizie układu porównań międzygrupowych (układu międzygrupowego), odwołujemy się do charakteru, liczby i sposobu rozmieszczenia zmiennych objaśniających (predyktorów).

Biorąc pod uwagę charakter lub rodzaj zmiennych objaśniających, układy międzygrupowe zawierające tylko predyktory jakościowe (skategoryzowane) mogą być nazywane układami ANOVA (analizy wariancji), układy międzygrupowe zawierające tylko zmienne objaśniające ciągłe mogą być nazywane układami (modelami) regresji, a układy międzygrupowe zawierające zarówno predyktory jakościowe, jak i ciągłe, mogą być określane terminem układy ANCOVA (analizy kowariancji). Ponadto zmienne objaśniające ciągłe są traktowane tak, jakby miały ustalone wartości, natomiast poziomy zmiennych objaśniających jakościowych mogą posiadać zarówno wartości ustalone, jak i losowe. Układy zawierające czynniki jakościowe losowe są nazywane układami mieszanymi (patrz: rozdział Komponenty wariancyjne i model mieszany ANOVA/ANCOVA ).

Układy międzygrupowe mogą wymagać pojedynczej zmiennej objaśniającej i wówczas są opisywane jako proste (np. regresja prosta) albo zawierają wiele zmiennych objaśniających (np. regresja wieloraka ).

Biorąc pod uwagę sposób rozmieszczenia zmiennych objaśniających (obiektów) w obrębie układu, niektóre układy dotyczą tylko "efektu głównego" lub składników pierwszego rzędu, tak więc wartości różnych zmiennych objaśniających są niezależne i występują tylko w pierwszej potędze (model addytywny). Inne układy międzygrupowe mogą zawierać składniki wyższego rzędu dla zmiennych objaśniających poprzez podniesienie oryginalnych wartości zmiennych objaśniających do potęgi o wykładniku wyższym niż 1 (np. w układach regresji wielomianowej) lub utworzenie iloczynów zawierających różne kombinacje zmiennych objaśniających (tzn. składniki interakcji ). Często występującym sposobem rozmieszczenia czynników w układach ANOVA jest układ czynnikowy kompletny, w przypadku którego w układzie są reprezentowane wszystkie kombinacje poziomów każdego z predyktorów jakościowych (skategoryzowanych). Układy zawierające jedynie wybrane kombinacje poziomów dla każdego z predyktorów jakościowych (skategoryzowanych) są trafnie nazywane układami (planami) czynnikowymi ułamkowymi. Z kolei układy, w których występuje określona hierarchia kombinacji poziomów różnych predyktorów jakościowych (skategoryzowanych) są nazywane układami zagnieżdżonymi .

Te podstawowe różnice dotyczące charakteru, liczby i sposobu rozmieszczenia zmiennych objaśniających można wykorzystać do opisu całej gamy różnych typów układów międzygrupowych. Niektóre z bardziej powszechnych układów międzygrupowych zostaną teraz opisane.

Jednoczynnikowa ANOVA. Układ zawierający pojedynczy predyktor jakościowy (skategoryzowany) jest nazywany układem jednoczynnikowej ANOVA. Przykładowo, badanie wpływu czterech różnych nawozów stosowanych do czterech różnych sadzonek mogłoby zostać przeanalizowane za pomocą jednoczynnikowej ANOVA z czterema poziomami dla czynnika Nawóz.

Weźmy pod uwagę pojedynczy predyktor jakościowy (skategoryzowany) A, zawierający po jednym przypadku w obrębie każdej z trzech kategorii. Stosując sposób kodowania zmiennej A z sigma-ograniczeniami w postaci 2 ilościowych zmiennych zawierających kontrasty, otrzymamy macierz X definiującą układ międzygrupowy

Tak więc wszystkim przypadkom w obrębie grup A1, A2 i A3 przypisano 1 w kolumnie X0 (wyraz wolny), przypadkowi należącemu do grupy A1 przypisano 1 w kolumnie X1 oraz 0 w kolumnie X2, przypadkowi należącemu do grupy A2 przypisano 0 w kolumnie X1 oraz 1 w kolumnie X2, a przypadkowi należącemu do grupy A3 przypisano -1 w kolumnie X1 oraz -1 w kolumnie X2. Oczywiście, dowolne dodatkowe przypadki w obrębie dowolnej z trzech grup zostałyby zakodowane w podobny sposób. Jeśli w grupie A1 występowałby 1 przypadek, w grupie A2 2 przypadki oraz 1 przypadek w grupie A3, wówczas macierz X miałaby postać

gdzie pierwszy indeks dla zmiennej A podaje tę samą liczbę dla przypadków należących do danej grupy. Dla zwięzłości zapisu, liczby powtórzeń, zazwyczaj nie są pokazywane przy opisie macierzy eksperymentu w ANOVA.

Zauważmy, że w przypadku układów jednoczynnikowych, o jednakowych liczbach przypadków w obrębie każdej z grup, kodowanie z sigma-ograniczeniami prowadzi do X1 ... Xk zmiennych, z których każda ma średnią równą 0.

W przypadku wykorzystania do przedstawienia czynnika A modelu przeparametryzowanego otrzymujemy prostą postać macierzy X definiującej układ międzygrupowy:

Te proste przykłady pokazują, że macierz X służy właściwie do dwóch celów. Definiuje ona (1) sposób kodowania poziomów oryginalnych predyktorów, w postaci wykorzystywanych w analizie zmiennych X, jak również (2) charakter, liczbę i sposób rozmieszczenia zmiennych X, tzn. układ międzygrupowy.

ANOVA efektów głównych. Układy ANOVA efektów głównych zawierają oddzielne układy jednoczynnikowej ANOVA dla dwóch lub większej liczby predyktorów jakościowych (skategoryzowanych). Dobrym przykładem układu ANOVA efektów głównych byłaby typowa analiza przeprowadzana w oparciu o plany eliminacyjne , jak to zostało przedstawione w rozdziale Planowanie doświadczeń .

Weźmy pod uwagę dwa predyktory jakościowe A i B, z których każdy ma dwie kategorie. Stosując sposób kodowania zmiennej z sigma-ograniczeniami otrzymamy macierz X definiującą układ międzygrupowy o postaci:

Zauważmy, że przy równych licznościach przypadków w każdej z grup, suma iloczynów mieszanych dla kolumn X1 i X2 wynosi 0. Przykładowo, gdy mamy do czynienia z 1 przypadkiem w każdej z grup, wówczas otrzymujemy: 1*1+1*(-1)+(-1)*1+(-1)*(-1) = 0. W przypadku modelu przeparametryzowanego otrzymujemy następującą macierz X definiującą układ międzygrupowy:

Porównując obydwa typy kodowania, można zauważyć, że sposób kodowania wykorzystujący model przeparametryzowany wymaga prawie dwa razy więcej wartości do zapisania tej samej informacji niż kodowanie z sigma-ograniczeniami .

ANOVA dla układów czynnikowych. Układy doświadczalne, w których stosowana jest ANOVA dla układów czynnikowych zawierają zmienne X reprezentujące kombinacje poziomów dwóch lub większej liczby predyktorów jakościowych (np. badania dotyczące chłopców i dziewcząt w czterech grupach wiekowych, dające w rezultacie układ 2 (Płeć) x 4 (Grupa wieku)). W szczególności, układy czynnikowe kompletne przedstawiają wszystkie możliwe kombinacje poziomów predyktorów jakościowych . Układ czynnikowy kompletny z dwoma predyktorami jakościowymi A i B, z których każdy zawiera po dwa poziomy, zostałby nazwany układem czynnikowym, kompletnym 2 x 2. Stosując sposób kodowania zmiennej z sigma-ograniczeniami otrzymamy macierz X definiującą ten układ:

Kilka własności powyższej macierzy X zasługuje na komentarz. Zauważmy, że kolumny X1 oraz X2 reprezentują kontrasty dotyczące efektów głównych dla jednej zmiennej (odpowiednio A i B) rozmieszczone względem poziomów drugiej zmiennej. Natomiast kolumna X3 reprezentuje kontrast pomiędzy różnymi kombinacjami poziomów zmiennych A i B. Zauważmy również, że wartości występujące w kolumnie X3 są iloczynami odpowiednich wartości występujących w kolumnach X1 oraz X2. Zmienne które są iloczynem, np. zmienna X3, reprezentują efekty multiplikatywne lub efekty interakcji czynników, dlatego też zmienna X3 będzie traktowana jako reprezentująca dwuczynnikową interakcję czynników A i B. Powiązanie takich zmiennych ze zmienną zależną oznacza interakcyjny wpływ czynników na zmienne zależne , oprócz ich niezależnych wpływów (wyrażonych poprzez efekty główne). Tak więc układy czynnikowe dają więcej informacji na temat związków pomiędzy predyktorami jakościowymi a odpowiedziami zmiennych zależnych , niż ma to miejsce w przypadku odpowiednich układów jednoczynnikowych lub układów efektów głównych.

Jednakże gdy bierzemy pod uwagę wiele czynników, wówczas układy czynnikowe kompletne czasami wymagają więcej danych, niż możemy w sposób rozsądny zebrać w celu przedstawienia wszystkich możliwych kombinacji poziomów czynników i w związku z tym interakcje wyższych rzędów pomiędzy wieloma czynnikami mogą stać się trudne do interpretacji. W przypadku wielu czynników, użyteczną alternatywą w stosunku do układu czynnikowego kompletnego jest układ czynnikowy frakcyjny (ułamkowy). Rozważmy przykładowo układ czynnikowy frakcyjny 2 x 2 x 2 z dwuczynnikowymi interakcjami i z trzema predyktorami jakościowymi (skategoryzowanymi), z których każdy zawiera 2 poziomy. Układ zawierałby efekty główne dla każdej zmiennej oraz wszystkie dwuczynnikowe interakcje pomiędzy trzema zmiennymi, ale nie zawierałby trójczynnikowych interakcji pomiędzy wszystkimi trzema zmiennymi. Wykorzystując model przeparametryzowany można macierz X dla tego układu przedstawić w następującej postaci:

Dwuczynnikowe interakcje są efektami najwyższego stopnia uwzględnionymi w tym układzie. Te typy układów (planów) zostały szczegółowo omówione w rozdziale Planowanie doświadczeń w temacie zatytułowanym 2(k-p) Plany frakcyjne dwuwartościowe .

Układy zagnieżdżone ANOVA. Układy zagnieżdżone są podobne do planów frakcyjnych , ponieważ wszystkie możliwe kombinacje poziomów predyktorów jakościowych (skategoryzowanych) nie są reprezentowane w układzie. Jednakże w przypadku układów zagnieżdżonych pominięte efekty stanowią efekty niższego rzędu. Efekty zagnieżdżone są efektami, w obrębie których zmienne zagnieżdżone nie pojawiają się nigdy jako efekty główne. Przypuśćmy, że w przypadku dwóch zmiennych A i B, zawierających odpowiednio 3 i 2 poziomy, układ zawiera efekt główny dla A oraz efekt B zagnieżdżony w obrębie poziomów zmiennej A. Wykorzystując model przeparametryzowany , możemy macierz X dla tego układu przedstawić w postaci:

Zauważmy, że w przypadku kodowania z sigma-ograniczeniami w macierzy X byłyby tylko 2 kolumny dla czynnika B zagnieżdżonego w obrębie efektu A, zamiast 6 kolumn dla tego efektu w macierzy X w sytuacji, gdybyśmy zastosowali do kodowania model przeparametryzowany (tzn. kolumny od X4 do X9). Metoda kodowania z sigma-ograniczeniami jest zbytnio ograniczona dla układów zagnieżdżonych , dlatego do reprezentowania układów zagnieżdżonych jest stosowany tylko model przeparametryzowany .

Regresja prosta. Układy (modele) regresji prostej dotyczą pojedynczego predyktora o charakterze ciągłym. Gdybyśmy mieli np. 3 przypadki z wartościami predyktora P wynoszącymi, powiedzmy 7, 4 i 9 i układ zawierałby efekt pierwszego rzędu dla P, wówczas macierz X miałaby postać:

a wprowadzając P za X1 równanie regresji miałoby postać:

Y = b0 + b1P

Jeśli model regresji prostej ma zawierać efekt wyższego rzędu dla P, powiedzmy efekt kwadratowy, wówczas wartości w kolumnie X1 macierzy eksperymentu zostałyby podniesione do potęgi drugiej tzn. do kwadratu

a wprowadzając P2 za X1 równanie regresji miałoby postać:

Y = b0 + b1P2

Metoda kodowania z sigma-ograniczeniami i sposób kodowania wykorzystujący model przeparametryzowany nie mają zastosowania do modeli regresji prostej ani do innych układów zawierających tylko predyktory ciągłe (ponieważ nie występują w nich predyktory jakościowe (skategoryzowane). Wartości dotyczące predyktorów ciągłych są podnoszone do wymaganej potęgi i wykorzystywane jako zmienne X. Nie jest przeprowadzane żadne kodowanie. Dlatego też przy opisie modeli regresji wystarcza prosty opis równania regresji bez wyraźnego opisywania macierzy eksperymentu X.

Regresja wieloraka. Układy regresji wielorakiej są dla predyktorów ciągłych tym, czym układy ANOVA efektów głównych są dla zmiennych będących predyktorami jakościowymi (skategoryzowanymi), tzn. układy regresji wielorakiej zawierają oddzielne układy regresji prostej dla dwóch lub większej liczby predyktorów ciągłych. Równanie regresji dla modelu regresji wielorakiej zawierającej efekty pierwszego stopnia trzech predyktorów o charakterze ciągłym P, Q i R miałoby postać:

Y = b0 + b1P + b2Q + b3R

Regresja czynnikowa. Układy regresji czynnikowej są podobne do układów czynnikowych ANOVA , w których występują kombinacje poziomów czynników występujących w układzie. Jednakże w przypadku układów regresji czynnikowej może występować o wiele więcej takich możliwych kombinacji odrębnych poziomów zmiennych objaśniających (predyktorów) niż przypadków w zbiorze danych. Upraszczając rzecz, modele regresji czynnikowej kompletnej są definiowane jako układy, w których występują wszystkie możliwe iloczyny predyktorów. Przykładowo: model regresji czynnikowej kompletnej dla dwóch zmiennych objaśniających P i Q zawierałby efekty główne P i Q oraz ich dwuczynnikową (P x Q) interakcję , która jest reprezentowana przez iloczyn wyników P i Q dla każdego przypadku. Równanie regresji miałoby postać:

Y = b0 + b1P + b2Q + b3P*Q

Modele regresji czynnikowej mogą mieć charakter frakcyjny, tzn. efekty wyższego rzędu mogą być pomijane w modelu. Model regresji czynnikowej frakcyjnej do drugiego stopnia dla 3 ciągłych predyktorów P, Q i R zawierałby efekt główny oraz wszystkie dwuczynnikowe interakcje pomiędzy predyktorami:

Y = b0 + b1P + b2Q + b3R + b4P*Q + b5P*R + b6Q*R

Regresja wielomianowa. Modele regresji wielomianowej są układami, które zawierają efekty główne oraz efekty wyższego rzędu dla predyktorów ciągłych, ale nie uwzględniają efektów interakcji pomiędzy predyktorami ciągłymi. Przykładowo: model regresji wielomianowej stopnia drugiego dla trzech predyktorów ciągłych P, Q i R zawierałby efekty główne (tzn. efekty pierwszego rzędu) dla P, Q i R oraz ich efekty kwadratowe (tzn. drugiego rzędu), ale bez efektów dwuczynnikowej interakcji oraz bez efektu trójczynnikowej interakcji P x Q x R.

Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2

Modele regresji wielomianowej nie muszą zawierać wszystkich efektów do tego samego stopnia dla każdej zmiennej objaśniającej (predyktora). Na przykład efekt główny, kwadratowy i sześcienny mogłyby zostać uwzględnione w modelu dla niektórych efektów, a efekty powyżej czwartego stopnia mogłyby zostać uwzględnione dla pozostałych predyktorów.

Regresja powierzchni odpowiedzi. Modele kwadratowej regresji powierzchni odpowiedzi stanowią typ układu hybrydowego, posiadającego cechy zarówno modeli regresji wielomianowej , jak również modeli regresji czynnikowej . Modele te zawierają wszystkie efekty modeli regresji wielomianowej do stopnia drugiego oraz dodatkowo efekty dwuczynnikowej interakcji zmiennych objaśniających. Równanie regresji dla modelu kwadratowej regresji powierzchni odpowiedzi dla trzech zmiennych objaśniających ciągłych P, Q i R miałoby postać:

Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2 + b7P*Q + b8P*R + b9Q*R

Tego rodzaju układy są zazwyczaj wykorzystywane w badaniach stosowanych (np. w doświadczeniach przeprowadzanych w przemyśle). Dokładne omówienie tych typów układów zostało przedstawione w rozdziale Planowanie doświadczeń (patrz Plany centralne kompozycyjne ).

Regresja powierzchni odpowiedzi dla mieszaniny. Modele regresji powierzchni odpowiedzi dla mieszaniny są zupełnie podobne do układów regresji czynnikowej do stopnia drugiego oprócz pominięcia wyrazu wolnego. Mieszaniny, jak sama nazwa sugeruje, sumują się do wartości stałej. Suma proporcji składników różnych receptur dla określonych materiałów musi wynosić 100%. Tak więc proporcja jednego składnika danego tworzywa jest redundantna w stosunku do pozostałych składników. Modele regresji powierzchni odpowiedzi dla mieszaniny postępują z tą redundancją w ten sposób, że usuwają wyraz wolny z modelu. Równanie regresji dla modelu regresji powierzchni odpowiedzi dla mieszaniny przy trzech zmiennych objaśniających ciągłych P, Q i R miałoby postać:

Y = b1P + b2Q + b3R + b4P*Q + b5P*R + b6Q*R

Te rodzaje układów są zazwyczaj stosowane w badaniach stosowanych (np. w doświadczeniach przeprowadzanych w przemyśle). Dokładne omówienie tych typów układów zostało przedstawione w rozdziale Planowanie doświadczeń (patrz Plany dla mieszanin i powierzchnie o podstawie trójkątnej ).

Analiza kowariancji. Układy międzygrupowe, zawierające zarówno predyktory jakościowe, jak i ciągłe, określa się zazwyczaj terminem układy ANCOVA (analizy kowariancji). Jednakże tradycyjnie termin układy ANCOVA odnosił się do układów, w których przy ocenie efektów jednego lub wielu predyktorów jakościowych (skategoryzowanych) bierze się pod uwagę efekty pierwszego rzędu jednego lub wielu predyktorów o charakterze ciągłym. Wprowadzenie do zagadnienia analizy kowariancji można również znaleźć w temacie Analiza kowariancji (ANCOVA) zamieszczonym w rozdziale ANOVA/MANOVA .

Dla przykładu przypuśćmy, że badacz chce ocenić wpływ predyktora jakościowego (skategoryzowanego) zawierającego trzy poziomy na pewien wynik. Dodatkowo wiadomo, że z tymi wynikami związane są także pewne inne pomiary zmiennej ciągłej P (zwanej też zmienną towarzyszącą):

wówczas macierz X z sigma-ograniczeniami dla układu, który zawiera oddzielne efekty pierwszego rzędu zmiennych P i A, miałaby postać:

Współczynniki b2 oraz b3 w równaniu regresji

Y = b0 + b1X1 + b2X2 + b3X3

przedstawiają wpływy przynależności grupowej na zmienną będącą predyktorem jakościowym (skategoryzowanym), przy uwzględnieniu wpływu wyników na zmienną P będącą predyktorem o charakterze ciągłym. Podobnie współczynnik b1 reprezentuje wpływ wyników na P przy uwzględnieniu wpływów przynależności grupowej na A. Ta tradycyjna analiza ANCOVA daje bardziej wrażliwy test wpływu A do stopnia, w jakim P redukuje błąd prognozy, tzn. reszty dla zmiennej wynikowej.

Macierz X dla tego samego układu, ale przy zastosowaniu modelu przeparametryzowanego , miałaby postać:

Interpretacja nie ulega zmianie za wyjątkiem tego, że wpływy przynależności grupowej na zmienną A, będącą predyktorem jakościowym (skategoryzowanym), są reprezentowane w równaniu regresji przez współczynniki b2, b3 oraz b4.

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4

Układy różnych nachyleń. Tradycyjny układ analizy kowariancji (ANCOVA) dla predyktorów jakościowych i ciągłych jest nieodpowiedni w sytuacji, gdy predyktory jakościowe i ciągłe wchodzą w interakcje we wpływie na odpowiedzi zmiennych wynikowych. Odpowiedni układ służący do odzwierciedlenia wpływów predyktorów w tej sytuacji jest nazywany układem różnych nachyleń. Jeśli wykorzystamy ten sam przykład danych, który został użyty do zilustrowania tradycyjnego układu ANCOVA, wówczas przeparametryzowana macierz X dla układu, zawierającego efekt główny predyktora jakościowego A o trzech poziomach oraz dwuczynnikową interakcję P x A miałaby postać:

Współczynniki b4, b5 oraz b6 w równaniu regresji

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5 + b6X6

wyrażają oddzielne współczynniki kierunkowe dla regresji wyników względem P w obrębie każdej z grup na A, uwzględniając efekt główny A.

Podobnie jak w przypadku układów zagnieżdżonych ANOVA, sposób kodowania efektów z sigma-ograniczeniami dla układów o różnych nachyleniach jest zbyt restrykcyjny, stąd też do przedstawiania układów różnych nachyleń jest wykorzystywany tylko model przeparametryzowany . W rzeczywistości układy różnych nachyleń nie różnią się formą od układów zagnieżdżonych ANOVA, ponieważ w przypadku układów różnych nachyleń pomijane są efekty główne dla predyktorów o charakterze ciągłym.

Układy jednakowych nachyleń. Odpowiedni układ wykorzystywany do modelowania wpływów predyktorów jakościowych i ciągłych zależy od tego, czy współdziałają one ze zmienną wynikową (obserwowaną). Tradycyjna analiza kowariancji (ANCOVA) jest niewłaściwa w sytuacji, kiedy predyktory ciągłe i predyktory jakościowe nie współdziałają ze sobą we wpływie na obserwowaną zmienną. Natomiast układ różnych nachyleń jest właściwy wtedy, gdy predyktory ciągłe i predyktory jakościowe współdziałają ze zmienną zależną (obserwowaną). Układy jednakowych nachyleń mogą być wykorzystywane do testowania, czy predyktory jakościowe i ciągłe współdziałają ze zmienną wynikową (obserwowaną), a zatem czy tradycyjny układ ANCOVA lub układ różnych nachyleń jest odpowiedni w przypadku modelowania wpływów efektów. Jeśli wykorzystamy te same dane przykładowe, które użyto do zilustrowania tradycyjnego układu ANCOVA oraz układów różnych nachyleń , wówczas przeparametryzowana macierz X dla układu zawierającego efekt główny P, efekt główny predyktora jakościowego A o trzech poziomach oraz dwuczynnikową interakcję P x A miałaby postać:

Jeśli współczynniki b5, b6 lub b7 występujące w równaniu regresji

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5 + b6X6 + b7X7

różnią się od zera, wówczas powinno się zastosować model różnych nachyleń. Jeśli natomiast wszystkie trzy współczynniki regresji są równe zero, wtedy należy zastosować tradycyjny układ ANCOVA.

Macierz X w przypadku modelu z sigma-ograniczeniami dla układu jednakowych nachyleń miałaby postać:

Stosując macierz X w przypadku, gdy współczynnik b4 lub b5 w równaniu regresji

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5

różni się od zera, należy wykorzystać model różnych nachyleń. Natomiast kiedy obydwa współczynniki są równe zeru, należy wykorzystać tradycyjne podejście ANCOVA.

Indeks


Budowanie modelu

Oprócz dopasowania modelu w przypadku uogólnionego modelu liniowego można stosować różne metody automatycznej budowy modelu. Mogą być na przykład wykorzystywane takie procedury jak metoda wprowadzania postępującego, eliminacji wstecznej, krokowa postępująca oraz krokowa wsteczna, jak również procedury poszukiwania najlepszego podzbioru. W przypadku metod wyboru efektów, które mają zostać uwzględnione w modelu poprzez ich wprowadzanie postępujące (tzn. metoda wprowadzania postępującego i krokowa postępująca) przy wybieraniu nowych (istotnych) efektów porównywane są wartości statystyki punktowej . Z kolei statystyka Walda może być wykorzystywana w przypadku stosowania metod eliminacji wstecznej (tzn. zwykła metoda eliminacji oraz metoda krokowa, przy pomocy których wybiera się efekty, które mają zostać usunięte z modelu).

Metoda poszukiwania najlepszych podzbiorów zmiennych korzysta z trzech różnych statystyk testowych: statystyki punktowej , wiarygodności modelu oraz kryterium informacyjnego Akaike (w skrócie AIC, patrz Akaike, 1973). Warto zauważyć, że statystyka punktowa nie wymaga przeprowadzania obliczeń iteracyjnych, stąd też metoda wyboru najlepszego podzbioru regresji opierająca się właśnie na statystyce punktowej jest obliczeniowo szybsza, podczas gdy metody wyboru zmiennych do uwzględnienia modelu, bazujące na dwóch pozostałych statystykach są zazwyczaj dokładniejsze; dalsze szczegóły można znaleźć w pozycji: McCullagh i Nelder (1989).

Indeks


Interpretacja wyników i wielkości diagnostycznych

Podstawowe oceny i związane z nimi statystyki testowe mogą nie być wystarczające do pełnej interpretacji uwzględnionych w analizie efektów. Zbadanie średnich dla wartości obserwowanych i przewidywanych może być nieocenione dla dobrego zrozumienia istoty danego efektu, szczególnie w przypadku efektów wyższego rzędu (tzn. interakcji). Dla szybkiego zrozumienia roli efektów występujących w modelu mogą być użyteczne wykresy tych średnich (wraz ze słupkami błędów).

Przy stosowaniu uogólnionego modelu liniowego, szczególnie ważną rzeczą jest zbadanie rozkładów zmiennych. Ważnymi narzędziami, przeznaczonymi do weryfikacji modelu są histogramy i wykresy prawdopodobieństwa dla zmiennych oraz wykresy rozrzutu pokazujące związki zachodzące pomiędzy wartościami obserwowanymi, przewidywanymi i resztami (jak reszty Pearsona , reszty odchyleń , studentyzowane reszty , różnicowa statystyka Chi-kwadrat, różnicowa statystyka odchylenia oraz uogólnione odległości Cooka ).

Indeks






© Copyright StatSoft, Inc., 1984-2011
STATISTICA is a trademark of StatSoft, Inc.