© Copyright StatSoft, Inc., 1984-2024
Przeszukaj Internetowy Podręcznik Statystyki
Ogólne modele regresji (GRM)


W tym rozdziale znajduje się opis ogólnych modeli liniowych , które są przeznaczone do znajdywania "najlepszego" modelu liniowego spośród wielu możliwych modeli. Jeżeli czytelnik nie zna wystarczająco dobrze podstawowych metod analizy wariancji i regresji w modelach liniowych, zaleca się wcześniejsze zapoznanie się z podstawowymi informacjami na te tematy zawartymi we fragmencie Podstawowe pojęcia statystyki . Szczegółowe omówienie jednowymiarowych i wielowymiarowych technik analizy wariancji (ANOVA) można także znaleźć w rozdziale ANOVA/MANOVA . Omówienie metod regresji wielorakiej zostało także zamieszczone w rozdziale Regresja wieloraka . Z kolei omówienie sposobów rozszerzenia modelu regresji liniowej przez ogólny model liniowy można znaleźć w rozdziale GLM .


Podstawowe pojęcia: Potrzeba budowania prostych modeli

Końcowym efektem procesu poszukiwania najlepszego rozwiązania jest zazwyczaj dobra teoria. Rozpoczynamy od obszernego modelu zawierającego wszystkie potencjalne, podlegające testowaniu czynniki wywierające wpływ na rozpatrywane przez nas zjawisko. Następnie poddajemy testowaniu składniki początkowego, obszernego modelu, aby zidentyfikować mniej obszerne podmodele, wyjaśniające w adekwatny sposób rozpatrywane zjawisko. W końcu, spośród tych potencjalnych podmodeli wybieramy najprostszy, który na zasadzie oszczędności, traktujemy jako "najlepiej" opisujący badane zjawisko.

Proste modele preferujemy nie tylko z przyczyn filozoficznych, ale również z powodów czysto praktycznych. Proste modele są łatwiejsze do ponownego testowania w przypadku powtarzania badań lub poddawaniu ich ocenie krzyżowej. Proste modele wymagają zazwyczaj niższych kosztów w przypadku ich praktycznego wykorzystywania oraz kontroli wyników w przyszłości. Jednakże przyczyny filozoficzne nie powinny być niedoceniane. Proste modele są łatwiejsze do zrozumienia i docenienia, i dlatego posiadają pewne "piękno", którego brakuje bardziej skomplikowanym modelom.

Cały opisany powyżej proces poszukiwania najlepszego rozwiązania został uwzględniony w technikach budowania modelu regresji metodą krokową i metodą najlepszego podzbioru. Stosowanie tych technik budowania modelu rozpoczyna się od określenia układu dla obszernego "pełnego modelu". Następnie testowane są mniej obszerne modele w celu oceny czy adekwatnie opisują rozważaną zmienną wynikową. Na końcu, najprostszy z adekwatnych modeli jest przyjmowany za "najlepszy".

Indeks


Budowanie modelu w GRM

W odróżnieniu od modelu regresji wielorakiej , który jest wykorzystywany do analizy układów zawierających predyktory o charakterze ciągłym, ogólny model liniowy może być stosowany do analizy dowolnego układu analizy wariancji (ANOVA) zawierającego predyktory jakościowe (skategoryzowane), dowolnego układu analizy kowariancji (ANCOVA) zawierającego zarówno predyktory jakościowe (skategoryzowane) jak i predyktory o charakterze ciągłym, jak również dowolnego modelu analizy regresji zawierającego predyktory o charakterze ciągłym. Efekty w przypadku predyktorów jakościowych mogą być kodowane w macierzy eksperymentu X, przy użyciu modelu przeparametryzowanego lub modelu z sigma-ograniczeniami .

W trakcie budowania modelu można stosować wyłącznie parametryzację z sigma-ograniczeniami. Ogólny model liniowy , zgodnie z użytym w nazwie określeniem "ogólny", może być wykorzystywany do analizy układów zawierających efekty dla predyktorów jakościowych (skategoryzowanych), które są kodowane przy użyciu obydwu metod parametryzacji. W wielu zastosowaniach Ogólnego modelu liniowego obojętne jest czy predyktory jakościowe są kodowane przy użyciu parametryzacji z sigma-ograniczeniami czy wykorzystując model przeparametryzowany . Jednakże, użycie modelu przeparametryzowanego nie jest zadowalające, gdyż efekty niższego rzędu dla predyktorów jakościowych są redundantne względem uwikłanych interakcji wyższego rzędu i w związku z tym nie mogą być rzetelnie ocenione pod kątem uwzględnienia w modelu, w sytuacji gdy uwikłane interakcje wyższego rzędu zostały uwzględnione w modelu.

Problem ten nie pojawia się w przypadku, gdy predyktory jakościowe (skategoryzowane) są kodowane przy użyciu parametryzacji z sigma-ograniczeniami i dlatego w ogólnej regresji krokowej niezbędna jest tylko parametryzacja z sigma-ograniczeniami .

Przypadek układów, które nie mogą być przedstawiane przy użyciu parametryzacji z sigma-ograniczeniami. Parametryzacja z sigma-ograniczeniami może być stosowana w odniesieniu do większości, lecz nie do wszystkich typów układów. Układy, które nie mogą być przedstawiane przy użyciu parametryzacji z sigma-ograniczeniami to w szczególności układy z zagnieżdżonymi efektami, takie jak np. układy zagnieżdżone ANOVA , układy różnych nachyleń oraz układy dla modelu mieszanego z efektami losowymi . Natomiast każdy inny typ układu ANOVA, ANCOVA lub modelu regresji może zostać przedstawiony za pomocą parametryzacji z sigma-ograniczeniami i w związku z tym mogą być one analizowane w ogólnej regresji krokowej.

Budowanie modelu dla układów zawierających wiele zmiennych zależnych. Techniki budowania modelu: krokowa i najlepszego podzbioru zostały dobrze rozwinięte w przypadku modeli regresji zawierających pojedynczą zmienną zależną (patrz np. Cooley i Lohnes, 1971; Darlington, 1990; Hocking, Lindeman, Merenda i Gold, 1980; Morrison, 1967; Neter, Wasserman i Kutner, 1985; Pedhazur, 1973; Stevens, 1986; Younger, 1985). Dzięki wykorzystaniu parametryzacji z sigma-ograniczeniami oraz metod ogólnego modelu liniowego , te techniki budowania modelu mogą zostać, bez trudu zastosowane do dowolnego układu ANOVA zawierającego predyktory jakościowe (skategoryzowane), dowolnego układu ANCOVA zawierającego zarówno predyktory jakościowe jak i ciągłe, jak również do dowolnych modeli regresji zawierających predyktory o charakterze ciągłym. Natomiast budowanie modeli dla układów zawierających wiele zmiennych zależnych wymaga rozważań, które nie są zazwyczaj brane pod uwagę w kontekście ogólnego modelu liniowego . Techniki budowania modelu dla układów zawierających wiele zmiennych zależnych znajdziemy w rozdziale Modelowanie równań strukturalnych (SEPATH) .

Indeks


Rodzaje analiz

Za pomocą kodowania z sigma-ograniczeniami , odnoszącego się do macierzy eksperymentu X można przedstawiać wiele różnorodnych typów układów, a następnie każdy taki układ może być analizowany przy pomocy ogólnego modelu liniowego . Podane poniżej tematy opisują te typy układów oraz wyjaśniają występujące między nimi różnice. Można zasugerować pewne ogólne kryteria, które różnicują układy ale należy zdawać sobie sprawę, że konkretny układ może być pewnego rodzaju "hybrydą", tzn. może charakteryzować się pewną kombinacją własności różnych innych typów układów.

Układy międzygrupowe

Przegląd. Poziomy czy wartości zmiennych pełniących w analizie rolę predyktorów opisują różnice pomiędzy n analizowanymi obiektami czyli przypadkami. Stąd też, mówiąc o układach porównań międzygrupowych (lub prościej, o układach międzygrupowych) odwołujemy się do charakteru, liczby i układu zmiennych predykcyjnych.

Biorąc pod uwagę charakter lub typ zmiennych występujących w roli predyktorów, układy międzygrupowe zawierające tylko predyktory jakościowe (skategoryzowane) mogą być nazywane układami ANOVA (analizy wariancji), z kolei układy międzygrupowe zawierające jedynie predyktory o charakterze ciągłym mogą być określane mianem układów regresji, natomiast układy międzygrupowe zawierające zarówno predyktory jakościowe jak i predyktory ciągłe można określać terminem układy ANCOVA (analizy kowariancji).

Układy międzygrupowe mogą dotyczyć tylko jednego predyktora i stąd można je określać terminem proste (np. regresja prosta) lub mogą zawierać wiele predyktorów (np. regresja wieloraka ).

Biorąc pod uwagę sposób rozmieszczenia predyktorów, niektóre układy międzygrupowe zawierają jedynie "efekty główne" lub inaczej, wyrażenia pierwszego rzędu dla predyktorów, tzn. wartości dla różnych predyktorów są nawzajem niezależne i występują tylko w pierwszej potędze. Inne układy międzygrupowe mogą zawierać wyrażenia wyższego rzędu dla predyktorów poprzez podniesienie wartości oryginalnych zmiennych predykcyjnych (np. układy regresji wielomianowej) lub poprzez utworzenie iloczynów różnych predyktorów (tzn. wyrażeń opisujących interakcje ). Bardzo rozpowszechnionym sposobem rozmieszczenia czynników dla układów ANOVA jest układ czynnikowy kompletny (lub krócej układ czynnikowy), w którym reprezentowana jest każda kombinacja poziomów, dla każdego z predyktorów jakościowych (skategoryzowanych). Układy zawierające tylko niektóre kombinacje poziomów każdego z predyktorów jakościowych (skategoryzowanych) są nazywane układami czynnikowymi frakcyjnymi (lub ułamkowymi).

Te podstawowe różnice dotyczące charakteru, ilości i sposobu rozmieszczenia predyktorów mogą być wykorzystywane przy opisie całego szeregu różnych typów układów międzygrupowych. Dalej opisane są szerzej stosowane układy międzygrupowe.

Regresja prosta.Układy (modele) regresji prostej dotyczą pojedynczego predyktora o charakterze ciągłym. Gdybyśmy mieli np. 3 przypadki z wartościami predyktora P wynoszącymi, powiedzmy 7, 4 i 9 i układ zawierałby efekt pierwszego rzędu dla P, wówczas macierz X miałaby postać:

a wprowadzając P za X1 równanie regresji miałoby postać:

Y = b0 + b1P

Jeśli model regresji prostej ma zawierać efekt wyższego rzędu dla P, powiedzmy efekt kwadratowy, wówczas wartości w kolumnie X1 macierzy eksperymentu zostałyby podniesione do kwadratu

a wprowadzając P2 za X1 równanie regresji miałoby postać:

Y = b0 + b1P2

W układach regresji, wartości predyktorów ciągłych podnoszone są do wymaganej potęgi i wykorzystywane jako zmienne X. Nie jest przeprowadzane żadne przekodowywanie. Dlatego też przy opisie modeli regresji wystarcza prosty opis równania regresji, bez wyraźnego opisywania macierzy eksperymentu X.

Regresja wieloraka.Układy regresji wielorakiej są dla predyktorów ciągłych tym, czym dla predyktorów jakościowych układy ANOVA efektów głównych , tzn. układy regresji wielorakiej zawierają oddzielne układy regresji prostej dla dwóch lub większej liczby predyktorów ciągłych. Równanie regresji, dla modelu regresji wielorakiej , zawierającej efekty pierwszego stopnia, dla trzech predyktorów o charakterze ciągłym P, Q i R miałoby postać:

Y = b0 + b1P + b2Q + b3R

Omówienie metod regresji wielorakiej zostało także zamieszczone w rozdziale Regresja wieloraka .

Regresja czynnikowa.Układy regresji czynnikowej podobne są do układów czynnikowych ANOVA , w których reprezentowane są kombinacje poziomów czynników występujących w układzie. Jednakże w przypadku układów regresji czynnikowej może występować o wiele więcej takich, możliwych kombinacji odrębnych poziomów predyktorów ciągłych, niż jest przypadków w zbiorze danych. Upraszczając rzecz, modele regresji czynnikowej kompletnej są definiowane jako układy w których występują wszystkie możliwe iloczyny predyktorów. Przykładowo, model regresji czynnikowej kompletnej dla dwóch zmiennych objaśniających P i Q zawierałby efekty główne P i Q oraz ich dwuczynnikową (P względem Q) interakcję , która jest reprezentowana przez iloczyn wyników P i Q, dla każdego przypadku. Równanie regresji miałoby postać:

Y = b0 + b1P + b2Q + b3P*Q

Modele regresji czynnikowej mogą mieć charakter frakcyjny, tzn. efekty wyższego rzędu mogą być pomijane w modelu. Model regresji czynnikowej frakcyjnej, do drugiego stopnia, dla 3 ciągłych predyktorów P, Q i R zawierałby efekt główny oraz wszystkie dwuczynnikowe interakcje pomiędzy predyktorami:

Y = b0 + b1P + b2Q + b3R + b4P*Q + b5P*R + b6Q*R

Regresja wielomianowa.Modele regresji wielomianowej są układami, które zawierają efekty główne oraz efekty wyższego rzędu dla predyktorów ciągłych, ale nie uwzględniające efektów interakcji pomiędzy predyktorami. Przykładowo, model regresji wielomianowej stopnia drugiego dla trzech predyktorów ciągłych P, Q i R zawierałby efekty główne (tzn. efekty pierwszego rzędu) dla P, Q i R oraz ich efekty kwadratowe (tzn. drugiego rzędu), ale bez efektów dwuczynnikowej interakcji oraz bez efektu trójczynnikowej interakcji P względem Q względem R:

Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2

Modele regresji wielomianowej nie muszą zawierać wszystkich efektów, do tego samego stopnia, dla każdej zmiennej objaśniającej (predyktora). Na przykład efekt główny, kwadratowy i sześcienny mogłyby zostać uwzględnione w modelu dla niektórych efektów, a efekty powyżej czwartego stopnia mogłyby zostać uwzględnione dla pozostałych predyktorów.

Regresja powierzchni odpowiedzi.Modele kwadratowej regresji powierzchni odpowiedzi są typem układu hybrydowego, posiadającego cechy zarówno modeli regresji wielomianowej jak i modeli regresji czynnikowej ułamkowej (frakcyjnej). Modele te zawierają wszystkie efekty modeli regresji wielomianowej, do stopnia drugiego oraz dodatkowo efekty dwuczynnikowej interakcji zmiennych predykcyjnych. Równanie regresji dla modelu kwadratowej regresji powierzchni odpowiedzi, dla trzech predyktorów ciągłych P, Q i R ma postać:

Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2 + b7P*Q + b8P*R + b9Q*R

Te typy układów wykorzystywane są np. w doświadczeniach przeprowadzanych w przemyśle. Dokładne omówienie tych układów zostało przedstawione w rozdziale Planowanie doświadczeń (patrz Plany centralne kompozycyjne ).

Regresja powierzchni odpowiedzi dla mieszanin.Modele regresji powierzchni odpowiedzi dla mieszanin są zupełnie podobne do układów regresji czynnikowej do stopnia drugiego, jednak pomijany jest tu wyraz wolny. Mieszaniny, jak sama nazwa sugeruje sumują się do stałej wartości. Suma składników różnych receptur musi wynosić 100%. Tak więc, proporcja jednego składnika danego tworzywa jest redundantna w stosunku do pozostałych składników. Modele regresji powierzchni odpowiedzi dla mieszanin postępują z tą redundancja w ten sposób, że usuwają wyraz wolny z modelu. Równanie regresji dla modelu regresji powierzchni odpowiedzi, dla mieszanin, przy trzech ciągłych zmiennych objaśniających P, Q i R ma postać:

Y = b1P + b2P2 + b3Q + b4P*Q + b5P*R + b6Q*R

Układy takie wykorzystywane są np. w doświadczeniach przeprowadzanych w przemyśle. Dokładne omówienie tych typów układów zostało także przedstawione w rozdziale Planowanie doświadczeń (patrz Plany dla mieszanin i powierzchnie o podstawie trójkątnej ).

Jednoczynnikowa ANOVA.Układ zawierający pojedynczy predyktor jakościowy (skategoryzowany) jest nazywany układem jednoczynnikowej ANOVA. Przykładowo, badanie wpływu czterech różnych nawozów stosowanych do czterech różnych sadzonek mogłoby zostać przeanalizowane za pomocą jednoczynnikowej ANOVA z czterema poziomami dla czynnika Nawóz.

Weźmy pod uwagę pojedynczy predyktor jakościowy (skategoryzowany) A, zawierający po jednym przypadku w obrębie każdej z trzech kategorii. Stosując sposób kodowania zmiennej A z sigma-ograniczeniami w postaci 2 ilościowych zmiennych zawierających kontrasty, otrzymamy macierz X definiującą układ międzygrupowy

Tak więc wszystkim przypadkom w obrębie grup A1, A2 i A3 przypisano 1 w kolumnie X0 (wyraz wolny), przypadkowi należącemu do grupy A1 przypisano 1 w kolumnie X1 oraz 0 w kolumnie X2, przypadkowi należącemu do grupy A2 przypisano 0 w kolumnie X1 oraz 1 w kolumnie X2, a przypadkowi należącemu do grupy A3 przypisano -1 w kolumnie X1 oraz -1 w kolumnie X2. Oczywiście, dowolne dodatkowe przypadki w obrębie dowolnej z trzech grup zostałyby zakodowane w podobny sposób. Jeśli w grupie A1 występowałby 1 przypadek, w grupie A2 2 przypadki oraz 1 przypadek w grupie A3, wówczas macierz X miałaby postać

gdzie pierwszy indeks dla zmiennej A podaje tę samą liczbę dla przypadków należących do danej grupy. Dla zwięzłości zapisu, liczby powtórzeń, zazwyczaj nie są pokazywane przy opisie macierzy eksperymentu w ANOVA.

Zauważmy, że w przypadku układów jednoczynnikowych, o jednakowych liczbach przypadków w obrębie każdej z grup, kodowanie z sigma-ograniczeniami prowadzi do X1 ... Xk zmiennych, z których każda ma średnią równą 0.

Te proste przykłady pokazują, że macierz X służy właściwie do dwóch celów. Definiuje ona (1) sposób kodowania poziomów oryginalnych predyktorów, w postaci wykorzystywanych w analizie zmiennych X, jak również (2) charakter, liczbę i sposób rozmieszczenia zmiennych X, tzn. układ międzygrupowy.

ANOVA efektów głównych.Układy ANOVA efektów głównych zawierają oddzielne układy jednoczynnikowej ANOVA dla dwóch lub większej liczby predyktorów jakościowych (skategoryzowanych). Dobrym przykładem układu ANOVA efektów głównych byłaby typowa analiza przeprowadzana w oparciu o plany eliminacyjne , jak to zostało przedstawione w rozdziale Planowanie doświadczeń .

Weźmy pod uwagę dwa predyktory jakościowe A i B, z których każdy ma dwie kategorie. Stosując sposób kodowania zmiennej z sigma-ograniczeniami otrzymamy macierz X definiującą układ międzygrupowy o postaci:

Zauważmy, że przy równych licznościach przypadków w każdej z grup, suma iloczynów mieszanych dla kolumn X1 i X2 wynosi 0. Przykładowo, gdy mamy do czynienia z 1 przypadkiem w każdej z grup, wówczas otrzymujemy: 1*1+1*(-1)+(-1)*1+(-1)*(-1) = 0.

ANOVA dla układów czynnikowych.Układy doświadczalne, w których stosowana jest ANOVA dla układów czynnikowych zawierają zmienne X reprezentujące kombinacje poziomów dwóch lub większej liczby predyktorów jakościowych (np. badania dotyczące chłopców i dziewcząt w czterech grupach wiekowych, dające w rezultacie układ 2 (Płeć) x 4 (Grupa wieku)). W szczególności, układy czynnikowe kompletne przedstawiają wszystkie możliwe kombinacje poziomów predyktorów jakościowych . Układ czynnikowy kompletny z dwoma predyktorami jakościowymi A i B, z których każdy zawiera po dwa poziomy, zostałby nazwany układem czynnikowym, kompletnym 2 x 2. Stosując sposób kodowania zmiennej z sigma-ograniczeniami otrzymamy macierz X definiującą ten układ:

Kilka własności powyższej macierzy X zasługuje na komentarz. Zauważmy, że kolumny X1 oraz X2 reprezentują kontrasty dotyczące efektów głównych dla jednej zmiennej (odpowiednio A i B) rozmieszczone względem poziomów drugiej zmiennej. Natomiast kolumna X3 reprezentuje kontrast pomiędzy różnymi kombinacjami poziomów zmiennych A i B. Zauważmy również, że wartości występujące w kolumnie X3 są iloczynami odpowiednich wartości występujących w kolumnach X1 oraz X2. Zmienne które są iloczynem, np. zmienna X3, reprezentują efekty multiplikatywne lub efekty interakcji czynników, dlatego też zmienna X3 będzie traktowana jako reprezentująca dwuczynnikową interakcję czynników A i B. Powiązanie takich zmiennych ze zmienną zależną oznacza interakcyjny wpływ czynników na zmienne zależne , oprócz ich niezależnych wpływów (wyrażonych poprzez efekty główne). Tak więc układy czynnikowe dają więcej informacji na temat związków pomiędzy predyktorami jakościowymi a odpowiedziami zmiennych zależnych , niż ma to miejsce w przypadku odpowiednich układów jednoczynnikowych lub układów efektów głównych.

Jednakże, gdy w badaniach bierzemy pod uwagę wiele czynników, wówczas układy czynnikowe kompletne wymagać mogą czasami więcej danych niż możemy zebrać. Przedstawione muszą być wszystkie możliwe kombinacje poziomów czynników. W związku z tym interakcje wyższych rzędów pomiędzy wieloma czynnikami mogą stać się trudne do interpretacji. W przypadku wielu czynników, użyteczną alternatywą w stosunku do układu czynnikowego kompletnego jest układ czynnikowy ułamkowy (frakcyjny). Rozważmy przykładowo układ czynnikowy frakcyjny 2 x 2 x 2, z dwuczynnikowymi interakcjami i z trzema predyktorami jakościowymi , o dwóch poziomach. Układ zawierałby efekty główne, dla każdej zmiennej oraz wszystkie dwuczynnikowe interakcje pomiędzy trzema zmiennymi, ale nie zawierałby trójczynnikowych interakcji pomiędzy wszystkimi trzema zmiennymi. Układy takie zostały szczegółowo omówione w temacie 2(k-p) Plany frakcyjne dwuwartościowe ), umieszczonym w rozdziale Planowanie doświadczeń .

Analiza kowariancji.Układy międzygrupowe zawierające zarówno predyktory jakościowe jak i predyktory o ciągłe określa się zazwyczaj terminem układy ANCOVA (analizy kowariancji). Jednakże tradycyjnie termin układy ANCOVA odnosił się szczególnie do układów, w których, przy ocenie efektów jednego lub wielu predyktorów jakościowych (skategoryzowanych) bierze się pod uwagę efekty pierwszego rzędu, jednego lub wielu predyktorów o charakterze ciągłym. Wprowadzenie do zagadnienia analizy kowariancji można również znaleźć w temacie Analiza kowariancji (ANCOVA) , zamieszczonym w rozdziale ANOVA/MANOVA .

Dla przykładu, przypuśćmy, że badacz chce ocenić wpływ na pewien wynik predyktora jakościowego A, o trzech poziomach. Ponadto, dostępne są pomiary dokonane na predyktorze ciągłym P i wiadomo, że są one związane ze zmienną wynikową. Jeśli dane do analizy mają postać:

to wówczas macierz X, dla modelu z sigma-ograniczeniami , który zawiera oddzielne efekty pierwszego rzędu dla zmiennych P i A ma postać:

Współczynniki b2 i b3 w równaniu regresji

Y = b0 + b1X1 + b2X2 + b3X3

przedstawiają wpływy przynależności grupowej, przy uwzględnieniu wpływu wyników na zmienną P. Podobnie współczynnik b1 reprezentuje wpływ wyników P, przy uwzględnieniu wpływów przynależności grupowej A. Ta tradycyjna analiza ANCOVA daje bardziej wrażliwy test wpływu A, w tym sensie, że P redukuje błąd prognozy, tzn. zmniejsza reszty dla zmiennej wynikowej.

Model jednakowych nachyleń.Układ jaki będziemy wykorzystywać do modelowania wpływów predyktorów jakościowych i ciągłych zależy od tego czy predyktory te występują w interakcji, w swoim wpływie na zmienną wynikową. Tradycyjny układ analizy kowariancji (ANCOVA) , dla predyktorów jakościowych i ciągłych jest odpowiedni w sytuacji gdy predyktory jakościowe i ciągłe nie wchodzą w interakcje. Układy jednakowych nachyleń mogą być wykorzystywane do testowania czy predyktory jakościowe i ciągłe wchodzą w interakcje, w swoim wpływie na zmienne stanowiące odpowiedzi. Wykorzystując te same dane przykładowe, których użyto do zilustrowania tradycyjnego układu ANCOVA, macierz X z sigma-ograniczeniami , dla układu jednakowych nachyleń miałaby postać:

Stosując macierz eksperymentu X, jeśli współczynniki b4 and b5 w równaniu regresji:

Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5

są równe zero, powinno się zastosować prostszy tradycyjny układ ANCOVA .

Przegląd układów wielowymiarowych

Jeśli w danym układzie występuje wiele zmiennych zależnych , wówczas mówi się, że układ jest wielowymiarowy. Wielowymiarowe miary powiązania są, z natury bardziej złożone niż ich jednowymiarowe odpowiedniki (takie jak np. współczynnik korelacji). Przyczyna tkwi w tym, że wielowymiarowe miary muszą brać pod uwagę nie tylko wzajemne relacje zmiennych objaśniających (predyktorów) z odpowiedziami zmiennych zależnych ale także wzajemne relacje między zmiennymi zależnymi . Jednakże, dzięki temu, miary te dostarczają informacji na temat siły wzajemnych związków pomiędzy predyktorami, a zmiennymi zależnymi niezależnie od powiązań występujących w obrębie zmiennych zależnych . Elementarne omówienie układów wielowymiarowych zostało także przedstawione w temacie Układy wielowymiarowe , zawartym w rozdziale ANOVA/MANOVA .

Wszystkie najczęściej stosowane, wielowymiarowe miary powiązania mogą zostać wyrażone w postaci pewnych funkcji wartości własnych iloczynu macierzy

E-1H

gdzie E oznacza macierz SSCP dla błędu (tzn. macierz zawierającą sumy kwadratów i iloczyny mieszane dla zmiennych zależnych , które nie są wyjaśniane przez zmienne objaśniające [predyktory] w układzie międzygrupowym) a H jest macierzą SSCP dla hipotezy (tzn. macierzą zawierającą sumy kwadratów i iloczyny mieszane dla zmiennych zależnych , które są wyjaśniane przez wszystkie zmienne objaśniające [predyktory] w układzie międzygrupowym lub sumy kwadratów i iloczyny mieszane dla zmiennych zależnych , które są wyjaśniane przez określony efekt).

Jeśli istnieje E-1 i przez

li oznaczymy kolejne wartości własne wyrażenia E-1H

to wówczas czterema najczęściej stosowanymi wielowymiarowymi miarami powiązania będą:

Lambda Wilksa = P[1/(1+li)]

Ślad Pillai'a = Sli/(1+li)

Ślad Hotellinga-Lawley'a = Sli oraz

Największy pierwiastek Roy'a = l1

Te cztery miary mają różne górne i dolne ograniczające wartości, przy czym statystyka Lambda Wilksa jest prawdopodobnie najłatwiejsza do interpretacji spośród tych czterech miar. Przyjmuje ona wartości z przedziału od 0 do 1, przy czym 1 oznacza brak związku predyktorów ze zmiennymi objaśnianymi (odpowiedziami), a 0 świadczy o występowaniu doskonałego związku pomiędzy predyktorami a zmiennymi objaśnianymi. Wielkość określana jako 1-Lambda Wilksa może być interpretowana jako wielowymiarowy odpowiednik jednowymiarowego R-kwadrat, tzn. oznacza odsetek uogólnionej wariancji zmiennych zależnych wyjaśnianej przez zmienne predykcyjne.

Podane cztery miary powiązania wykorzystywane są również do konstruowania wielowymiarowych testów istotności. Testy te zostały szczegółowo opisane w wielu źródłach (np. Finn, 1974; Tatsuoka, 1971).

Indeks


Budowanie pełnego modelu

Poniższe fragmenty zawierają omówienie szczegółów związanych z budowaniem i testowaniem hipotez dotyczących "pełnego modelu". Przykładowe tematy poruszają zagadnienie podziału sum kwadratów oraz sposobu testowania dopasowania pełnego modelu.

Podział sum kwadratów

Podstawowym założeniem metody najmniejszych kwadratów jest możliwość podziału całkowitej zmienności zmiennej zależnej na części odzwierciedlające źródła tej zmienności. Przypuśćmy, że zmienna zależna występuje w funkcji regresji względem jednej lub wielu zmiennych objaśniających (predyktorów) oraz, że dla wygody zmienna zależna została wyskalowana tak, aby jej średnia wynosiła 0. Wówczas podstawowa równość dotycząca najmniejszych kwadratów mówi, że całkowita suma kwadratów wartości zmiennej zależnej jest równa sumie kwadratów wartości prognozowanych plus suma kwadratów wartości resztowych. Wyrażając to w sposób bardziej ogólny można zapisać:

gdzie wyrażenie występujące z lewej strony jest całkowitą sumą kwadratów odchyleń wartości obserwowanych zmiennej zależnej od średniej zmiennej zależnej , a odpowiednie wyrażenia po prawej stronie znaku równości to (1) suma kwadratów odchyleń wartości prognozowanych zmiennej zależnej od średniej zmiennej zależnej oraz (2) suma kwadratów odchyleń wartości obserwowanych zmiennej zależnej od wartości prognozowanych, tzn. suma kwadratów reszt. Można to inaczej zapisać jako:

Całkowita SS = SS Modelu + SS Błędu

Zauważmy, że całkowita suma kwadratów (Całkowita SS) jest dla danego zbioru danych zawsze taka sama, natomiast suma kwadratów dla modelu (SS modelu) oraz suma kwadratów dla błędu (SS błędu) zależą od postaci równania regresji. Przyjmując ponownie, że zmienna zależna została wyskalowana w taki sposób, że jej średnia wynosi 0, istnieje możliwość wyliczenia sum kwadratów dla modelu (SS modelu) oraz sum kwadratów dla błędu (SS błędu) na podstawie poniższych wzorów:

SS Modelu = b'X'Y

SS Błędu = Y'Y - b'X'Y

Testowanie pełnego modelu

Mając sumy kwadratów dla modelu (SS modelu) oraz sumy kwadratów dla błędu (SS błędu) można przeprowadzić testowanie hipotezy, że wszystkie współczynniki regresji dla zmiennych X (od b1 do bk) są równe zero. Test ten jest równoważny porównaniu dopasowania powierzchni regresji określonej przez wartości prognozowane (obliczone na podstawie równania pełnego modelu regresji) z dopasowaniem powierzchni regresji określonej jedynie w oparciu o średnią zmiennej zależnej (wyliczoną na podstawie zredukowanego równania regresji zawierającego tylko wyraz wolny). Zakładając, że macierz X'X jest macierzą pełnego rzędu , średni kwadrat dla hipotezy (MSH) w przypadku pełnego modelu ma postać:

MSH = (SS modelu)/k

gdzie k oznacza liczbę kolumn macierzy X (wyłączając kolumnę wyrazu wolnego), a MSH jest oceną wariancji wartości prognozowanych. Natomiast średni kwadrat dla błędu:

s2 = MSE = (SS błędu)/(n-k-1)

gdzie n oznacza liczbę obserwacji, jest nieobciążoną oceną wariancji reszt lub błędu. Statystyka testu ma postać:

F = MSH/MSE

gdzie liczba stopni swobody statystyki F wynosi (k, n - k - 1).

Jeśli macierz X'X jest macierzą pełnego rzędu , wówczas k jest zastępowane przez r + 1 , gdzie r oznacza rząd lub liczbę nieredundantnych kolumn macierzy X'X.

Jeśli test dla pełnego modelu da wynik nieistotny, wtedy analiza zostaje zakończona. Wnioskujemy wówczas, że pełny model nie jest lepiej dopasowany do danych niż model zredukowany, wykorzystujący jedynie średnią dla zmiennej zależnej . Poszukiwanie podmodelu, który będzie lepiej dopasowany do danych w przypadku gdy pełny model jest nieadekwatny jest wtedy bezskuteczne.

Zauważmy, że w przypadku modeli bez wyrazu wolnego, niektóre z programów przeznaczonych do regresji wielorakiej obliczają test dla pełnego modelu w oparciu o odsetek wariancji wokół 0 (zera) wyjaśnianej przez predyktory. Więcej informacji na ten temat można znaleźć w pozycjach: Kvålseth, 1985; Okunade, Chang i Evans, 1993. Program komputerowy wyliczy obydwie wartości (tzn. opierając się na wariancji resztowej wokół zera oraz wokół odpowiednich średnich zmiennej zależnej ).

Ograniczenia testów adekwatności pełnego modelu

W przypadku takich układów jak jednoczynnikowa ANOVA czy model regresji prostej, test dla pełnego modelu może być już sam w sobie wystarczający do testowania ogólnych hipotez dotyczących tego, czy pojedynczy predyktor jest powiązany ze zmienną objaśnianą. Jednak w przypadku układów bardziej złożonych stwierdzenie statystycznej istotności dopasowania pełnego modelu jest często zaledwie pierwszym krokiem analizy. Zazwyczaj poszukuje się wówczas prostszych podmodeli, które są równie dobrze dopasowane do danych (patrz fragment Podstawowe idee: Potrzeba budowania prostych modeli ). Właśnie takiemu zadaniu jak poszukiwanie podmodeli dobrze dopasowanych do danych służą metody: krokowa i najlepszego podzbioru.

Indeks


Budowanie modeli za pomocą metody regresji krokowej

Techniki budowy modelu metodą krokową dla układów regresji z pojedynczą zmienną zależną opisywane są w wielu pracach (patrz np. Darlington, 1990; Hocking, 1966, Lindeman, Merenda i Gold, 1980; Morrison, 1967; Neter, Wasserman i Kutner, 1985; Pedhazur, 1973; Stevens, 1986; Younger, 1985). Podstawowe procedury wymagają: (1) zidentyfikowania modelu początkowego, (2) użycia iteracyjnej procedury "krokowej", tzn. zmianę modelu z poprzedniego kroku poprzez dodanie lub usunięcie predyktora zgodnie z określonym "kryterium krokowym" oraz (3) przerwania poszukiwań w sytuacji gdy procedura krokowa nie jest już możliwa do przeprowadzenia, przy danym kryterium krokowym lub w przypadku gdy zostanie osiągnięta, przyjęta maksymalna liczba kroków.

Model początkowy w regresji krokowej.Modelem początkowym nazywany jest model przyjmowany w Kroku 0. Model początkowy zawsze zawiera wyraz wolny dla równania regresji (chyba, że zdecydujemy się na opcję Bez wyrazu wolnego). W przypadku metody krokowej wstecznej i eliminacji wstecz, model początkowy zawiera również wszystkie efekty wskazane do wprowadzenia do układu. Dlatego też modelem początkowym, w przypadku tych metod jest pełny model.

W przypadku metody krokowej postępującej i wprowadzania postępującego, model początkowy zawsze zawiera wyraz wolny równania regresji (chyba, że zdecydujemy się na opcję Bez wyrazu wolnego). Model początkowy może również zawierać jeden lub większą liczbę efektów wskazanych do wprowadzenia do modelu. Jeśli przez j oznaczymy liczbę efektów, które mają zostać wprowadzone do modelu, wówczas pierwszych j efektów wskazanych do wprowadzenia w układzie jest wprowadzanych do modelu w Kroku 0. Efekty tego typu nie są usuwane z modelu podczas następnych kroków.

Efekty mogą zostać również wskazane do wprowadzenia do modelu, w przypadku, kiedy stosowane są metody: krokowa wsteczna i eliminacji wstecz. Podobnie jak w przypadku metody krokowej postępującej i wprowadzania postępującego, efekty tego typu nie są możliwe do usunięcia z modelu podczas następnych kroków.

Metoda wprowadzania postępującego.Metoda wprowadzania postępującego jest najprostszą z procedur budowania modelu. W każdym kroku (po kroku 0), dla każdego efektu możliwego do wprowadzenia do modelu obliczana jest wartość statystyki do wprowadzania. Jeśli żaden z efektów nie da wartości przekraczającej określoną, krytyczną wartość tej statystyki, wówczas procedura krokowa zostaje przerwana, natomiast w przeciwnym przypadku do modelu zostaje wprowadzony efekt z najwyższą wartością statystyki wprowadzania. Procedura krokowa jest też przerywana w przypadku osiągnięcia maksymalnej liczby kroków.

Metoda eliminacji wstecz.Metoda eliminacji wstecz jest również dosyć prostą procedurą budowania modelu. W każdym kroku (po kroku 0) dla każdego efektu możliwego do usunięcia z modelu, obliczana jest wartość statystyki do usuwania. Jeśli żaden z efektów nie da wartości przekraczającej określoną krytyczną wartość statystyki to procedura krokowa zostaje przerwana, natomiast w przeciwnym przypadku, z modelu zostaje usunięty efekt z najniższą wartością statystyki do usuwania. Procedura krokowa jest też przerywana w przypadku osiągnięcia maksymalnej liczby kroków.

Metoda krokowa postępująca.Metoda krokowa postępująca stanowi kombinację procedur stosowanych w metodzie wprowadzania postępującego i eliminacji wstecz. W kroku 1 przeprowadzane są procedury dla wprowadzania postępującego. W kolejnych krokach, gdy do modelu zostały już wprowadzone 2 lub większa liczba efektów, jeśli to możliwe, przeprowadzane jest wprowadzanie postępujące oraz, jeśli to możliwe eliminacja wstecz, aż do momentu gdy żadna z procedur nie może być przeprowadzona, kiedy to procedura krokowa zostaje przerwana. Procedura krokowa jest też przerywana w przypadku osiągnięcia maksymalnej liczby kroków.

Metoda krokowa wsteczna.Metoda krokowa wsteczna stanowi kombinację procedur metod wprowadzania postępującego i eliminacji wstecz. W kroku 1 przeprowadzane są procedury dla eliminacji wstecz. W kolejnym kroku, gdy zostały wybrane 2 lub większa liczba efektów, jeśli to możliwe przeprowadzane jest wprowadzanie postępujące oraz, jeśli to możliwe eliminacja wstecz aż do momentu, gdy żadna z procedur nie może zostać przeprowadzona, i wtedy procedura krokowa zostaje przerwana. Procedura krokowa jest też przerywana w przypadku osiągnięcia maksymalnej liczby kroków.

Kryteria wprowadzania i usuwania.Wprowadzanie lub usuwanie efektów z modelu określa się za pomocą wartości krytycznych dla statystyki F lub wartości krytycznych dla p. W przypadku określenia wartości p, faktycznymi wartościami wykorzystywanymi do sterowania wprowadzaniem i usuwaniem efektów z modelu są wartości 1 minus określone wartości p. Wartość krytyczna dla wprowadzania efektów do modelu musi przekraczać wartość krytyczną dla usuwania efektu z modelu. Można też określić maksymalną liczbę kroków. Jeśli procedura krokowa nie została wcześniej zatrzymana, wówczas jej przerwanie następuje w momencie osiągnięcia podanej, maksymalnej liczby kroków.

Indeks


Budowanie modeli za pomocą metody najlepszego podzbioru

Metodę wszystkich możliwych podzbiorów regresji można wykorzystywać w procesie poszukiwania "najlepszego" możliwego podmodelu jako metodę alternatywną lub w połączeniu z metodami krokowymi .

Neter, Wasserman i Kutner (1985, s.435) omawiają wykorzystywanie metody wszystkich możliwych podzbiorów regresji w połączeniu z metodą regresji krokowej . "Pewne ograniczenie podejścia wykorzystującego poszukiwanie metodą regresji krokowej polega na przyjęciu, że istnieje jeden "najlepszy" podzbiór zmiennych ze zbioru X i poszukiwaniu metody jego identyfikacji. Jak to już zauważono wcześniej, często zachodzi sytuacja, gdy nie ma jednego "najlepszego" podzbioru. W związku z tym niektórzy statystycy sugerują, że można następnie spróbować dopasować modele metodą wszystkich możliwych regresji, zawierające podobną liczbę zmiennych X jak w przypadku rozwiązania metodą regresji krokowej, aby zbadać czy przypadkiem niektóre inne podzbiory zmiennych nie są lepsze." Rozumowanie to sugeruje, że po znalezieniu rozwiązania metodą krokową, powinien zostać zbadany "najlepszy" ze wszystkich możliwych podzbiorów o tej samej liczbie efektów, w celu sprawdzenia czy rozwiązanie uzyskane metodą krokową jest rzeczywiście "najlepsze".

Jako alternatywną, w stosunku do metody wszystkich możliwych regresji można stosować metodę regresji krokowej . Stosując to podejście, najpierw należy określić zakres wielkości podzbioru, który mógłby być wzięty pod uwagę. Na przykład ktoś mógłby oczekiwać, że dla adekwatnego wyjaśnienia zmiennej zależnej potrzebne jest włączenie do modelu przynajmniej trzech efektów oraz, że przyjmowanie modelu zawierającego ponad 6 efektów nie wnosi nic nowego. W związku z tym, bierze się pod uwagę tylko "najlepszy" ze wszystkich możliwych podzbiorów zawierających 3, 4, 5 lub 6 efektów.

Warto zauważyć, że w celu uszeregowania podzbiorów pod względem "dobroci" można zastosować kilka różnych kryteriów. Najczęściej wykorzystywane kryteria to: wielorakie R-kwadrat (współczynnik korelacji wielorakiej), poprawiony R-kwadrat oraz statystyka Cp Mallowa. W przypadku stosowania metody wszystkich możliwych podzbiorów regresji, w połączeniu z metodą krokową , wielorakie R-kwadrat umożliwia bezpośrednie porównywanie "najlepszych" podzbiorów znalezionych w każdym z podejść.

Liczba możliwych podmodeli gwałtownie wzrasta wraz z liczbą efektów w pełnym modelu oraz gdy wielkość podzbioru zbliża się do połowy liczby efektów w pełnym modelu. Ilość obliczeń wymagana do przeprowadzenia regresji metodą wszystkich możliwych podzbiorów wzrasta wraz z liczbą możliwych podmodeli a także wzrasta bardzo gwałtownie ze wzrostem liczby poziomów, dla efektów dotyczących predyktorów jakościowych (skategoryzowanych) dających w związku z tym większą liczbę kolumn w obrębie macierzy eksperymentu X. Na przykład wszystkie możliwe podzbiory w przypadku, powiedzmy 12 efektów mogłyby, oczywiście teoretycznie zostać obliczone dla układu, który zawiera, powiedzmy 24 efekty, z których każdy posiada kilka poziomów, ale obliczenia zajęłyby bardzo dużo czasu (np. jest około 2,7 miliona różnych sposobów wyboru 12 spośród 24 predyktorów, tzn. 2,7 miliona modeli do oceny w przypadku wielkości podzbioru wynoszącej 12). Tak więc w przypadku metody wszystkich możliwych podzbiorów regresji prostsze modele są na ogół lepsze.

Indeks






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.