© Copyright StatSoft, Inc., 1984-2024
Przeszukaj Internetowy Podręcznik Statystyki
Estymacja nieliniowa


Ogólny cel

Mówiąc ogólnie, Estymacja nieliniowa polega na obliczaniu zależności między zestawem zmiennych niezależnych a zmienną zależną. Na przykład możemy obliczyć zależność miedzy dawką leku a jego skutecznością, zależność między ćwiczeniem a późniejszą skutecznością wykonania zadania, zależność między ceną domu a czasem potrzebnym na jego sprzedanie itd. Do postawionych tutaj problemów badawczych można zastosować takie techniki, jak regresja wieloraka (patrz Regresja wieloraka ) lub analiza wariancji (patrz ANOVA/MANOVA ). Właściwie Estymację nieliniową możemy traktować jako uogólnienie tych metod. W szczególności, przy regresji wielorakiej (i analizie wariancji) zakłada się, że zależność między zmienną niezależną (zmiennymi niezależnymi) a zmienną zależną jest z natury liniowa. W przypadku Estymacji nieliniowej sami decydujemy o określeniu natury tego związku; na przykład możemy przyjąć, że zmienna zależna ma być funkcją logarytmiczną zmiennej niezależnej (zmiennych niezależnych), funkcją wykładniczą, funkcją pewnego założonego ilorazu zmiennych niezależnych itd. (Jeśli jednak wszystkie analizowane zmienne są natury jakościowej lub mogą zostać przekształcone na jakościowe, wówczas możemy skorzystać z Analizy korespondencji ).

Jeśli dopuszczamy dowolny typ zależności między zmiennymi niezależnymi a zmienną zależną, pojawiają się dwa pytania, po pierwsze, jakie rodzaje zależności "mają sens", to znaczy, jak można je w znaczący sposób zinterpretować? Zauważmy, że prosta zależność liniowa jest bardzo wygodna w tym sensie, że pozwala nam na takie bezpośrednie interpretacje jak "im większe x (np., im wyższa cena domu), tym większe y (dłuższy czas potrzebny na jego sprzedaż); albo zakładając określony przyrost wartości x, jakich proporcjonalnych przyrostów wartości y możemy się spodziewać." Zależność nieliniowa nie daje się zwykle tak łatwo zinterpretować i zwerbalizować. Po drugie, jak dokładnie obliczyć zależność, to znaczy jak wywnioskować, czy faktycznie występuje zależność nieliniowa taka, jakiej oczekiwaliśmy?

Rozważmy teraz problem regresji nieliniowej w sposób nieco bardziej formalny, to znaczy wprowadźmy ogólną terminologie, która umożliwi nam bliższe zbadanie natury tych technik oraz sposobu ich wykorzystania w celu rozwiązania ważnych kwestii w różnych dziedzinach badawczych (medycyna, nauki społeczne, fizyka, chemia, farmakologia, inżynieria, itp.).

Indeks

Szacowanie modeli liniowych i nieliniowych

Mówiąc językiem technicznym, Estymacja nieliniowa stanowi ogólną procedurę dopasowania, która służy do oszacowania dowolnego rodzaju zależności między zmienną zależną (lub objaśnianą) a zmiennymi niezależnymi. Ogólnie, wszystkie modele regresji można wyrazić jako:

y = F(x1, x2, ... , xn)

Zatem jesteśmy zainteresowani, czy i jak zmienna zależna jest związana z listą zmiennych niezależnych; składnik F(x...) w powyższym wyrażeniu oznacza, że y, zmienna zależna lub objaśniana, jest funkcją x-ów, to znaczy zmiennych niezależnych.

Przykładem modelu tego typu może być model liniowy regresji wielorakiej opisany w rozdziale Regresja wieloraka . Przy tym modelu zakładamy, że zmienna zależna jest liniową funkcją zmiennych niezależnych, to jest:

y = a + b1*x1 + b2*x2 + ... + bn*xn

Jeśli Czytelnik nie jest zaznajomiony z liniową regresją wieloraką, może w tym miejscu przeczytać Wprowadzenie do rozdziału Regresja wieloraka (chociaż nie ma konieczności zrozumienia wszystkich niuansów technik liniowej regresji wielorakiej w celu zrozumienia omawianych tutaj metod).

Estymacja nieliniowa umożliwia zdefiniowanie zasadniczo dowolnego typu ciągłego lub nieciągłego modelu regresji. Niektóre najbardziej typowe modele nieliniowe (takie jak probit, logit, wzrostu wykładniczego, oraz regresja segmentowa). Możemy jednak również zapisać dowolny rodzaj równania regresji, które dopasujemy do naszych danych. Ponadto możemy określić standardową estymację metodą najmniejszych kwadratów, estymację metodą największej wiarygodności (tam gdzie się nadaje) lub możemy zdefiniować naszą własną "funkcję straty" (patrz poniżej) wpisując odpowiednie równanie.

Ogólnie, kiedykolwiek model regresji liniowej prostej nie wydaje się dostatecznie dobrze reprezentować zależności między zmiennymi, wówczas zasadne jest zastosowanie modelu regresji nieliniowej. Klikając poniższe tematy uzyskamy przegląd typowych modeli regresji nieliniowej, procedur estymacji nieliniowej oraz oceny dopasowania danych do modelu nieliniowego.

Typowe modele regresji nieliniowej

Modele regresji wewnętrznie liniowe

Regresja wielomianowa. Typowym "nieliniowym" modelem jest regresja wielomianowa. Umieściliśmy termin nieliniowy w cudzysłowie, ponieważ natura tego modelu jest w istocie liniowa. Załóżmy, że w doświadczeniu dotyczącym uczenia się mierzymy fizjologiczne pobudzenie osobników oraz sprawność wykonania złożonego zadania. Na podstawie dobrze znanego prawa Yerkesa-Dodsona spodziewamy się krzywoliniowej zależności między pobudzeniem a sprawnością wykonania zadania. Zależność tą wyraża równanie regresji:

Sprawność = a + b1*Pobudzenie + b2*Pobudzenie2

W równaniu tym a oznacza wyraz wolny, a b1 i b2 są współczynnikami regresji. Nieliniowość tego modelu jest wyrażona w składniku Pobudzenie2. Natura tego modelu jest jednak liniowa, za wyjątkiem tego, że kiedy szacujemy go, podnosimy do kwadratu miarę pobudzenia. Modele tego rodzaju, w których stosujemy pewne transformacje zmiennych niezależnych w równaniu liniowym są także określane jako nieliniowe względem zmiennych.

Modele nieliniowe względem parametrów. Dla kontrastu z powyższym przykładem, rozważmy zależność między wiekiem człowieka liczonym od urodzenia (zmienna x) a jego przyrostami wysokości ciała (zmienna y). Jest jasne, że zależność między tymi dwoma zmiennymi w pierwszym roku życia (gdy mamy do czynienia z największymi przyrostami wysokości ciała) znacznie różni się od tej w okresie dojrzałości (gdy praktycznie wzrost się nie zmienia). Zatem zależność ta mogłaby być wyrażona w postaci pewnej ujemnej funkcji wykładniczej:

Przyrost wysokości ciała = exp(-b1*Wiek)

Na poniższym wykresie widzimy wykres tej zależności dla pewnego parametru.

Zauważmy, że model ten nie jest z natury liniowy, to znaczy wyrażenie pokazane powyżej nie reprezentuje modelu regresji liniowej z pewną transformacją zmiennej niezależnej. O tym typie modelu mówi się, że jest nieliniowy względem parametrów.

Zamiana modeli nieliniowych na liniowe. Ogólnie, zawsze kiedy można model regresji uczynić modelem liniowym, poleca się to postępowanie (do szacowania danego modelu). Liniowy model regresji wielokrotnej (patrz Regresja wieloraka ) jest bardzo dobrze rozpracowany matematycznie, a także, z pragmatycznego punktu widzenia, jest łatwy do interpretacji. Dlatego, wracając od prostego modelu regresji wykładniczej przyrostu wzrostu jako funkcji wieku pokazanego powyżej, moglibyśmy przekształcić to równanie regresji nieliniowej na liniowe przez zwykłe zlogarytmowanie obu stron równania, tak że:

log(Przyrost wysokości ciała) = -b1*Wiek

Jeśli teraz zastąpimy log(Przyrost wysokości ciała) przez y, otrzymamy standardowy model regresji liniowej, taki o jakim była mowa wcześniej (bez wyrazu wolnego, który dla uproszczenia tutaj pominięto). Zatem moglibyśmy zlogarytmować dane dotyczące tempa wzrostu, a następnie użyć Regresji wielorakiej do oszacowania zależność między wiekiem a przyrostem wysokości ciała, to znaczy obliczyć współczynnik regresji b1.

Trafność modelu. Oczywiście stosując złą transformację, można doprowadzić do nietrafnego modelu. Dlatego po zlinearyzowaniu modelu, tak jak pokazano powyżej, szczególnie ważne jest, aby wykorzystać rozbudowane statystyki resztowe towarzyszące analizie w Regresji wielorakiej .

Modele regresji wewnętrznie nieliniowe

Niektóre modele, których nie można przetransformować na postać liniową, mogą być szacowane przy pomocy Estymacji nieliniowej. W przykładzie dotyczącym tempa wzrostu, celowo "zapomnieliśmy" o błędzie losowym zmiennej zależnej. Oczywiście na tempo wzrostu ma wpływ wiele innych zmiennych (nie tylko wiek) i możemy oczekiwać sporych fluktuacji losowych (resztowych) wokół dopasowanej linii. Jeśli dodamy ten błąd lub zmienność losową do modelu, to możemy przepisać równanie następująco:

Przyrost wysokości ciała = exp(-b1*Wiek) + błąd

Błąd addytywny. W przypadku tego modelu zakładamy, że zmienność błędu jest niezależna od wieku, to znaczy, że wielkość zmienności błędu jest jednakowa dla każdego wieku. Ponieważ składnik błędu w tym modelu jest addytywny, nie możemy zlinearyzować modelu przez logarytmowanie obu stron. Gdybyśmy jednak w przypadku określonego zbioru danych mieli wykonać przekształcenie logarytmiczne zmiennej Przyrost wysokości ciała i dopasować prosty model liniowy, zobaczylibyśmy, że reszty w tej analizie nie byłyby równomiernie rozłożone w obrębie zmiennej Wiek. Wynika z tego, że standardowa analiza regresji liniowej (wykonywana w części Regresja wieloraka ) nie byłaby tu stosowna. Zatem jedynym sposobem estymacji parametrów takiego modelu jest zastosowanie Estymacji nieliniowej.

Błąd multiplikatywny. Aby "obronić" poprzedni przykład powiedzmy, że w tym konkretnym przypadku nie jest prawdopodobne, aby zmienność błędu byłą stała dla każdego wieku, to znaczy, że błąd jest addytywny. Najprawdopodobniej we wcześniejszych latach losowe i nieprzewidywalne fluktuacje są większe niż w latach późniejszych, kiedy wzrost faktyczbie zatrzymuje się. Zatem bardziej realistyczny model uwzględniający błąd wyglądałby następująco:

Przyrost wysokości ciała = exp(-b1*Wiek) * błąd

Innymi słowy im wyższy wiek, tym mniejszy składnik exp(-b1*Wiek), oraz, wskutek tego, mniejsza wypadkowa zmienność błędu. Jeśli teraz zlogarytmujemy obie strony równania, składnik błędu resztowego stanie się czynnikiem addytywnym w równaniu liniowym, a my możemy pójść dalej i szacować b1 przy pomocy standardowej regresji wielorakiej.

Log (Przyrost wysokości ciała) = -b1*Wiek + błąd

Rozważmy teraz kilka modeli regresji (nieliniowych względem parametrów), których nie można "przekształcić" na modele liniowe.

Ogólny model wzrostu.Ogólny model wzrostu jest podobny do przykładu rozważonego poprzednio:

y = b0 + b1*exp(b2*x) + błąd

Model ten jest powszechnie stosowany w badaniach na temat wzrostu dowolnego rodzaju (y), gdy stopa wzrostu w dowolnym momencie czasu (x) jest proporcjonalna do wielkości wzrostu pozostałego. Parametr b0 w tym modelu reprezentuje maksymalną wartość wzrostu. Typowym przykładem zastosowania takiego modelu jest sytuacja, w której chcemy opisać stężenie jakiejś substancji (np., w wodzie) jako funkcję czasu, który upłynął.

Modele dla odpowiedzi binarnych: probit i logit.Nie jest niczym niezwykłym, że zmienna zależna lub objaśniana jest z natury binarna, to znaczy, może przybierać tylko dwie wartości. Na przykład pacjenci powrócą do zdrowia po urazie albo nie; kandydaci do pracy przejdą albo nie przejdą testu kwalifikacyjnego, subskrybenci czasopisma wznowią albo nie subskrypcję, kupony mogą zostać lub nie zostać zwrócone itd. We wszystkich tych przypadkach może nas interesować estymacja modelu, który opisuje zależność między jedną lub kilkoma ciągłymi zmiennymi niezależnymi a binarną zmienną zależną.

Zastosowanie regresji liniowej. Oczywiście można zastosować procedury standardowej regresji wielorakiej i obliczyć standardowe współczynniki regresji. Na przykład, gdyby badać odnawianie subskrypcji czasopisma, można by utworzyć zmienną y przyjmującą wartości 1 i 0, gdzie 1 wskazuje, że dany subskrybent odnowił subskrypcję, a 0 oznacza, że nie odnowił. Pojawia się jednak pewien problem: regresja wieloraka nie "wie", że zmienna objaśniana jest z natury binarna, dlatego nieuchronnie dopasuje model, który prowadzi do przewidywanych wartości większych niż 1 lub mniejszych niż 0. Jednakże przewidywane wartości, które są większe niż 1 lub mniejsze niż 0 nie są prawidłowe; tak więc, gdy stosuje się standardową procedurę regresji wielorakiej, ograniczenie zakresu zmiennej binarnej (np. między 0 a 1) jest ignorowane.

Funkcje ciągłe. Moglibyśmy przeformułować problem regresji w ten sposób, że zamiast przewidywania zmiennej binarnej, przewidujemy zmienną ciągłą, która z natury zawiera się w granicach 0 - 1. Dwa najbardziej powszechne modele regresji , które właśnie tego dokonują, to modele regresji logit i probit.

Regresja logistyczna (logit). W modelu regresji logistycznej (logit), przewidywane wartości zmiennej zależnej nigdy nie będą mniejsze (lub równe) od 0 ani większe (lub równe) od 1, bez względu na wartości zmiennych niezależnych. Osiąga się to przez zastosowanie następującego równania regresji, które faktycznie ma pewne "głębsze znaczenie" co omówimy w skrócie (termin logit został po raz pierwszy użyty przez Berksona, 1944):

y = exp(b0 + b1*x1 + ... + bn*xn)/{1 + exp(b0 + b1*x1 + ... + bn*xn)}

Łatwo zauważyć, że niezależnie od współczynników regresji, oraz wielkości wartości x, model ten zawsze da wynik w postaci przewidywanych wartości (przewidywanych y) w granicach od 0 do 1.

Nazwa logit wzięła się stąd, że łatwo można linearyzować ten model przy pomocy transformacji logit. Załóżmy, że o binarnej zmiennej zależnej y myślimy w kategoriach nieznanego ciągłego prawdopodobieństwa p, z zakresu od 0 do 1. Możemy zatem przekształcić to prawdopodobieństwo w następujący sposób:

p' = loge{p/(1-p)}

Przekształcenie to jest określone jako transformacja logit lub logistyczna. Zauważmy, że p' może teoretycznie przybierać dowolną wartość od plus do minus nieskończoności. Ponieważ transformacja logit rozwiązuje kwestię granic 0/1 dla pierwotnej zmiennej zależnej (prawdopodobieństwo), moglibyśmy zastosować te (przekształcone przez transformację logit) wartości w zwykłym równaniu regresji linowej. Istotnie, jeśli wykonamy transformację logit po obu stronach sformułowanego wcześniej równania regresji logistycznej (logit), otrzymamy standardowy model regresji liniowej:

p' = b0 + b1*x1 + b2*x2 + ... + bn*xn

Regresja probit. Binarną zmienną objaśnianą można potraktować jako wynik ukrytej zmiennej o rozkładzie normalnym, która w rzeczywistości ma zakres od plus do minus nieskończoności. Na przykład, subskrybent czasopisma może poczuć silną niechęć do odnawiania subskrypcji, może być raczej niezdecydowany, może "być skłonny" odnowić subskrybcję lub silnie odczuwać chęć odnowienia jej. W każdym przypadku, my (wydawca czasopisma) zobaczymy tylko binarną odpowiedź odnowienia lub nie odnowienia subskrybcji. Gdybyśmy jednak ułożyli standardowe równanie regresji liniowej oparte na ukrytym "nastawieniu" lub postawie, moglibyśmy napisać:

nastawienie... = b0 + b1*x1 + ...

co oczywiście oznacza standardowy model regresji. Można sensownie założyć, że te uczucia mają rozkład normalny, oraz, że prawdopodobieństwo p odnowienia subskrypcji jest w przybliżeniu równe względnemu obszarowi pod krzywą normalną. Dlatego jeśli przekształcimy obie strony równania tak, aby odzwierciedlały normalne prawdopodobieństwa, otrzymamy:

NP(nastawienie...) = NP(b0 + b1*x1 + ...)

gdzie NP oznacza normalne prawdopodobieństwo (obszar pod krzywa normalną), takie jakie jest stabelaryzowane w praktycznie wszystkich tekstach statystycznych. Równanie pokazane powyżej jest określane także jako model regresji probit. (Termin probit został po raz pierwszy użyty przez Blissa, 1934).

Ogólny model regresji logistycznej.Ogólny model logistyczny można wyrazić następującym wzorem:

y = b0/{1 + b1*exp(b2*x)}

Model ten możemy potraktować jako rozwinięcie modelu logit lub logistycznego dla odpowiedzi binarnych. O ile jednak model logit ogranicza zależną zmienną objaśnianą tylko do dwóch wartości, ten model pozwala odpowiedziom przybierać wartości z pewnego przedziału. Załóżmy na przykład, że interesuje nas wzrost w funkcji czasu populacji pewnego gatunku, który został wprowadzony do nowego środowiska. Zmienną zależną może być liczba jednostek tego gatunku w danym środowisku. Oczywiście istnieje dolna granica zmiennej zależnej, ponieważ w środowisku nie może istnieć mniej niż 0 jednostek; najprawdopodobniej istnieje również górna granica, która zostanie osiągnięta w pewnym momencie czasu.

Reakcja na lek i odpowiedź połowiczna.W farmakologii często wykorzystuje się następujący model w celu opisania wpływu różnych dawek leku:

y = b0 - b0/{1 + (x/b2)b1}

W modelu tym, x oznacza poziom dawki (zazwyczaj w pewnej zakodowanej formie, tak że x 1) a y oznacza reakcję wyrażoną w procentach maksymalnej możliwej reakcji. Parametr b0 oznacza oczekiwaną odpowiedź przy danym poziomie nasycenia dawki a b2 to stężenie, które wywołuje reakcję połowiczną; parametr b1 określa nachylenie funkcji.

Nieciągłe modele regresji.
Regresja kawałkami liniowa. Nie jest niczym niezwykłym, że natura zależności między jedną lub kilkoma zmiennymi niezależnymi a zmienną zależną zmienia się wraz z wartościami zmiennych niezależnych. Na przykład załóżmy, że kontrolujemy jednostkowy koszt wytwarzania pewnego produktu jako funkcję liczby wyprodukowanych jednostek (wydajność) w ciągu miesiąca. Ogólnie, im więcej w miesiącu produkujemy jednostek, tym mniejszy koszt jednostkowy i ta liniowa zależność może utrzymywać się w szerokim zakresie różnych poziomów wydajności produkcji. Nie jest jednak wykluczone, że powyżej pewnego punktu w zależności pomiędzy tymi dwoma zmiennymi pojawi się nieciągłość. Na przykład koszt jednostkowy może spadać stosunkowo wolniej, gdy w celu poradzenia sobie z większym wolumenem do produkcji muszą zostać włączone starsze (mniej wydajne) maszyny. Załóżmy, że starsze maszyny zostają uruchomione, gdy wydajność produkcji przekroczyła 500 jednostek na miesiąc; model regresji dla kosztu jednostkowego może wyglądać następująco:

y = b0 + b1*x*(x 500) + b2*x*(x > 500)

We wzorze tym, y oznacza szacowany koszt jednostkowy; x to wydajność na miesiąc. Wyrażenia (x 500) i (x > 500) określają warunki logiczne, które dają 0 gdy są fałszywe, a 1 gdy są prawdziwe. Zatem mamy w tym modelu określony wspólny wyraz wolny (b0), oraz nachylenie, które jest równe albo b1 (jeśli x 500 jest prawdą, to znaczy jest równe 1) albo b2 (jeśli x > 500 jest prawdą, to znaczy jest równe 1).

Zamiast określać punkt, w którym pojawia się nieciągłość linii regresji (w powyższym przykładzie przy 500 jednostkach na miesiąc), można także estymować ten punkt. Na przykład ktoś mógł zauważyć, lub podejrzewać, że w pewnym punkcie pojawia się nieciągłość w przypadku kosztu jednostkowego; może jednak nie wiedzieć, w którym miejscu znajduje się ten punkt. W takim przypadku, w powyższym równaniu zamiast 500 wstawiamy dodatkowy parametr (np. b3).

Regresja segmentowa. Powyższe równanie może zostać również tak dostosowane, aby odzwierciedlało nagły "skok" linii regresji. Wyobraźmy sobie na przykład, że po uruchomieniu starszych maszyn, koszt jednostkowy skacze na wyższy poziom, a następnie powoli opada wraz ze wzrostem wolumenu. W takim przypadku wprowadzamy dodatkowy wyraz wolny (b3), tak że:

y = (b0 + b1*x)*(x 500) + (b3 + b2*x)*(x > 500)

Porównywanie grup. Opisana tutaj metoda estymacji różnych równań regresji w różnych zakresach wartości zmiennej niezależnej może być wykorzystana także do rozróżniania grup. Załóżmy, że w powyższym przykładzie mamy trzy różne zakłady przemysłowe (aby uprościć przykład pomińmy na razie punkt przerwania). Gdybyśmy zakodowali trzy zakłady przy pomocy zmiennej grupującej używając wartości 1, 2, i 3, moglibyśmy jednocześnie oszacować trzy różne równania regresji:

y = (xp=1)*(b10 + b11*x) + (xp=2)*(b20 + b21*x) + (xp=3)*(b30 + b31*x)

W równaniu tym, xp oznacza zmienną grupującą zawierającą kody identyfikujące każdy z zakładów, b10, b20 i b30 to trzy różne wyrazy wolne, b11, b21 i b31 odnoszą się do współczynników kierunkowych (współczynników regresji) dla każdego zakładu. Model ten można porównać z dopasowaniem typowego modelu regresji bez brania pod uwagę różnych grup (zakładów) w celu rozstrzygnięcia, który z nich jest bardziej stosowny.

Indeks

Procedury estymacji nieliniowej

Estymacja metodą najmniejszych kwadratów.Przegląd kilku najbardziej popularnych modeli regresji nieliniowej znajduje się w części Typowe modele regresji nieliniowej . Powstaje teraz pytanie, jak modele te są szacowane. Jeśli Czytelnik jest zaznajomiony z technikami regresji liniowej (opisanymi w rozdziale Regresja wieloraka ) lub technikami analizy wariancji (opisanymi w rozdziale ANOVA/MANOVA ), to być może wie, że wszystkie te metody wykorzystują tak zwane procedury estymacji najmniejszych kwadratów. Mówiąc ogólnie, estymacja metodą najmniejszych kwadratów zmierza do minimalizacji sumy kwadratów odchyleń wartości obserwowanych zmiennej zależnej od wartości przewidywanych przez model (termin najmniejsze kwadraty został po raz pierwszy użyty przez Legendre'a, 1805).

Funkcje straty.W standardowej regresji wielorakiej estymujemy współczynniki regresji przez "poszukiwanie" takich współczynników, które minimalizują wariancję resztową (sumę kwadratów reszt) wokół linii regresji. Każde odchylenie wartości obserwowanej od przewidywanej oznacza pewną stratę w trafności naszego przewidywania, na przykład z powodu losowego szumu (błędu). Dlatego możemy powiedzieć, że celem estymacji metodą najmniejszych kwadratów jest minimalizacja funkcji straty (termin strata został użyty po raz pierwszy przez Walda w 1939 roku); w szczególności funkcję tę definiuje się jako sumę kwadratów odchyleń od wartości przewidywanych. Gdy funkcja ta osiąga minimum, to otrzymujemy takie same oceny parametrów (wyraz wolny, współczynniki regresji), jakie otrzymalibyśmy w regresji wielorakiej . Ze względu na postać funkcji straty , oceny parametrów uzyskane w ten sposób nazywamy ocenami otrzymanymi metodą najmniejszych kwadratów.

Postawiwszy problem w ten sposób, możemy rozważyć inne funkcje straty. Na przykład zamiast minimalizować sumę kwadratów odchyleń, moglibyśmy minimalizować sumę odchyleń bezwzględnych. Istotnie, czasem może to być przydatne w celu osłabienia wpływu odstających obserwacji. W porównaniu do wszystkich innych reszt, duża reszta stanie się znacznie większa, gdy podniesiemy ją do kwadratu. Jeśli jednak weźmiemy tylko wartość bezwzględną odchyleń, to odstające obserwacje będą miały najprawdopodobniej mniejszy wpływ na otrzymaną linię regresji.

Jest kilka metod, których można użyć do minimalizacji funkcji straty dowolnego typu. Więcej informacji znajdziemy w rozdziałach:

Ważona metoda najmniejszych kwadratów.Obok regresji metodą najmniejszych kwadratów i odchyleń bezwzględnych, techniką najprawdopodobniej wykorzystywaną najczęściej jest estymacja ważoną metodą najmniejszych kwadratów. Klasyczne techniki najmniejszych kwadratów zakładają, że wariancja resztowa wokół linii regresji jest taka sama dla wszystkich wartości zmiennych niezależnych. Innymi słowy, zakłada się, że wariancja błędu pomiaru jest identyczna dla każdego przypadku. Często jest to nierealistyczne założenie; odstępstwa pojawiają się szczególnie często w zastosowaniach w biznesie, ekonomii lub biologii.

Załóżmy na przykład, że chcieliśmy badać zależność między zakładanym kosztem projektów budowlanych a kosztem rzeczywistym. Może się to przydać w celu oszacowania oczekiwanego przekroczenia kosztów. W takim przypadku sensownie jest założyć, że bezwzględna wielkość (dolarowa kwota), o którą szacunki są nietrafione, jest proporcjonalna do wielkości projektu. Zatem do dopasowania liniowego modelu regresji zastosowalibyśmy funkcję straty ważoną metodą najmniejszych kwadratów. W szczególności funkcja straty miałaby postać (patrz na przykład Neter, Wasserman i Kutner, 1985, str. 168):

Strata = (Obs-Przew)2 * (1/x2)

W równaniu tym mamy najpierw typową funkcję straty najmniejszych kwadratów (wartość obserwowana minus przewidywana do kwadratu; tj. kwadrat reszty ), a następnie ważenie tej straty przez odwrotność kwadratu wartości zmiennej niezależnej (x) dla każdego przypadku. W przypadku rzeczywistej estymacji program zsumuje wartości funkcji straty dla każdego przypadku (np. projektu budowlanego) zgodnie z powyższym wzorem i oszacuje parametry, które minimalizują tę sumę. Wracając do naszego przykładu, im większy projekt (x), tym mniejszą wagę przypisuje się odchyleniu od wartości przewidywanej (kosztu). Metoda ta dostarczy bardziej stabilnych ocen parametrów regresji (więcej szczegółów znajduje się w: Neter, Wasserman i Kutner, 1985).

Metoda największej wiarygodności.Alternatywą do funkcji straty najmniejszych kwadratów (patrz powyżej) jest maksymalizacja funkcji wiarygodności lub logarytmu funkcji wiarygodności (lub minimalizacja ujemnego logarytmu funkcji wiarygodności). W kategoriach najbardziej ogólnych funkcję wiarygodności definiuje się następująco:

L = F(Y,Model) = in= 1 {p [yi, Parametry modelu(xi)]}

Teoretycznie możemy obliczyć prawdopodobieństwo (zwane teraz L, wiarygodność), że przy danym modelu regresji, określone wartości zmiennej zależnej pojawią się w naszej próbie. Pod warunkiem, że wszystkie obserwacje są od siebie niezależne, wiarygodność ta jest iloczynem (, po i = 1 do n przypadków) prawdopodobieństw pojawienia się każdej poszczególnej obserwacji (i) przy danym modelu i parametrach dla wartości . (Iloczyn oznacza, że mnożymy poszczególne prawdopodobieństwa po przypadkach.) Przyjęło się także wyrażać tę funkcję w postaci logarytmu naturalnego; w tym przypadku iloczyn zmienia się w sumę (, po i = 1 do n przypadków).

W przypadku danego modelu, im większa wiarygodność modelu, tym większe prawdopodobieństwo, że wartości zmiennej zależnej pojawią się w próbie. Dlatego im większa wiarygodność, tym lepsze dopasowanie modelu do danych. Obliczenia w przypadku poszczególnych modeli mogą okazać się całkiem skomplikowane, ponieważ potrzebujemy prześledzić (obliczyć) prawdopodobieństwa pojawienia się wartości y (przy danym modelu i odpowiednich wartościach x). Jak się okazuje, jeśli spełnione są wszystkie założenia standardowej regresji wielokrotnej (opisane w rozdziale na temat Regresji wielokrotnej), to typowa estymacja metodą najmniejszych kwadratów (patrz powyżej) dostarczy identycznych wyników, jak metoda największej wiarygodności. Jeśli nie jest spełnione założenie o równości wariancji błędu w całym zakresie zmiennej (zmiennych) x, to opisana wcześniej ważona metoda najmniejszych kwadratów da oceny parametrów największej wiarygodności.

Metoda największej wiarygodności i modele probit i logit.Funkcja największej wiarygodności została wypracowana dla modeli regresji probit i logit . W szczególności funkcję straty dla tych modeli oblicza się jako sumę logarytmów naturalnych wiarygodności logit lub probit L1, tak że:

log(L1) = in= 1 [yi*log(pi ) + (1-yi )*log(1-pi )]

gdzie
log(L1) jest logarytmem naturalnym (logitowej lub probitowej) wiarygodności (logarytmu wiarygodności) dla aktualnego modelu
yi jest wartością obserwowaną dla przypadku i
pi jest oczekiwanym (przewidywanym lub dopasowanym) prawdopodobieństwem (między 0 a 1).

Logarytm wiarygodności modelu zerowego (L0), to znaczy modelu, który zawiera tylko wyraz wolny (i żadnych współczynników regresji) jest obliczany jako:

log(L0) = n0*(log(n0/n)) + n1*(log(n1/n))

gdzie
log(L0) jest logarytmem naturalnym z (logitowej lub probitowej) wiarygodności modelu zerowego (tylko wyraz wolny)
n0 jest liczbą obserwacji z wartością 0 (zero)
n1 jest liczbą obserwacji z wartością 1
n jest całkowitą liczbą obserwacji.

Algorytm minimalizacji funkcji.Kiedy już rozważyliśmy różne modele regresji oraz funkcje straty, które są wykorzystywane do ich szacowania, jedyną "tajemnicą", jaka pozostała, jest problem minimalizacji funkcji straty (w celu odnalezienia zestawu parametrów najlepszego dopasowania) i problem oszacowania błędów standardowych dla estymatorów parametrów. Jest bardzo efektywny algorytm (quasi-Newtona), który aproksymuje pochodne drugiego rzędu funkcji straty w celu odnalezienia minimum (tzn. najlepszych estymatorów parametrów przy danej funkcji straty). Ponadto mamy kilka bardziej ogólnych algorytmów minimalizacji funkcji, które wykorzystują różne strategie poszukiwania (które nie zależą od pochodnych drugiego rzędu). Czasami strategie te są bardziej efektywne w przypadku estymacji funkcji straty z minimami lokalnymi; dlatego metody te są szczególnie użyteczne przy poszukiwaniu właściwych wartości początkowych w przypadku estymacji metodą quasi-Newtona.

We wszystkich przypadkach, możemy obliczyć błędy standardowe estymatorów parametrów. Błędy standardowe są oparte na cząstkowych pochodnych drugiego rzędu, które są liczone przez aproksymację różnic skończonych.

Jeśli Czytelnik nie jest zainteresowany tym, jak wykonuje się minimalizację funkcji straty, a tylko tym, że można ją wykonać, może pominąć następne akapity. Niemniej jednak wiedza na temat tych procedur może być przydatna w sytuacji, gdy nasz model regresji "odmawia" dopasowania do danych. W takiej sytuacji iteracyjna procedura estymacji nie doprowadzi do zbieżności, dając coraz "dziwniejsze" (np. bardzo duże, lub bardzo małe) oceny parametrów.

W następnych akapitach rozważymy najpierw kilka ogólnych kwestii związanych z optymalizacją nieograniczoną, a następnie przejdziemy do krótkiego przeglądu metod wprowadzonych w tym module. Bardziej szczegółowe rozważania na temat tych procedur znajdują się w: Brent (1973), Gill i Murray (1974), Peressini, Sullivan, i Uhl (1988), oraz Wilde i Beightler (1967). Szczegółowe algorytmy są omówione w pozycjach: Dennis i Schnabel (1983), Eason i Fenton (1974), Fletcher (1969), Fletcher i Powell (1963), Fletcher i Reeves (1964), Hooke i Jeeves (1961), Jacoby, Kowalik, i Pizzo (1972), oraz Nelder i Mead (1964).

Wartości początkowe, długość kroku, kryteria zbieżności.Wspólne wszystkim procedurom estymacji jest to, że wymagają one, aby użytkownik sprecyzował pewne wartości początkowe, wstępne długości kroków oraz kryterium zbieżności. Wszystkie metody estymacji wymagają określonego zestawu wstępnych ocen (wartości początkowych), które będą się zmieniać w pewien systematyczny sposób z iteracji na iterację; długość kroku w pierwszej iteracji określa, o ile zostaną przemieszczone parametry. Wreszcie kryterium zbieżności określa, kiedy proces iteracyjny się zatrzyma. Na przykład, proces iteracyjny może się zatrzymać, gdy poprawa funkcji straty z iteracji na iterację jest mniejsza od pewnej określonej wartości.

Funkcje kary, parametry ograniczające.Wszystkie te procedury są z natury nieograniczone. Oznacza to, że parametry będą przemieszczane bez względu na to, czy prowadzi to do wartości dozwolonych, czy nie. Na przykład w toku regresji logit, możemy otrzymać oszacowane wartości równe 0.0, dla których nie można obliczyć algorytmu (ponieważ logarytm 0 jest niezdefiniowany). W takiej sytuacji program przypisze funkcji straty karę, to znaczy bardzo dużą wartość. Wskutek tego różne procedury estymacji zwykle omijają te obszary, które generują takie funkcje. W niektórych okolicznościach jednak estymacja może "utknąć", w wyniku czego otrzymalibyśmy bardzo dużą wartość funkcji straty. Może się to zdarzyć, jeśli, na przykład, równanie regresji wymaga zlogarytmowania zmiennej niezależnej, która dla niektórych przypadków ma wartość zero (kiedy to nie można obliczyć logarytmu).

Jeśli chcemy ograniczyć procedurę, to ograniczenie to musi być określone w funkcji straty jako funkcja kary (wymierzenie kary). Robiąc to możemy kontrolować, jakimi dozwolonymi wartościami parametrów, które mają być oszacowane, program może manipulować. Na przykład, jeśli dwa parametry (a i b) mają zostać ograniczone tak, aby były większe lub równe zeru, to należy wymierzyć im dużą karę, jeśli warunek ten nie zostanie spełniony. Poniżej znajduje się przykład regresji zdefiniowanej przez użytkownika oraz funkcji straty obejmującej oszacowanie kary, zaprojektowanie do "ukarania" parametrów a i/lub b jeśli któryś z nich nie będzie większy lub równy zeru:

Szacowana funkcja: v3 = a + b*v1 + (c*v2)
Funkcja straty: L = (obs - pred)**2 + (a<0)*100000 + (b<0)*100000

Minima lokalne.Najbardziej zdradliwym "zagrożeniem" dla minimalizacji funkcji nieograniczonej są minima lokalne. Na przykład, pewna funkcja straty może nieznacznie wzrosnąć, bez względu na to jak został przesunięty określony parametr. Jeśli jednak parametr ten miał zostać przeniesiony w zupełnie inne miejsce, to funkcja straty może się faktycznie zmniejszyć. Takie minima lokalne można sobie wyobrazić jako lokalne "doliny" lub mniejsze "wklęśnięcia" funkcji straty. Jednak w większości praktycznych zastosowań minima lokalne wygenerują skrajnie duże lub małe oceny parametrów, z bardzo dużymi błędami standardowymi. W takich przypadkach wprowadzamy inne wartości początkowe i próbujemy od nowa. Zauważy także, że metoda Sympleks (patrz poniżej) jest wyjątkowo "dobra" w unikaniu takich minimów; dlatego może być szczególnie przydatna do wyszukania właściwych wartości początkowych dla założonych funkcji.

Metoda quasi-Newtona.Jak Czytelnik może pamięta, nachylenie funkcji w określonym punkcie można obliczyć jako pochodną pierwszego rzędu tej funkcji (w tym punkcie). "Nachylenie nachylenia" to pochodna drugiego rzędu, która mówi nam, jak szybko oraz w jakim kierunku nachylenie zmienia się w danym punkcie. Metoda quasi-Newtona polega na tym, że w każdym kroku zostaje oszacowana funkcja w różnych punktach w celu estymacji pochodnych pierwszego i drugiego rzędu. Informacja ta jest następnie wykorzystywana w celu podążania po ścieżce zmierzającej do minimum funkcji straty.

Procedura Sympleks. Algorytm ten nie opiera się na obliczaniu lub estymacji pochodnych funkcji straty. Natomiast w każdej iteracji funkcja będzie szacowana w m+1 punktach w m wymiarowej przestrzeni parametrów. Na przykład w dwóch wymiarach (tzn. gdy trzeba oszacować dwa parametry), program oszacuje funkcję w trzech punktach wokół bieżącego optimum. Te trzy punkty zdefiniują trójkąt; w więcej niż trzech wymiarach "figura" utworzona przez te punkty nazywa się sympleksem. Intuicyjnie, w dwóch wymiarach trzy punkty pozwolą nam określić, "w którym kierunku podążać", to znaczy, w którym kierunku w przestrzeni w dwuwymiarowej należy podążać, aby zminimalizować funkcję. Tę samą zasadę można zastosować do wielowymiarowej przestrzeni parametrów, to znaczy, że sympleks będzie "przemieszczał" się w dół, gdy aktualne długości kroków staną się zbyt "zgubne", aby wykryć wyraźny kierunek opadający (tzn. gdy sympleks jest zbyt duży), to sympleks "skurczy się" i nastąpi kolejna próba.

Dodatkowo mocną stroną tej metody jest to, że gdy zostanie odnalezione minimum, sympleks zostanie ponownie rozszerzony do większego rozmiaru w celu sprawdzenia, czy określone minimum jest lokalne. Zatem w pewnym sensie sympleks porusza się jak gładki organizm jednokomórkowy w dół funkcji straty, kurcząc się i rozszerzając, aż napotka lokalne minimum lub istotne grzbiety.

Metoda Hooke'a-Jeevesa przemieszczania układu.W pewnym sensie jest to najprostszy ze wszystkich algorytmów . Metoda ta polega na tym, że w każdej iteracji zostaje zdefiniowany układ punktów przez przesuwanie pojedynczo każdego parametru, tak by zoptymalizować bieżącą funkcje straty. Cały układ punktów zostaje następnie przesunięty lub przemieszczony w nowe położenie; nowe położenie jest określone przez ekstrapolację linii ze starego punktu bazowego w m wymiarowej przestrzeni parametrów do nowego punktu bazowego. Długości kroków w tym procesie są stale dostosowywane, tak by synchronizować się w odpowiednim optimum. Metoda ta jest zazwyczaj całkiem efektywna i powinna być wypróbowana, gdy obie metody quasi-Newtona i sympleks (patrz powyżej) nie dają sensownych ocen parametrów.

Metoda Rosenbrocka poszukiwania układu.Kiedy wszystkie inne metody zawodzą, wówczas często dobre wyniki daje metoda Rosenbrocka poszukiwania układu. W metodzie tej rotuje się przestrzeń parametrów i wyrównuje się jedną oś do grzbietu (metoda ta nazywana jest również metodą rotacji współrzędnych); wszystkie inne osie pozostaną do niej ortogonalne. Jeśli funkcja straty jest jednomodalna i posiada wykrywalne grzbiety wskazujące w kierunku minimum funkcji. Zauważmy jednak, że ten algorytm poszukiwania może zostać wcześnie przerwany, jeśli istnieje kilka krępujących ograniczeń (odbijających się na wartości kary; patrz powyżej), które się nakładają, co prowadzi do nieciągłości w okolicach grzbietów.

Hesjan i błędy standardowe.Macierz (cząstkowych) pochodnych drugiego rzędu nazywa się także hesjanem. Okazuje się, że odwrotność hesjanu aproksymuje macierz wariancji/kowariancji estymatorów parametrów. Intuicyjnie, powinna istnieć relacja odwrotna między pochodną drugiego rzędu dla parametru a jego błędem standardowym: Jeśli zmiana nachylenia wokół minimum funkcji jest bardzo duża, to pochodna drugiego rzędu będzie duża; estymator parametru będzie jednak całkiem stabilny w tym sensie, że minimum ze względu na ten parametr jest jest wyraźnie identyfikowalne. Jeśli pochodna drugiego rzędu jest bliska zera, to zmiana nachylenia wokół minimum jest równa zeru, co oznacza, że praktycznie możemy przenosić parametr w dowolnym kierunku bez większego wpływu na funkcję straty. Zatem błąd standardowy parametru będzie bardzo duży.

Hesjan (i asymptotyczne błędy standardowe dla ocen tych parametrów) mogą być obliczane oddzielnie przy pomocy aproksymacji różnic skończonych. Stosując tę procedurę otrzymujemy bardzo precyzyjne błędy standardowe asymptotyczne dla wszystkich metod estymacji.

Indeks

Ocena dopasowania modelu

Po oszacowaniu parametrów regresji, istotnym modelem analizy staje się przetestowanie adekwatności całego modelu. Na przykład jeśli określimy model regresji liniowej, a zależność jest wewnętrznie nieliniowa , to oceny parametrów modelu (współczynniki regresji) oraz oszacowane błędy standardowe tych ocen mogą być istotnie "odległe." Zapoznajmy się z kilkoma sposobami oceny adekwatności modelu:

Proporcja wyjaśnionej wariancji.Niezależnie od modelu, zawsze można obliczyć całkowitą wariancję zmiennej zależnej (całkowitą sumę kwadratów, CSK), proporcje wariancji spowodowanej resztami (resztowa suma kwadratów, SKR) oraz proporcję wariancji wynikającej z modelu regresji (regresyjna suma kwadratów, RSK=CSK-SKR). Stosunek regresyjnej sumy kwadratów do całkowitej sumy kwadratów (RSK/CSK) wyjaśnia proporcję wariancji zmiennej zależnej (y), która jest tłumaczona przez model; zatem stosunek ten jest równoważny R-kwadrat (współczynnikowi determinacji, 0 R-kwadrat 1). Nawet jeśli wartości zmiennej zależnej nie układają się zgodnie z rozkładem normalnym, miara ta może pomóc ocenić, na ile dobrze model pasuje do danych.

Chi-kwadrat dobroci dopasowania.W przypadku modeli regresji probit i ligit, możemy zastosować estymację metodą największej wiarygodności. Jak się okazuje można bezpośrednio porównywać wiarygodność L0 dla modelu zerowego, gdzie wszystkie parametry nachylenia są równe zero z wiarygodnością L1 dopasowanego modelu. W szczególności można obliczyć statystykę Chi-kwadrat dla takiego porównania:

Chi-kwadrat = -2 * (log(L0) - log(L1))

Liczba stopni swobody dla tej wartości Chi-kwadrat jest równa różnicy w liczbie parametrów dla modelu zerowego i dopasowanego: zatem liczba stopni swobody będzie równa liczbie zmiennych niezależnych w regresji logit lub probit. Jeśli poziom p towarzyszący tej wartości Chi-kwadrat jest istotny, to możemy powiedzieć, że oszacowany model stanowi istotnie lepsze dopasowanie do danych niż model zerowy, to znaczy, że parametry regresji są istotne statystycznie.

Wykres wartości obserwowanych względem przewidywanych.Zawsze warto zbadać wykres rozrzutu wartości przewidywanych względem obserwowanych. Jeśli model jest odpowiedni dla naszych danych, to możemy oczekiwać, że wszystkie punkty ułożą się wzdłuż linii prostej; jeśli model zostanie błędnie określony, to wykres wskaże układ nieliniowy.

Wykres normalności i wykres normalności połówkowej prawdopodobieństwa.Wykres normalności reszt pokaże nam czy reszty (tzn. błędy) podlegają rozkładowi normalnemu.

Wykres dopasowania funkcji.W przypadku modeli dotyczących dwóch lub trzech zmiennych (jednego lub dwóch predyktorów) przydatne jest wykreślenie dopasowanej funkcji przy wykorzystaniu końcowych ocen parametrów. Poniżej zamieszczono przykład wykresu 3W (trójwymiarowego) dla dwóch predyktorów:

Ten typ wykresu przedstawia najbardziej bezpośredni sposób sprawdzenia, czy model dobrze pasuje do danych oraz czy występują wyraźnie odstające obserwacje.

Macierz wariancji/kowariancji parametrów.Kiedy model jest całkowicie źle określony lub procedura estymacji "zawiesza się" w lokalnym minimum, błędy standardowe dla estymatorów parametrów mogą stać się bardzo duże. Oznacza to, że bez względu na to, jak parametry były przemieszczane wokół ostatecznych wartości, wynikowa funkcja straty wiele się nie zmieniła. Ponadto, korelacje między parametrami mogą stać się bardzo duże, co oznacza, że parametry są w znacznym stopniu redundantne; innymi słowy, gdy algorytm estymacji odsuwa jeden parametr od wartości końcowej, to wzrost funkcji straty może zostać całkowicie skompensowany przez przemieszczenie innego parametru. Zatem wpływ obu tych parametrów na funkcję straty może być w znacznym stopniu redundantny.

Indeks






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.