Przeszukaj Internetowy Podręcznik Statystyki



FACT. FACT to program typu drzew klasyfikacyjnych, autorstwa Loha i Vanichestakula (1988), prekursor programu QUEST, którego algorytmy stosuje się w analizie drzew klasyfikacyjnych. Omówienie różnic między FACT i algorytmami drzew klasyfikacyjnych można znaleźć w części Porównanie z innymi programami klasyfikacji danych przeznaczonymi do tworzenia drzew klasyfikacyjnych w rozdziale Drzewa klasyfikacyjne.

Frakcja losowania. Przy wyborze probabilistycznym (losowym) frakcja losowania to prawdopodobieństwo (które jest znane) tego, że konkretna jednostka zostanie wybrana do próby. Przykładowo, jeśli chcemy uzyskać prostą próbę losową przy frakcji losowania równej 1/10 000 z populacji zawierającej 1 000 000 jednostek, to każda z nich będzie miała prawdopodobieństwo trafienia do próby równe 1/10 000, a wynikowa próba będzie miła liczność około 1/10 000 * 1 000 000 = 100 jednostek.

Funkcja aktywacji (w sieciach neuronowych). Funkcja wykorzystywana do transformacji poziomu aktywacji jednostki (neuronu) w sygnał wyjściowy. Zazwyczaj funkcje aktywacji zawierają efekt "spłaszczenia". Razem z funkcją potencjału postsynaptycznego (PSP) (która jest wcześniej wprowadzana) definiuje ona rodzaj jednostki.

Sieci Neuronowe pozwalają na stosowanie szerokiego zakresu funkcji aktywacji. Tylko kilka z nich stosowanych jest domyślnie; pozostałe są stosowane na życzenie użytkownika.

Liniowa. Działanie programu przy wyborze funkcji liniowej polega na bezpośrednim przekazaniu wartości wyrażającej łączne pobudzenie neuronu na jego wyjście. Tego typu zasada działania neuronów stosowana jest w różnych typach sieci, w tym oczywiście w sieciach liniowych, ale występuje również w innych sieciach, na przykład w warstwie wyjściowej sieci o radialnych funkcjach bazowych.

Logistyczna. Jest to krzywa S-kształtna (sigmoidalna), o wartościach wyjściowych z przedziału (0,1).

Hiperboliczna. Funkcja aktywacji często bywa przybliżana za pomocą funkcji matematycznej tangens hiperboliczny (oznaczanej tanh, tgh). Podobnie jak w przypadku funkcji logistycznej, jest to krzywa S-kształtna, z tą różnicą, że wartości wyjściowe ulokowane są w przedziale (-1,+1).Z uwagi na symetrię funkcji tanh często działa ona lepiej niż funkcja logistyczna. Funkcja taka może się doskonale sprawdzić w licznych nieliniowych sieciach neuronowych - szczególnie w perceptronach wielowarstwowych.

Wykładnicza. Jako funkcja aktywacji w tym przypadku wykorzystywana jest funkcja wykładnicza z ujemnym wykładnikiem. Taka funkcja aktywacji jest doskonała do zastosowania w neuronach radialnych. Połączenie radialnej funkcji agregacji (PSP) oraz funkcji wykładniczej z ujemnym wykładnikiem definiuje de facto neurony modelujące funkcję Gaussa (dzwonową) wycentrowaną względem wektora wag. W przypadku funkcji Gaussa odchylenie standardowe dane jest za pomocą zamieszczonej poniżej formuły, w której d oznacza wartość odchylenia neuronu, przechowywaną jako występująca w nim wartość progowa:

Softmax. Jest to w istocie funkcja wykładnicza, której wartość zostaje jednak dodatkowo znormalizowana w taki sposób, aby suma aktywacji dla całej warstwy była równa 1.Funkcja ta, używana jest najczęściej w warstwie wyjściowej w perceptronie wielowarstwowym dostosowanym do rozwiązywania problemów klasyfikacyjnych. Dzięki zastosowanej normalizacji wartości wyjściowe mogą być interpretowane jako oszacowania prawdopodobieństw przynależności danego sygnału wejściowego do poszczególnych klas (Bishop, 1995; Bridle, 1990).

Suma jednostkowa. Funkcja ta normalizuje wyjścia tak by sumowały się do 1. Używana w sieciach probabilistycznych (PNN) pozwala interpretować wyjścia jako prawdopodobieństwa.

Pierwiastek. Funkcja aktywacji o postaci pierwiastka kwadratowego wykorzystywana jest w sieci Kohonena lub w sieci grupującej. Jej użycie jest uzasadnione tym, że może ona służyć do przekształcenia kwadratu odległości w prezentowaną na wyjściu odległość rzeczywistą.

Sinus. Funkcja aktywacji o postaci funkcji trygonometrycznej (np. sinus) może być przydatna przy rozpoznawaniu danych rozłożonych radialnie, a także może znaleźć zastosowanie w neuronowych aproksymacjach spektralnych rozwinięć wejściowego sygnału. Funkcja ta nie jest stosowana zbyt często i dlatego nie jest przyjmowana domyślnie.

Liniowa z nasyceniem. Jest to odcinkami liniowa wersja funkcji sigmoidalnej. Opisana funkcja aktywacji służyć może do budowy sieci charakteryzujących się wprawdzie relatywnie niską sprawnością uczenia, ale umożliwiających bardzo szybkie działanie nauczonej sieci.

Progowa. Wartości wyjściowe generowane przez tę funkcję wynoszą wyłącznie 1 lub 0, w zależności od tego czy wartość funkcji PSP jest dodatnia, czy też ujemna. Taka funkcja aktywacji może być wykorzystana do modelowania prostych sieci takich jak perceptron.

Matematyczne definicje funkcji aktywacji dane są w poniższej tabeli:

Funkcje Aktywacji

Funkcja

Wzór

Zakres

Liniowa

x

(-inf,+inf)

Logistyczna

(0,+1)

Hiperboliczna

(-1,+1)

-Wykładnicza

(0, +inf)

Softmax

(0,+1)

Suma jednostkowa

(0,+1)

Pierwiastek

(0, +inf)

Sinus

sin(x)

[0,+1]

Liniowa z nasyceniem

[-1,+1]

Progowa

[0,+1]

 

Funkcja błędu (sieci neuronowe). Funkcja używana do oceny jakości sieci neuronowej w trakcie iteracyjnego uczenia lub w czasie jej późniejszego uruchomienia. W iteracyjnych algorytmach uczących pochodna funkcji błędu stanowi podstawę do modyfikacji wag (Bishop, 1995).

Dostępne są następujące funkcje błędu:

Suma-Kwadratów. Błąd jest sumą kwadratów różnic pomiędzy wartościami zadanymi i wartościami otrzymanymi na wyjściach każdego neuronu wyjściowego. Jest to standardowa funkcja błędu stosowana w trakcie uczenia sieci neuronowych. Jej wybór jest z pewnością najwłaściwszą decyzją w większości problemów regresyjnych. Zapewnia ona również możliwą do przyjęcia sprawność w problemach klasyfikacyjnych, chociaż można spotkać się z opiniami (często zasadnymi), że w tym ostatnim przypadku właściwsze jest stosowanie funkcji entropii.

Odległość miejska. Błąd jest tu sumą różnic pomiędzy wartościami zadanymi i wartościami otrzymanymi na wyjściu każdego neuronu wyjściowego; różnice te brane są zawsze ze znakiem plus (a więc w obliczeniach tak naprawdę używane są ich bezwzględne wartości). W porównaniu z funkcją wykorzystującą kwadraty różnic funkcja błędu oparta na odległości miejskiej jest w mniejszym stopniu wrażliwa na punkty nietypowe. Wynika to stąd, że w przypadku sumy kwadratów nieproporcjonalna część łącznego błędu może być powodowana przez źle zachowujące się pojedyncze przypadki (bardzo duże błędy występujące dla tych nietypowych przypadków po podniesieniu do kwadratu dominują nad wszystkimi innymi i deformują proces uczenia). Dlatego też zastosowanie tej metryki może być wskazane w trakcie uczenia sieci rozwiązujących problemy regresyjne w sytuacji, gdy spodziewamy się, że wśród danych występuje kilka odległych przypadków nietypowych.

Entropia wzajemna (pojedyncza i wielokrotna). Błąd ten jest sumą iloczynów zadanych wartości oraz logarytmów błędów dla każdego neuronu wyjściowego. Funkcja ta występuje w dwóch wersjach: jedna z nich przeznaczona jest dla sieci z pojedynczym neuronem wyjściowym (rozróżniającym dwie klasy), zaś druga dla sieci z wieloma neuronami wyjściowymi. Funkcja błędu oparta na entropii wzajemnej została specjalnie zaprojektowana dla problemów klasyfikacyjnych, gdzie jest stosowana łącznie z występującą w warstwie wyjściowej sieci logistyczną funkcją aktywacji (gdy przewidywane jest pojedyncze wyjście sieci) lub funkcją aktywacji typu Softmax (gdy w sieci występuje większa liczba wyjść).

Kohonena. Przy wyrażaniu błędu za pomocą reguły Kohonena zakłada się, że druga warstwa sieci posiada neurony radialne reprezentujące centra odpowiednich skupień danych wejściowych. Błąd wyrażany jest więc jako odległość wzorca wejściowego od najbliższego mu centrum, czyli wyraża stopień trafności odwzorowania przez "zwycięski" neuron wejściowego sygnału. Funkcja błędu Kohonena przeznaczona jest do stosowania wyłącznie w sieciach Kohonena i w sieciach grupujących i nie powinna być przenoszona do innych sieci, gdyż grozi to destabilizacją procesu uczenia lub dezorganizacją procesu oceny funkcjonowania sieci.

Funkcja błędu oparta na odległości miejskiej (w sieciach neuronowych). Błąd jest tu sumą różnic pomiędzy wartościami zadanymi i wartościami otrzymanymi na wyjściu każdego neuronu wyjściowego; różnice te brane są zawsze ze znakiem plus (a więc w obliczeniach tak naprawdę używane są ich bezwzględne wartości). W porównaniu z funkcją wykorzystującą kwadraty różnic funkcja błędu oparta na odległości miejskiej jest w mniejszym stopniu wrażliwa na punkty nietypowe (Bishop, 1995).

Szczegółowe omówienie funkcji błędu znajduje się w sekcji Sieci neuronowe.

Funkcja hazardu (ryzyka, intensywności uszkodzeń). W wielu przypadkach warto rozważać funkcję opisująca prawdopodobieństwo uszkodzenia (zachorowania, zgonu itp.) dla krótkich przyrostów czasu. Funkcja ta nazywana jest funkcją hazardu (w medycynie), ewentualnie funkcją ryzyka lub intensywności uszkodzeń (w naukach technicznych). Ogólna postać tej funkcji jest następująca:

h(t) = f(t)/(1-F(t))

gdzie h(t) oznacza funkcję hazardu (ryzyka) w chwili t, a f(t) i F(t) są odpowiednio funkcją gęstości prawdopodobieństwa i dystrybuantą rozkładu.

Więcej informacji na ten temat można znaleźć w rozdziale Analiza przeżycia oraz w części Analiza Weibulla niezawodności i czasu uszkodzeń w rozdziale Analiza procesu.

Funkcja liniowa (wykresy 2W). Do punktów danych na wykresie rozrzutu 2W jest dopasowywana funkcja liniowa (Y = a + bX).

Funkcja liniowa (wykresy 3W). Do punktów danych na wykresie powierzchniowym 3W dopasowywana jest płaska powierzchnia, czyli funkcja liniowa (Z = a + bX + cY).

Funkcja logarytmiczna. Funkcja postaci:

y = q*[logn(x)] + b

Wykorzystywana przy dopasowywaniu do danych.

Funkcja logistyczna. Jest to S-kształtna funkcja o wartościach mieszczących się w przedziale (0, 1). Zob. rozkład logistyczny.


Funkcja potencjału postsynaptycznego (funkcja PSP - Post Synaptic Potential function). Stosowana w neuronie funkcja wyznaczająca wartość pobudzenia neuronu (zagregowanej wartości wejściowej) na podstawie wartości wejściowych, wag i wartości progowej. Dwa podstawowe rodzaje funkcji PSP to funkcja liniowa (pobudzenie wyraża się jako sumę ważonych wejść minus wartość progowa) oraz radialna (skalowany kwadrat odległości wektora wejściowego od wektora wag).

Zob. Sieci neuronowe.

Funkcja przeżywalności (przeżycia). Funkcja przeżywalności (zazwyczaj oznaczana przez R(t)) jest dopełnieniem dystrybuanty do jedynki (tzn. R(t)=1-F(t)). Funkcja ta jest także nazywana funkcją przeżycia lub funkcją niezawodności (ponieważ wyraża prawdopodobieństwo przeżycia lub bezawaryjnej pracy do chwili t, zob. np. Lee 1992).

Więcej informacji na ten temat można znaleźć w opisach Analizy przeżycia i Analizy Weibulla niezawodności/czasu uszkodzeń.

Funkcja rozbieżności. Liczbowa miara rozbieżności pomiędzy modelem strukturalnym a danymi. Im większa wartość funkcji rozbieżności, tym gorsze dopasowanie modelu. Ogólnie mówiąc, parametry modelu są właśnie tak dobierane, by wartość funkcji rozbieżności była jak najmniejsza .

Funkcje rozbieżności używane przy modelowaniu równań strukturalnych spełniają następujące postulaty:

  1. Mają wartości nieujemne (większe lub równe zeru).
  2. Przyjmują wartość zero tylko przy doskonałym dopasowaniu, czyli gdy model idealnie odtwarza obserwacje.
  3. Są ciągłymi funkcjami składowych macierzy kowariancji z próbek S i macierzy S(q), czyli "odtworzonej" oceny S, otrzymanej na bazie modelu strukturalnego i ocen parametrów.
Funkcja sigmoidalna. Krzywa w kształcie litery S, której środkowy fragment jest zbliżony do linii prostej, a fragmenty skrajne przyjmują kształt krzywej nasycenia.

Tematy pokrewne funkcja logistyczna i tangens hiperboliczny.

Funkcja sklejana (na wykresach 2W). Do danych w układzie współrzędnych XY zostaje dopasowana krzywa zgodnie z procedurą wygładzania sklejaną funkcją sześcienną.

Funkcja sklejana (na wykresach 3W). Do danych w układzie współrzędnych XYZ zostaje dopasowana powierzchnia zgodnie z procedurą wygładzania funkcją sklejaną sześcienną.

Funkcja straty w metodzie największej wiarogodności. Powszechnie stosowaną alternatywą dla funkcji straty o postaci sumy kwadratów odchyleń (metoda najmniejszych kwadratów) jest maksymalizacja funkcji wiarogodności lub logarytmu funkcji wiarogodności (lub minimalizacja minus logarytmu funkcji wiarogodności; termin wiarogodność został po raz pierwszy użyty przez Fishera, 1922a). Funkcje te są wykorzystywane zazwyczaj przy dopasowywaniu modeli nieliniowych. Najogólniej rzecz ujmując funkcja wiarogodności jest definiowana jako:

L=F(Y,Model)=ni=1 { p[yi , parametry modelu(xi)]}

Funkcja straty. Funkcja straty (termin strata został po raz pierwszy użyty w takim kontekście przez Walda w roku 1939) jest funkcją minimalizowaną w procesie dopasowywania modelu i reprezentuje wybraną miarę rozbieżności wartości dopasowanej funkcji dla danych obserwowanych i "prognozowanych". Na przykład, w wielu tradycyjnych technikach określanych wspólnym terminem ogólne modele liniowe, funkcja straty jest sumą kwadratów odchyleń od dopasowanej linii lub powierzchni. Jedną z własności (czasem uważaną za wadę) takiej funkcji straty jest jej duża wrażliwość na obserwacje odstające.

Powszechnie stosowaną alternatywą dla funkcji straty o postaci najmniejszych kwadratów (por. powyżej) jest maksymalizacja funkcji wiarogodności lub logarytmu funkcji wiarogodności (lub minimalizacja odwrotności logarytmu funkcji wiarogodności; termin wiarogodność został po raz pierwszy użyty przez Fishera, 1922a). Funkcje te są wykorzystywane zazwyczaj przy dopasowywaniu modeli nieliniowych. Najogólniej rzecz ujmując funkcja wiarogodności jest definiowana jako:

L=F(Y,Model)=ni=1 { p[yi , parametry modelu(xi)]}

Teoretycznie możemy obliczyć prawdopodobieństwo (oznaczane przez L-likelihood, czyli wiarogodność) określające wystąpienie pewnej wartości zmiennej zależnej w próbie, mając dany określony model regresji.

Funkcja sumy kwadratów błędu. Miara błędu równa sumie kwadratów różnic wartości przewidywanych (przez model) i rzeczywistych (obserwowanych). Dodatkowe informacje można znaleźć w temacie Funkcja straty.


Funkcja wiążąca a rozkład prawdopodobieństwa. Funkcja wiążąca w uogólnionym modelu liniowym określa nieliniowe przekształcenie wartości prognozowanych, które powoduje, że rozkład tych wartości staje się jednym z rozkładów wykładniczych (np. rozkładem gamma, Poissona, dwumianowym). A zatem funkcja wiążąca jest stosowana do odpowiedzi modelu w sytuacji, gdy zakłada się, że zmienna zależna jest powiązana z predyktorami w sposób nieliniowy.

W zależności od zakładanego rozkładu wartości zmiennej zależnej (y) można wybierać różne funkcje wiążące (zob. McCullagh i Nelder, 1989):
Rozkład normalny, gamma, normalny odwrotny i rozkład Poissona:
f. wiążąca identycznościowa: f(z) = z
f. wiążąca logarytmiczna: f(z) = log(z)
f. wiążąca potęgowa: f(z) = za, dla danego a
Rozkład dwumianowy i wielomianowy porządkowy:
f. wiążąca Logit: f(z)=log(z/(1-z))
f. wiążąca Probit: f(z)=invnorm(z) gdzie invnorm oznacza
odwrotność dystrybuanty
standaryzowanego rozkładu normalnego.
f. wiążąca
log-log dopełnienia:

f(z)=log(-log(1-z))
funkcja wiążąca Loglog: f(z)=-log(-log(z))
Rozkład wielomianowy:
funkcja wiążąca uogólniony Logit: f(z1|z2,...,zc)=
   log(x1/(1-z1-...-zc))
gdzie model ma
c+1 kategorii.

Więcej informacji o roli funkcji wiążących można znaleźć w sekcji Uogólnione modele liniowe i nieliniowe (GLZ). .

Funkcja wykładnicza. Jedna z funkcji, które można dopasować do danych, postaci:

y = b*exp(q*x)

gdzie stałe b i q wyznaczone zostaną metodą najmniejszych kwadratów.

Funkcje bazowe. Funkcje bazowe predyktora (zmiennej niezależnej X) odgrywają ważną role w metodzie Multivariate Adaptive Regression Splines (MARSplines). W metodzie MARSplines stosowane są obcięte z dwóch stron funkcje postaci dla rozwinięcia liniowego lub nieliniowego, mającego przybliżyć zależność między predyktorami, a zmienną zależną.

Na powyższej ilustracji widzimy dwie przykładowe funkcje bazowe: (t-x)+ i (x-t)+. Parametr t nazywamy węzłem funkcji bazowej (określa on położenie "segmentów" dla regresji segmentowej). Wartości węzłów wyznaczane są z danych.

Funkcje estymowalne. Jeśli w przypadku ogólnych i uogólnionych modeli liniowych rząd macierzy X'X (gdzie X to macierz eksperymentu) jest mniejszy zarówno od liczby wierszy, jak i kolumn tej macierzy (tzn. jest niższy od pełnego rzędu) wtedy współczynniki regresji zależą od konkretnej uogólnionej odwrotności użytej przy rozwiązywaniu równań normalnych i mogą one nie być jednoznaczne. Jeśli współczynniki regresji nie są wyznaczone jednoznacznie wtedy ich liniowe funkcje (f) o postaci:

f=Lb

gdzie L oznacza wektor współczynników, także nie będą jednoznaczne. Jednakże wyrażenie Lb dla L spełniającego równość:

L=L(X'X)`X'X

jest niezmiennicze względem wszystkich uogólnionych odwrotności i dlatego jest nazywane funkcją estymowalną.

See also ogólne modele liniowe, uogólnione modele liniowe, macierz eksperymentu, rząd macierzy, uogólnione odwrotności, a uzupełniające informacje można znaleźć w rozdziale Ogólny model liniowy (GLM).

Funkcje jądrowe. Proste funkcje (najczęściej funkcja gaussowska (dzwonowa)), które są lokowane w miejscu wystąpienia każdego dostępnego przypadku, a następnie dodawane w celu uzyskania estymatora łącznej funkcji gęstości prawdopodobieństwa (Parzen, 1962).

Zob. także: Sieci neuronowe.

Funkcje kary. Człon dodany w sposób sztuczny do funkcji błędu mający na celu "karanie" (polegające na dodaniu dużej wartości do wyznaczonego błędu) w przypadku wystąpienia nieodpowiednich warunków. Korzystanie z funkcji kary daje użytkownikowi możliwość określenia, jakie wartości parametrów są dopuszczalne w estymacji nieliniowej.

Więcej informacji można znaleźć w części Funkcje kary, parametry ograniczające w rozdziale poświęconym Estymacji nieliniowej.

Funkcje PSP (w sieciach neuronowych).

Iloczyn skalarny. Iloczyn skalarny wyznacza ważoną sumę wszystkich wartości wejściowych. Ta suma następnie zostaje zmodyfikowana w taki sposób, że odejmuje się od niej wartość progową. W terminologii wektorowej można powiedzieć, że rozważana funkcja PSP jest to iloczyn skalarny wektora wag i wektora wejściowego - minus wartość progu. Neurony z iloczynem skalarnym generują liniowe funkcje dyskryminacyjne. Oznacza to, że identyczne wartości sygnału wyjściowego otrzymuje się dla sygnałów wejściowych znajdujących się po tej samej stronie hiperpłaszczyzny w przestrzeni wzorców. Na przykład często podejmowane zadanie rozpoznawania wejściowych sygnałów neurony te usiłują zrealizować optymalizując klasyfikację wejściowych sygnałów poprzez stosowane podzielenie na części całej przestrzeni sygnałów wejściowych (na podstawie odpowiednich wzorców) za pomocą systemu przecinających się hiperpłaszczyzn.

Radialna. Neurony wyposażone w radialną funkcję PSP wyznaczają kwadrat odległości pomiędzy dwoma punktami w N wymiarowej przestrzeni (gdzie N jest liczbą wejść). Punkty pomiędzy którymi wyznacza się odległość reprezentują odpowiednio wektor opisujący sygnał wejściowy oraz wektor wag neuronu. Neurony posiadające radialną funkcję PSP wytwarzają identyczne wartości wyjściowe dla wszystkich sygnałów wejściowych leżących na hipersferach wyznaczonych w przestrzeni tych sygnałów wejściowych. Neurony radialne próbują więc zrealizować klasyfikację wejściowych sygnałów poprzez pomiar odległości reprezentowanych przez nie punktów od wyznaczonych wzorców, które przechowywane są w postaci wektorów wag neuronów. Kwadrat odległości wyznaczany przez neurony radialne mnożony jest przez wartość progową (która w neuronach radialnych pełni rolę miary wartości dopuszczalnego odchylenia); w ten sposób wyznaczana jest zagregowana wartość wejściowa rozważanego neuronu.

Neurony wykorzystujące iloczyn skalarny stosowane są w perceptronach wielowarstwowych i w sieciach liniowych, oraz w ostatniej warstwie sieci o radialnych funkcjach bazowych, takich jak sieci PNN i GRNN.

Neurony radialne stosowane są w drugiej warstwie w sieci Kohonena, w sieci o radialnych funkcjach bazowych, grupującej, probabilistycznej i w sieci regresyjnej. Nie stosuje się ich w innych warstwach standardowych architektur sieciowych.

Ilorazowa. Ten typ funkcji PSP został specjalnie zaprojektowany dla sieci regresyjnych i nie powinien być stosowany w innych przypadkach. W neuronach stosujących ten typ funkcji PSP oczekuje się, że waga skojarzona z jednym wejściem będzie równa +1, waga skojarzona z innym wejściem będzie równa -1, zaś wszystkie pozostałe wagi przyjmują wartość zero. Wartością generowaną przez tę funkcję jest wartość powstająca w ten sposób, że wartość sygnału na wejściu odpowiadającym wadze +1 podzielona jest przez wartość sygnału na wejściu o wadze -1.

Generalizacja (sieci neuronowe). Generalizacja to posiadana przez sieci neuronowe zdolność do wyznaczania poprawnych wartości wyjściowych po wprowadzeniu takich danych wejściowych, które nie były wykorzystywane w trakcie uczenia (dane te muszą jednak pochodzić z tego samego źródła co dane uczące).

Genetyczny dobór zmiennych wejściowych. Metoda wykorzystująca algorytm genetyczny do wyboru "optymalnego" zestawu zmiennych wejściowych. W trakcie swojej pracy algorytm operuje na maskach binarnych (łańcuchach składających się z wartości 0 oraz 1) o długości równej liczbie potencjalnych zmiennych wejściowych (Goldberg, 1989). Metoda ta zaimplementowana jest w STATISTICA Sieci neuronowe algorytm genetycznego doboru zmiennych wejściowych może zostać wykorzystany do określania zbiorów zmiennych wejściowych zarówno dla modeli neuronowych, jak i dla modeli klasycznych (na przykład liniowych, bądź nieliniowych modeli regresyjnych).

Głosowanie. Patrz agregacja.

Gradient (w modelowaniu równań strukturalnych). W modelowaniu równań strukturalnych gradient to wektor pierwszych pochodnych cząstkowych funkcji rozbieżności w odniesieniu do wartości parametrów. W lokalnym lub globalnym minimum funkcja rozbieżności powinna znajdować się na dnie "doliny", gdzie wszystkie pierwsze pochodne cząstkowe wynoszą zero, tak że wszystkie elementy gradientu powinny być bliskie zera, gdy funkcja osiąga minimum.

Elementy gradientu same w sobie mogą od czasu do czasu być w pewnym stopniu nierzetelne jako wskaźniki osiągnięcia zbieżności, zwłaszcza gdy dopasowanie modelu nie jest dobre, a sama wartość funkcji rozbieżności jest duża. Z tego powodu, gradient nie jest w tym programie stosowany jako kryterium zbieżności.

Gradienty sprzężone (w sieciach neuronowych). Algorytm gradientów sprzężonych (Bishop, 1995; Shepherd, 1997) jest zaawansowaną metodą uczenia perceptronów wielowarstwowych. Działa on zwykle znacząco lepiej niż algorytm wstecznej propagacji błędów, zaś zakresy zastosowań obu algorytmów uczenia pokrywają się. Jest on szczególnie polecany dla sieci o dużej liczbie wag (więcej niż kilkaset) i/lub dla sieci o wielu neuronach wyjściowych. Dla mniejszych sieci posiadających jedno wyjście zwykle lepszy jest algorytm Quasi-Newtona lub Levenberga-Marquardta.

Algorytm gradientów sprzężonych dokonuje modyfikacji wag w sposób skumulowany. Oznacza to, że modyfikacja wag przeprowadzana jest jednorazowo w końcowej fazie realizacji jednej epoki. W trakcie stosowania algorytmu gradientów sprzężonych na powierzchni błędu wyznaczana jest w każdej epoce uśredniona (względem wszystkich przypadków) wartość gradientu, która stanowi podstawę do jednorazowej modyfikacji wag przeprowadzanej w końcowej fazie każdej epoki.

W przypadku algorytmu gradientów sprzężonych nie występuje opcja mieszania, ponieważ jej zastosowanie nie spowodowałoby żadnych zmian w działaniu metody. Nie ma również potrzeby określania współczynnika uczenia i współczynnika bezwładności, co sprawia, że stosowanie tej metody jest zdecydowanie prostsze, niż zastosowanie metody wstecznej propagacji błędów. Również w metodzie tej nie znajduje zastosowania nakładany addytywnie szum, ponieważ mógłby on zaburzyć obowiązujące w algorytmie gradientów sprzężonych założenia dotyczące kształtu przestrzeni poszukiwań.

W trakcie swojego działania algorytm gradientów sprzężonych realizuje serię poszukiwań liniowych wzdłuż wybranych kierunków na powierzchni błędu. Początkowo wyznacza on kierunek największego spadku, a więc zachowuje się podobnie jak algorytm wstecznej propagacji błędów. Jednakże, zamiast po prostu wykonywać w ustalonym kierunku krok proporcjonalny do współczynnika uczenia, w metodzie gradientów sprzężonych krok jest wykonywany w sposób celowy i dobrze zdefiniowany. Po prostu po ustaleniu kierunku ruchu poszukiwany jest wzdłuż wybranej prostej (zgodnej z wyznaczonym kierunkiem) punkt, któremu odpowiada minimalna wartość funkcji błędu. Po przemieszczeniu się procesu uczenia do punktu minimalnego wyszukanego wzdłuż wybranego kierunku, realizowane są kolejne poszukiwania liniowe (jedno w jednej epoce). Przeprowadza się je wzdłuż prostych tworzących z wcześniej wybranym kierunkiem kierunki sprzężone. Te kierunki sprzężone wyznaczane są w sposób gwarantujący zachowanie minimów uzyskanych wzdłuż kierunków rozpatrywanych w poprzednich krokach (żaden krok algorytmu nie może spowodować pogorszenia wcześniej uzyskanego wyniku). Intuicja mogłaby tu wskazywać na celowość stosowania za każdym razem kierunku największego spadku, ale analiza matematyczna wskazuje, że rozwiązanie takie nie jest słuszne.

W rzeczywistości przy wyznaczaniu kierunków sprzężonych przyjmuje się założenie głoszące, że powierzchnia błędu jest lokalnie paraboloidalna. Zazwyczaj założenie to nie jest spełnione w sposób idealny, jednakże uzyskane w przy przyjęciu tego założenia rozwiązania na ogół sprawdzają się w praktyce. Stosowalność kwadratowego modelu powierzchni błędu jest zresztą kontrolowana w praktyce i jeśli algorytm stwierdzi, że bieżący kierunek poszukiwań wynikający z kwadratowego modelu i techniki gradientów sprzężonych w istocie nie umożliwia obniżenia wartości błędu, to wyznaczany jest w danym punkcie nowy kierunek największego spadku i rozpoczyna się kolejna sekwencja poszukiwania minimum w tym właśnie kierunku. Warto zauważyć, że z ogólnych własności powierzchni funkcji błędów wynika, że po osiągnięciu w trakcie poszukiwania punktu znajdującego się blisko rzeczywistego minimum wielowymiarowej funkcji, jej charakter zmienia się w taki sposób, że założenie dotyczące kwadratowej postaci powierzchni błędu staje się prawdziwe. Pozwala to na szybkie osiągnięcie punktu charakteryzującego się najniższą wartością błędu, szczególnie w końcowym etapie jego poszukiwania czyli wtedy, gdy proste metody gradientowe (m.in. metoda wstecznej propagacji) mają szczególnie duże trudności.

Uwaga: Przeprowadzana w każdej epoce algorytmu gradientów sprzężonych minimalizacja kierunkowa wymaga jednokrotnego wyznaczenia gradientu oraz pewnej liczby (dochodzącej do dwudziestu) obliczeń mających na celu oszacowanie błędu w wybranych punktach powierzchni błędu (wzdłuż ustalonej prostej). Powoduje to istotne wydłużenie czasu potrzebnego na realizację jednej epoki zwykle jest on 3 - 10 razy dłuższy w porównaniu z czasem potrzebnym na wykonanie jednej iteracji w metodzie wstecznej propagacji błędów. Jeśli zatem chcemy porównywać wydajność obu algorytmów, to musimy raczej uwzględniać czasy potrzebne na ich pełne wykonanie (aż do momentu uzyskania końcowego efektu w postaci definitywnie nauczonej sieci), a nie opierać się wyłącznie na liczbie zrealizowanych epok.

Szczegóły techniczne. Algorytm gradientów sprzężonych działa w trybie skumulowanym; gradient błędu wyznaczany jest poprzez zsumowanie gradientów błędu dla każdego przypadku uczącego.

Początkowy kierunek poszukiwań jest dany jako:

Następnie, kierunek poszukiwań jest wyznaczany za pomocą formuły Polaka-Rebierea:

Jeżeli wyznaczony kierunek poszukiwań nie prowadzi do zmniejszenia wartości błędu, to następuje restart algorytmu poprzez zastosowanie ponownie kierunku największego spadku. Oprócz tego restart algorytmu przeprowadzany jest po wyznaczeniu W kierunków (gdzie W jest liczbą wag). Jest to związane z faktem wykorzystania sprzężenia przy liczbie wag wynoszącej W możliwe jest wyznaczenie co najwyżej W sprzężonych kierunków.

Poszukiwania liniowe wzdłuż wyznaczonego kierunku przeprowadzane są za pomocą iteracyjnej metody poszukiwania kierunkowego zaproponowanej przez Brenta, która bardzo szybko lokalizuje minimum wzdłuż kierunku wykorzystując interpolację paraboliczną.






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.