Przeszukaj Internetowy Podręcznik Statystyki



Agregacja modeli (głosowanie, uśrednianie). Agregacja modeli stosowana jest w predykcyjnym data mining. Polega ona na agregacji przewidywań wielu modeli tego samego typu uzyskanych dla różnych zbiorów uczących lub wielu modeli różnego typu uzyskanych dla tego samego zbioru danych (w tym drugim znaczeniu termin ten jest używany nieco rzadziej). Jeśli modelujemy zmienną ciągłą (problemy regresyjne), to procedurę taką nazywamy uśrednianiem (averaging), a w przypadku zmiennych jakościowych (zagadnień klasyfikacyjnych) stosujemy termin głosowanie (voting). Dzięki zastosowaniu agregacji modeli możemy uzyskiwać dokładniejsze i pewniejsze przewidywania dla skomplikowanych zależności. Z metody tej korzysta się także, by rozwiązać problem naturalnej niestabilności złożonych modeli stosowanych dla niewielkich zbiorów danych.

Załóżmy, że naszym celem jest zbudowanie modelu klasyfikacyjnego i dysponujemy niewielkim zbiorem uczącym (w którym mamy dane o obserwowanej klasyfikacji). Możemy wtedy wielokrotnie losować ze zwracaniem próby ze zbioru uczącego i dla każdej z nich budować model (np. metodą  C&RT lub CHAID). W praktyce uzyskane w ten sposób modele (drzewa klasyfikacyjne) będą się różnić od siebie, co jest związane z niestabilnością modeli dla niewielkich zbiorów danych. W takim przypadku jednym ze sposobów przewidywania do jakiej klasy trafi dany obiekt jest proste głosowanie: wybieramy klasę, którą wskazało najwięcej modeli. Można także (co się często czyni) zastosować ważone głosowanie lub uśrednianie; taką zaawansowaną techniką jest wzmacnianie (boosting), wykorzystujące zaawansowany algorytm uczenia maszyn (machine learning).

AID. AID (Automatic Interaction Detection) to przygotowany przez Morgana i Sonquista (1963) program do tworzenia drzew klasyfikacyjnych, którego rozwinięciem są programy THAID (Morgan i Messenger, 1973) i CHAID (Kass, 1980). Programy te wykonują podziały wielopoziomowe przy tworzeniu drzew klasyfikacyjnych. Omówienie różnic między tym programem, a innymi do tworzenia drzew klasyfikacyjnych można znaleźć w Porównanie z innymi programami klasyfikacji danych przeznaczonymi do tworzenia drzew klasyfikacyjnych.

Algorytm k-najbliższych sąsiadów. Algorytm służący do wyznaczenia wartości odchyleń dla neuronów radialnych. Każde odchylenie przyjmuje wartość równą średniej odległości od k-najbliższych sąsiadów.

Zob. Sieci neuronowe.

Algorytm k-średnich (w sieciach neuronowych). Algorytm k-średnich wyznacza centra radialne, czyli wagi neuronów radialnych znajdujących się w drugiej warstwie sieci (Moody i Darkin, 1989; Bishop, 1995).

Metoda k-średnich przypisuje każdy przypadek uczący do jednego z k skupień (gdzie k jest liczbą neuronów radialnych). Każde z wyznaczonych skupień reprezentowane jest przez środek ciężkości należących do niego przypadków, zaś odległość każdego przypadku od środka ciężkości przypisanego mu skupienia jest mniejsza od odległości pomiędzy tym przypadkiem a środkiem ciężkości każdego innego skupienia (jest to podstawowe kryterium zaliczenia określonego przypadku do konkretnego skupienia). Środki ciężkości skupień kopiowane są do neuronów radialnych.

Celem działania algorytmu k-średnich jest określenie zbioru centrów skupień, które w najlepszy sposób reprezentują rzeczywisty rozkład przypadków uczących.

Szczegóły techniczne. Metoda k-średnich jest algorytmem iteracyjnym. Początkowo skupienia tworzone są arbitralnie poprzez wybór pierwszych k przypadków jako centrów k skupień w wejściowym zbiorze danych. Następnie (po wyczerpaniu całego zbioru uczącego) wyznaczane są środki ciężkości dla każdego tak utworzonego skupienia.

W kolejnym kroku sprawdza się, czy nie istnieją przypadki, których odległość od środka ciężkości własnego skupienia jest większa od odległości dzielącej ten przypadek od środka ciężkości innego skupienia. Jeśli przypadki takie zostaną wykryte, to są one przesuwane do bliższych im skupień. Jeżeli wystąpiły takie przesunięcia przypadków, to ponownie wyznacza się środki ciężkości wszystkich skupień i opisany algorytm jest powtarzany.

Ostrzeżenie: Brak jest formalnego dowodu zbieżności dla opisanego wyżej algorytmu, chociaż w praktyce stwierdzono, że zazwyczaj osiąga on zbieżność w rozsądnie krótkim czasie.

Algorytm Delta-bar-Delta (w sieciach neuronowych). Heurystyczna modyfikacja algorytmu wstecznej propagacji błędów. W trakcie uczenia sieci przeprowadza automatyczną modyfikację szybkości uczenia (niezależnie w każdym wymiarze), w zależności od ukształtowania powierzchni błędu (Jacobs, 1998; Patterson, 1996).

Podobnie jak szybka propagacja, algorytm Delta-Bar-Delta jest algorytmem działającym w sposób skumulowany. W każdej epoce, przy uwzględnieniu wszystkich przypadków uczących, wyznaczana jest średnia wartość gradientu błędu, a następnie w końcowej fazie epoki jednokrotnie modyfikowane są wagi sieci.

Inspiracją dla algorytmu Delta-Bar-Delta było spostrzeżenie stwierdzające, że powierzchnia błędu może mieć różny gradient wzdłuż kierunków odpowiadających poszczególnym wagom, co powoduje, że każda waga powinna posiadać swój własny współczynnik uczenia. Dzięki uwzględnieniu tego spostrzeżenia w metodzie Delta-Bar-Delta zróżnicowaniu ulegnie wielkość kroku dla każdej z wag.

W algorytmie Delta-Bar-Delta indywidualne współczynniki uczenia dla każdej wagi zmieniane są w każdej epoce w sposób zgodny z dwoma ważnymi heurystykami:

Aby spełnić te heurystyki, algorytm Delta-Bar-Delta posiada trzy parametry: początkowy współczynnik uczenia, który stosowany jest dla wszystkich wag w trakcie pierwszej epoki, współczynnik przyrostu, który dodawany jest współczynnika uczenia w przypadku, gdy znak pochodnej nie ulega zmianie oraz współczynnik określający tempo zaniku, przez który przemnażany jest współczynnik uczenia, jeśli pochodna zmienia znak. Zastosowanie liniowego wzrostu oraz wykładniczego spadku współczynnika uczenia przyczynia się do zachowania stabilności metody.

Opisany powyżej algorytm może być również skłonny do nieprawidłowego działania na zaszumionej powierzchni błędu, gdzie pochodna często zmienia znak, nawet jeśli na całej powierzchni występuje opadający trend. Wskutek tego zwiększenie lub zmniejszenie współczynnika uczenia jest w rzeczywistości oparte na wygładzonej wersji pochodnej.

Szczegóły techniczne. Wagi w algorytmie Delta-Bar-Delta są modyfikowane przy użyciu takiej samej formuły, jak w algorytmie wstecznej propagacji błędów, z tą różnicą, że nie jest wykorzystywana bezwładność, zaś każda waga posiada swój własny, zmienny w czasie współczynnik uczenia.

Wszystkim współczynnikom uczenia nadawana jest początkowo taka sama wartość startowa, następnie są one dostosowywane za pomocą zamieszczonych poniżej formuł.

Wartość bar-Delta wyznaczana jest następująco:

d(t) jest pochodną powierzchni błędu;

q jest stałą wygładzania.

Współczynnik uczenia dla każdej wagi jest modyfikowany następująco:

k jest współczynnikiem liniowego wzrostu;

f jest współczynnikiem wykładniczego spadku.

Algorytm EM analizy skupień. Algorytm ten ma podobny cel jak grupowanie metodą k-średnich. Algorytm EM (Expectation, Maximization) realizuje grupowanie przypadków poprzez dopasowywanie do danych mieszanki rozkładów prawdopodobieństwa; na przykład:

Na wykresie widzimy dwa rozkłady normalne o różnych średnich i różnych odchyleniach standardowych oraz ich sumę. W danych obserwujemy jedynie tę sumę (zakładając, że grupujemy na bazie jednej, ciągłej zmiennej). Celem algorytmu EM jest ocena parametrów rozkładów grup, poprzez maksymalizacje wiarogodności.

Więcej na ten temat, Witten, Frank (2001).

Algorytm genetyczny. Algorytm poszukujący optymalnego łańcucha wartości binarnych. Rozpoczyna swoje działanie od losowej populacji łańcuchów. Wykorzystuje operatory mutacji, krzyżowania oraz selekcji, których działanie wzorowane jest na naturalnym mechanizmie selekcji (Goldberg, 1989).

Więcej informacji można znaleźć w części Sieci neuronowe.

Algorytm Kohonena (w sieciach neuronowych). Algorytm Kohonena (Kohonen, 1982; Patterson, 1996; Fausett, 1994) przypisuje wagi neuronom warstwy radialnej próbując (podczas prowadzonego uczenia bez nauczyciela) rozpoznać skupienia wśród przypadków uczących. Zbliżone do siebie w przestrzeni wzorców centra skupień przypisywane są zwykle do neuronów, które w sieci znajdują się blisko siebie (uporządkowanie topologiczne).

Algorytm uczenia Kohonena jest, oczywiście, stosowany dla sieci Kohonena (samoorganizującej się mapy cech). Ale może on być również użyty do uczenia sieci o radialnych funkcjach bazowych, sieci grupujących i sieci regresyjnych.

Sieci Kohonena zwykle posiadają dwuwymiarową warstwę radialną. Rozpoczynając od początkowych, dobranych losowo centrów, algorytm testuje każdy przypadek uczący i wybiera dla niego najbliższe centrum. Centrum to oraz jego sąsiedztwo są w taki sposób modyfikowane, aby zapisane w nich centra upodobniły się do przypadku uczącego.

W trakcie działania algorytmu stopniowo zmniejszany jest współczynnik uczenia (który kontroluje stopień upodobniania się centrów do przypadków uczących) oraz wielkość sąsiedztwa. Dlatego też w początkowej fazie algorytm uczenia tworzy w sieci przybliżoną mapę topologiczną, w której podobne skupienia przypadków lokowane są wstępnie w określonym obszarze warstwy radialnej. Zaś w ostatniej fazie procesu uczenia mapa topologiczna jest precyzyjnie dostrajana, tak aby pojedyncze neurony odpowiadały niewielkim skupieniom podobnych do siebie przypadków wejściowych, tworząc w ten sposób pewne klasy podobieństwa wśród wejściowych danych.

Jeśli przez cały czas sąsiedztwo ma wielkość zerową, to algorytm Kohonena realizuje prostą technikę grupowania znaną z metod analizy skupień. Algorytm ten może być także użyty do jednowymiarowej warstwy neuronów zarówno z jak i bez definiowania sąsiedztwa.

Jeśli dostępne są właściwe etykiety klas dla przypadków uczących to po uczeniu Kohonena można przypisać skupieniom etykiety za pomocą algorytmu etykietowania klas, a następnie metodą LVQ można poprawić położenie wektorów wzorcowych (centra neuronów radialnych).

Szczegóły techniczne. Stosowana w metodzie Kohonena reguła modyfikująca jest następująca:

x jest przypadkiem uczącym,

h(t) jest współczynnikiem uczenia.

Algorytm Levenberga-Marquardta (w sieciach neuronowych). Algorytm Levenberga-Marquardta (Levenberg, 1944; Marquardt, 1963; Bishop, 1995; Shepherd, 1997; Press i in., 1992) jest zaawansowanym algorytmem optymalizacji nieliniowej. Można go wykorzystać, podobnie jak algorytm wstecznej propagacji błędów, do uczenia wag w sieci. Zwykle jest on najszybszym i najpewniejszym algorytmem uczącym. Jednakże, posiada on pewne ograniczenia.

Sieć o pojedynczym wyjściu. Algorytm Levenberga-Marquardta może być użyty wyłącznie do sieci posiadających pojedynczy neuron wyjściowy.

Małe sieci. Wymagania odnośnie zapotrzebowania na pamięć rosną przy stosowaniu algorytm Levenberga-Marquardta proporcjonalnie do kwadratu liczby wag w sieci. Uniemożliwia to jego użycie w odniesieniu do sieci o dowolnie dużych rozmiarach (posiadających więcej niż kilkaset wag).

Suma kwadratów jako funkcja błędu. Algorytm Levenberga-Marquardta wymaga zastosowania funkcji błędu w postaci sumy kwadratów. Jeśli wybierzemy dla swojej sieci inną postać funkcji błędu, to ustawienie to będzie ignorowane w trakcie uczenia sieci za pomocą algorytmu Levenberga-Marquardta. Dlatego też, algorytm ten zazwyczaj zalecany jest tylko do zagadnień regresyjnych.

Uwaga:Podobnie jak inne algorytmy iteracyjne, algorytm Levenberga-Marquardta nie przeprowadza uczenia neuronów radialnych. Dlatego też, można go stosować do optymalizacji warstw nie-radialnych w sieciach o radialnych funkcjach bazowych nawet wówczas, gdy w warstwie radialnej znajduje się bardzo duża liczba wag, gdyż wagi te są ignorowane przez algorytm Levenberga-Marquardta. Jest to istotne, gdyż zwykle w sieciach zawierających warstwy radialne i nie radialne warstwa radialna jest bardzo duża.

Działanie algorytmu Levenberga-Marquardta opiera się na założeniu głoszącym, że modelowana przez sieć rzeczywista funkcja wiążąca sygnały wejściowe z jednym sygnałem wyjściowym ma charakter liniowy. Przyjęcie takiego założenia umożliwia precyzyjne wyznaczenie minimum funkcji błędu ze znanego wzoru analitycznego, co może być wykonane w jednym kroku. Po wyznaczeniu hipotetycznego minimum funkcji błędu algorytm przeprowadza jego testowanie. Jeśli wartość błędu jest tutaj niższa od błędu w punkcie startowym, to współrzędne nowego punktu wyznaczają nowy punkt startowy, a odpowiadający mu zestaw wag jest traktowany jako nowe przybliżenie optymalnych parametrów uczonej sieci. Proces ten jest powtarzany w kolejnych epokach. Za podstawową zaletę algorytmu Levenberga-Marquardta należy uznać umiejętność wyznaczania nowych rozwiązań w sposób, będący każdorazowo kompromisem pomiędzy rozwiązaniem dostarczanym przez metodę największego spadku i wspomniany powyżej algorytm hipotetycznej aproksymacji liniowej. Jeśli dostarczone przez algorytm hipotetycznej aproksymacji liniowej rozwiązanie doprowadziło do zmniejszenia wartości błędu, to założenie dotyczące liniowości jest wzmacniane. Jeśli hipoteza liniowości się nie sprawdziła, to kroki, które doprowadziły do rozwiązań powodujących zwiększenie się wartości błędu są odrzucane, a kolejne próby zmiany wartości wag według hipotetycznej aproksymacji liniowej dokonywane są z większą ostrożnością. W trakcie swojej pracy algorytm przełącza się pomiędzy dwoma opisanymi podejściami, korzystając z hipotetycznej aproksymacji liniowej najczęściej, jak się tylko da i cofając się do metody największego spadku jedynie w sytuacji ewidentnego niepowodzenia, co w sumie umożliwia mu bardzo szybkie działanie.

Szczegóły techniczne.Algorytm Levenberga-Marquardta został specjalnie zaprojektowany z myślą o minimalizacji funkcji błędu w postaci sumy kwadratów, wykorzystując formułę, która (częściowo) zakłada, że modelowana przez sieć rzeczywista funkcja jest liniowa. W pobliżu minimum założenie to jest w przybliżeniu prawdziwe i algorytm może w tym obszarze wykazywać bardzo szybki postęp procesu uczenia. W większej odległości od minimum założenie to może być błędne. Dlatego też algorytm Levenberga-Marquardta realizuje w każdej chwili kompromisową strategię uczenia pomiędzy modelem liniowym, a podejściem stosowanym w metodzie gradientowej. Przesunięcie punktu poszukującego optimum wag jest akceptowane tylko wówczas, gdy prowadzi do zmniejszenia błędu. Jeśli pojawi się taka potrzeba, to w algorytmie Levenberga-Marquardta stosowana jest "czysta" metoda gradientowa z wartością kroku na tyle małą, aby zapewnić zmniejszenie błędu.

Algorytm Levenberga-Marquardta stosuje następującą formułę modyfikującą:

gdzie jest wektorem błędów dla poszczególnych przypadków, zaś Z jest macierzą pochodnych cząstkowych tych błędów względem wag.

Pierwszy człon w formule Levenberga-Marquardta odpowiada założeniu o liniowości; drugi metodzie gradientowej. Parametr sterujący l określa względny wpływ obu tych podejść. Za każdym razem, gdy algorytm Levenberga-Marquardta prowadzi do zmniejszenia wartości błędu, wartość parametru sterującego zmniejszana jest dziesięciokrotnie, wzmacnia to założenie o liniowości i kieruje algorytm w stronę próby bezpośredniego osiągnięcia minimum. Za każdym razem, gdy nie powiedzie się próba zmniejszenia błędu, wartość parametru sterującego zwiększana jest dziesięciokrotnie. Zwiększa to wpływ metody gradientowej i zmniejsza wielkość kroku. W ten sposób zapewnione jest zmniejszenie wartości błędu niezależnie od położenia aktualnego punktu i wynikającego z niego lepszego lub gorszego przybliżania rzeczywistej funkcji przez jej liniową aproksymację.

Algorytm pseudoodwrotny. Jeden z algorytmów służących do efektywnej optymalizacji modelu liniowego, znany również pod nazwą dekompozycji wartości osobliwej (Bishop, 1995; Press i wsp., 1992; Golub i Kahan, 1965).

Algorytm Sympleks. Algorytm ten jest jednym z algorytmów estymacji nieliniowej, nie opierających się na obliczaniu lub estymacji pochodnych funkcji straty. W każdej iteracji tego algorytmu, funkcja będzie szacowana w m+1 punktach, w m wymiarowej przestrzeni parametrów. Na przykład w dwóch wymiarach (tzn. gdy należy oszacować dwa parametry), program oszacuje funkcję w trzech punktach wokół bieżącego optimum. Te trzy punkty zdefiniują trójkąt; w więcej niż trzech wymiarach utworzona przez te punkty "figura" nazywa się sympleksem.

Algorytm. W odróżnieniu od podejścia heurystycznego (wykorzystującego ogólne zalecenia opierające się na wnioskowaniu statystycznym lub rozumowaniu teoretycznym), algorytmy stanowią dokładnie zdefiniowane zbiory kroków, operacji lub procedur, pozwalających na utworzenie określonego wyniku. Na przykład (z małymi wyjątkami) wszystkie programy komputerowe, wzory matematyczne oraz (do pewnego stopnia) receptury lub przepisy kulinarne są algorytmami.

Więcej informacji można znaleźć pod hasłami zgłębianie danych, sieci neuronowe, podejście heurystyczne.

Algorytmy minimalizacji funkcji niezależne od pochodnych. Estymacja nieliniowa oferuje kilka ogólnych algorytmów minimalizacji funkcji, wykorzystujących różne strategie poszukiwań, które nie zależą od pochodnych drugiego rzędu. Strategie te bywają bardzo efektywne przy minimalizacji funkcji straty posiadającej lokalne minima.

Algorytmy minimalizacji funkcji. Algorytmy wykorzystywane (np. w estymacji nieliniowej) do poszukiwania minimum funkcji. Na przykład w procesie estymacji nieliniowej minimalizacji podlega aktualnie określona funkcja straty.

Algorytmy określania promieni neuronów radialnych (w sieciach neuronowych). W wielu typach sieci stosowane są neurony radialne z dzwonową, (gaussowską) funkcja aktywacji, której kształt (promień) zdeterminowany jest parametrem nazywanym "odchyleniem radialnym". Wielkość ta wykorzystywana jest w trakcie wyznaczania wartości wyjściowej neuronu. Promień (odchylenie radialne) określa wielkość skupienia reprezentowanego przez neuron radialny.

Promień określa się po określeniu wag neuronów radialnych; patrz próbkowanie radialne i algorytm k-średnich.

Określanie promieni przez użytkownika.Użytkownik podaje wartość parametru.

Uwaga. Podawany parametr nie jest gaussowskim odchyleniem standardowym. Jest to natomiast wartość przechowywana w neuronie jako wartość progowa, która mnożona jest przez odległość wektora wag od wektora wejściowego. Jest ona powiązana z odchyleniem standardowym formułą:

Określanie promieni metodą równomiernego przydziału. Algorytm ten do określania promieni neuronów radialnych wykorzystuje regułę heurystyczną (Haykin, 1994). Heurystyka ta dokonuje próby sensownego określenia promienia (takiego samego dla wszystkich neuronów) w oparciu o liczbę centrów oraz ich rozprzestrzenienie. Heurystyka równomiernych odchyleń wyznacza odpowiedni parametr zgodnie ze wzorem:

gdzie d jest odległością pomiędzy dwoma najbardziej odległymi centrami, zaś k jest liczbą centrów.

Określanie promieni metodą k-najbliższych sąsiadów. Algorytm określania promieni metodą k-najbliższych sąsiadów (Bishop, 1995) wyznacza promienie neuronów radialnych w oparciu o odległość RMS (Root Mean Squared) od k neuronów najbliżej położonych od danego neuronu (ale nie pokrywających się z nim). Sposób wyznaczania promienia jest w tej metodzie podobny do metody określania odchylenia standardowego (przy założeniu gaussowskich modeli neuronów). Każdy neuron ma więc w tej metodzie swoje własne, niezależnie wyznaczone odchylenie, bazujące na gęstości rozkładu zbliżonych do niego punktów.

Jeżeli nieidentycznych sąsiadów jest mniej niż K, to algorytm użyje tylu sąsiadów ilu jest.

Algorytmy w STATISTICA Neural Networks działające w sposób skumulowany. W trakcie pracy algorytmów uczenia działających w sposób skumulowany, modyfikacja wag nie jest przeprowadzana po prezentacji każdego przypadku uczącego lecz dokonywana jest jednokrotnie po zakończeniu epoki. Do algorytmów działających w sposób skumulowany zalicza się algorytm szybkiej propagacji, algorytm Delta-bar-Delta, algorytm gradientów sprzężonych oraz algorytm Levenberga-Marquardta.

Analiza czynnikowa. Główne zastosowania czynnikowych technik analitycznych to: (1) redukcja liczby zmiennych oraz (2) wykrywanie struktury w związkach pomiędzy zmiennymi, to znaczy klasyfikacja zmiennych. Dlatego analiza czynnikowa jest stosowana jako metoda redukcji danych lub wykrywania struktury (termin analiza czynnikowa został po raz pierwszy wprowadzony przez Thurstonea, 1931).

Wyobraźmy sobie, na przykład, że chcemy zmierzyć zadowolenie ludzi z życia. Projektujemy kwestionariusz z różnymi wskaźnikami; między innymi pytamy respondentów o to, czy są zadowoleni ze swojego hobby (wskaźnik 1) i jak intensywnie uprawiają to hobby (wskaźnik 2). Najprawdopodobniej odpowiedzi w tych dwóch punktach będą ze sobą wysoce skorelowane. Jeśli otrzymamy wysoką korelację, możemy stwierdzić, że wskaźniki są redundantne.

Korelację między dwiema zmiennymi można przedstawić na wykresie rozrzutu. Następnie można dopasować linię regresji, która najlepiej oddaje liniowy związek między tymi zmiennymi. Gdybyśmy mogli zdefiniować nową zmienną, by odpowiadała ona linii regresji na wykresie, wówczas zmienna ta zawierałaby większość "treści" naszych dwóch wskaźników. Wyniki konkretnych osób, wyrażone za pomocą nowego czynnika, reprezentowanego przez linię regresji, mogłyby w przyszłej analizie danych zostać wykorzystane w zastępstwie tych dwóch wskaźników. W pewnym sensie zredukowaliśmy dwie zmienne do jednego czynnika.

Analiza czynnikowa jest jedną z technik eksploracyjnych, informacje na temat Konfirmacyjnej analizy czynnikowej znajdują się w części Modelowanie równań strukturalnych (SEPATH).

Więcej na temat analizy czynnikowej można znaleźć we wprowadzeniu do analizy czynnikowej w rozdziale Składowe główne i analiza czynnikowa.

Analiza funkcji dyskryminacyjnej. Analiza funkcji dyskryminacyjnej stosowana jest do rozstrzygania, które zmienne rozróżniają dwie lub więcej istniejących w naturze grup (poprzez testowanie hipotez lub jako metoda eksploracyjna). Na przykład, w pedagogice można badać, jakie cechy rozróżniają absolwentów szkół średnich, którzy decydują się (1) pójść na studia, (2) do szkół pomaturalnych lub (3) zaprzestać dalszej nauki. Badacz mógł zebrać dane o wielu zmiennych, dostępnych przed ukończeniem szkoły. Po ukończeniu szkoły większość absolwentów "wpadnie" do jednej z trzech wymienionych kategorii. Analiza dyskryminacyjna mogłaby następnie być wykorzystana do rozstrzygnięcia, która zmienna lub zmienne są najlepszymi predyktorami późniejszego wyboru dokonanego przez absolwentów.

Więcej na ten temat, patrz Wprowadzenie do analizy funkcji dyskryminacyjne; również Drzewa klasyfikacyjne.

Analiza głównych składowych. Liniowa technika redukcji wymiaru, pozwalająca zidentyfikować wzajemnie ortogonalne wymiary o największej wariancji w obrębie oryginalnych danych i przeprowadzająca rzutowanie danych w przestrzeń o mniejszej liczbie wymiarów utworzoną z podzbioru składowych o największej wariancji (Bishop, 1995).

Zob. Sieci neuronowe, Analiza czynnikowa.


Analiza korespondencji. Analiza korespondencji to technika opisowa i eksploracyjna służąca do analizy tabel dwudzielczych lub wielodzielczych, zawierających pewne miary charakteryzujące związek pomiędzy kolumnami i wierszami. Wynik dostarcza informacji podobnych w swej naturze do rezultatów analizy czynnikowej i pozwala na analizę struktury zmiennych jakościowych tworzących tablicę. Najczęściej spotykaną tablicą tego typu jest dwuwymiarowa tablica kontyngencji (zob. Statystyki podstawowe lub Analiza log-liniowa tabel liczności).

Więcej o analizie korespondencji można znaleźć we Wprowadzeniu do analizy korespondencji.

Analiza koszykowa (reguły asocjacji). Analiza koszykowa, czy też zgłębianie danych (Data mining) w poszukiwaniu reguł asocjacji, jest często pierwszą, bardzo użyteczną metodą analizy danych opisujących transakcje, listy występujących razem elementów (listy zestawów), czy też frazy (w text mining) itp. Reguły asocjacji mają ogólną postać: Jeżeli Poprzednik (Body), to Następnik (Head), gdzie Poprzednik i Następnik zawierają proste warunki logiczne w postaci kodów, wartości tekstowych, zestawów, wyborów użytkownika, fraz itp. lub są koniunkcją kodów, wartości tekstowych itd. (np. jeżeli (Samochód=Porsche i Wiek<20 i "Skłonność do podejmowania ryzka"=Wysoka) to (Ryzyko=Wysokie i Ubezpieczenie=Wysokie)). Znajdująca się pomiędzy słowami "jeżeli" i "to" koniunkcja logiczna to Poprzednik (Body) reguły, natomiast druga koniunkcja logiczna to Następnik (Head). Popularnym i wydajnym algorytmem wyszukiwania reguł asocjacji w dużych zbiorach danych jest algorytm a-priori (zob. Agrawal i Swami, 1993; Agrawal i Srikant, 1994; Han i Lakshmanan, 2001; a także Witten i Frank, 2000).

Analiza log-liniowa. Analiza log-liniowa to bardziej wyrafinowany sposób patrzenia na tabele krzyżowe (stosowany do eksploracji danych i weryfikacji hipotez). Jest on niekiedy traktowany jako odpowiednik metody ANOVA w odniesieniu do danych zawierających liczebności. W szczególności pozwala ona użytkownikowi testować istotność statystyczną wpływu różnych czynników, które zostały ujęte w tabeli krzyżowej (np. płeć, region itd.) i ich interakcji (zob. Podstawowe pojęcia statystyki, gdzie znajduje się omówienie problematyki testowania istotności statystycznej).

Więcej informacji na temat analizy log-liniowej można znaleźć w sekcji Wprowadzenie do analizy log-liniowej.

Analiza podstawowych przyczyn. Pojęcie analiza podstawowych przyczyn (ang. root cause analysis) stosowane jest w przemyśle jako określenie działań mających na celu zidentyfikowanie czynników wpływających na jakość produktu i wydajność procesów. Przykładowo, jeśli w procesie produkcji układów scalonych występuje pewien charakterystyczny układ wad, technolog zastosuje różne metody i strategie analizy podstawowych przyczyn w celu wykrycia przyczyn leżących u źródeł tych problemów.

Analiza procesu. W zastosowaniach przemysłowych termin analiza procesu odnosi się do metod analitycznych, które mogą być wykorzystywane do zapewnienia zgodności produktu ze specyfikacjami jakościowymi. Metody te obejmują plany badań wyrywkowych, analizę zdolności procesu, dopasowanie pomiarów do rozkładu innego niż normalny, badanie powtarzalności i odtwarzalności pomiarów oraz analizę Weibulla niezawodności/czasu uszkodzeń.

Więcej informacji można uzyskać w sekcji Analiza procesu.

Analiza przeżycia. W skład analizy przeżycia wchodzą metody opisowe (eksploracyjne i testowania hipotez), służące do oceny rozkładu czasu przeżycia na podstawie próby, porównywania przeżywalności w dwóch lub więcej grupach, dopasowywania liniowych lub nieliniowych modeli regresji do danych o czasach przeżycia. Dane o czasach przeżycia charakteryzują się występowaniem tzw. obserwacji uciętych, tzn. dotyczących osób lub obiektów, które "przeżyły" pewien czas, po czym nie mamy o nich dalszych informacji (np. pacjentów wypisanych ze szpitala). Zamiast w całości wykluczyć takie obserwacje z analizy (i tym samym utracić potencjalnie użyteczną informację) techniki analizy przeżycia uwzględniają obserwacje ucięte i korzystają z nich przy testowaniu istotności statystycznej i dopasowywaniu modeli.

Typowe metody analiz przeżycia to tablice trwania życia, dopasowanie rozkładu czasu przeżycia, estymacja funkcji przeżycia Kaplana-Meiera i oraz porównywanie przeżycia w dwóch lub więcej grupach. Poza tym w skład analizy przeżycia wchodzą modele regresji umożliwiające ocenę wpływu wielu ciągłych zmiennych niezależnych na czasy przeżycia.

Więcej informacji można znaleźć w rozdziale Analiza przeżycia.

Analiza rzetelności i pozycji. W wielu dziedzinach badań precyzyjny pomiar zakładanych procesów lub zmiennych (konstruktów teoretycznych) jest sam w sobie wyzwaniem. Na przykład w psychologii, zanim będzie można rozważać którąś z teorii osobowości lub postaw, pierwszym krokiem, jaki należy wykonać, jest dokładny pomiar zmiennych osobowościowych lub postaw. Ogólnie, we wszystkich naukach społecznych, nierzetelne pomiary ludzkich przekonań lub intencji będą oczywistą przeszkodą w przewidywaniu ich zachowań. Kwestia dokładności pomiaru pojawi się także w badaniach stosowanych, zawsze gdy występują zmienne trudno obserwowalne. Na przykład, rzetelny pomiar wydajności pracownika jest zazwyczaj zadaniem trudnym; a jest oczywiste, że jest on niezbędny do wprowadzenia systemu kompensacyjnego, który byłby oparty na wydajności.

We wszystkich tych przypadkach, do zbudowania rzetelnych skal pomiarowych, do poprawy istniejących skal oraz oceny rzetelności używanych skal może być wykorzystana analiza rzetelności i pozycji. W szczególności analiza rzetelności i pozycji może służyć do projektowania i oceny skal sumarycznych, to znaczy skal, które składają się z wielu pojedynczych pomiarów (np. różnych pozycji, powtarzanych pomiarów, różnych przyrządów pomiarowych itd.).

Analiza rzetelności i pozycji dostarcza wiele statystyk, które umożliwiają budowanie i ocenę skal zgodnie z tak zwanym modelem klasycznej teorii testu.

Więcej informacji na ten temat można uzyskać we wprowadzeniu do Analizy rzetelności i pozycji.


Termin niezawodność w statystykach przemysłowych oznacza funkcję opisującą prawdopodobieństwo awarii (w zależności od czasu). Omówienie niezawodności w odniesieniu do jakości produktu (np. w statystykach przemysłowych) zob. Analiza Weibulla niezawodności/czasu uszkodzeń w części Analiza procesu. Zob. także analiza powtarzalności i odtwarzalności pomiarów (R&R) oraz Analiza przeżycia). Porównanie tych dwóch (istotnie różnych) pojęć niezawodności zob. rzetelność.

Analiza skupień. Pojęcie analizy skupień (ang. cluster analysis, termin wprowadzony w pracy Tryon, 1939) obejmuje wiele różnych algorytmów klasyfikacji służących celom taksonomicznym (standardowo, w ramach eksploracyjnej analizy danych). Przykładowo, biolog musi najpierw określić realacje między gatunkami zwierząt zanim zacznie analizować różnice między nimi. Według współczesnej systematyki człowiek należy do naczelnych, ssaków, kręgowców i zwierząt. Zauważmy, że im wyższy stopień agregacji tym elementy klas są mniej do siebie podobne. Człowiek ma więcej wspólnego z naczelnymi (np. z szympansami) niż z bardziej "odległymi" ssakami (np. psami).

Więcej informacji o konkretnych metodach analizy skupień, patrz Aglomeracja, Grupowanie obiektów i cech oraz Grupowanie metodą k-średnich. Ogólne informacje o Analizie skupień, patrz Wprowadzenie do analizy skupień; patrz też Drzewa klasyfikacyjne.


Analiza wrażliwości (w sieciach neuronowych). Analiza wrażliwości pozwala na odróżnienie ważnych zmiennych od takich, które niewiele wnoszą do wyniku działania sieci, te ostatnie można odrzucić. Można ją wykonywać tylko po to by dowiedzieć się czegoś o zmiennych wejściowych albo w celu odrzucenia zbędnych zmiennych.

Analiza wrażliwości daje wgląd w użyteczność poszczególnych zmiennych wejściowych. Wskazuje zmienne, które, bez straty jakości sieci mogą być pominięte i zmienne kluczowe, których nigdy nie wolno pomijać. Z pewnych względów, opisanych niżej, konieczna jest jednak ostrożność przy wyciąganiu wniosków.

Zmienne wejściowe, z reguły nie są niezależne. Analiza wrażliwości wykazuje stratę jaką ponosimy odrzucając konkretną zmienną. Jednak wobec zależności pomiędzy zmiennymi, taki wskaźnik obliczany niezależnie, dla każdej zmiennej może nie odzwierciedlać rzeczywistej sytuacji.

Załóżmy, na przykład, że dwie zmienne zawierają tą samą informację, a nawet, że są po prostu kopiami. Usunięcie jednej ze zmiennych nie powoduje straty, gdyż informacja dostępna jest w drugiej. Tak więc, obie te zmienne będą, w niezależnych krokach uznane za nieważne. Podczas gdy jednoczesne usunięcie obu zmiennych pozbawi sieć bardzo ważnej informacji.

Zdarzają się też takie, powiązane wzajemnie zmienne, które użyteczne są tylko razem. Gdy włączone są wszystkie te zmienne, to każda z nich da dużą wrażliwość. Jednak, gdy nie wszystkie są uwzględnione, to wrażliwość na pozostałe będzie zerowa.

Reasumując, analiza wrażliwości nie daje bezwzględnej oceny użyteczności zmiennych. Trzeba ją stosować ostrożnie, co nie zmienia faktu jej wielkiej, praktycznej przydatności. Badając więcej modeli znajdujemy powtarzające się, ważne zmienne i powtarzające się pomijalne, oraz takie, które czasami dają dużą wrażliwość a czasami małą, te ostatnie zawierają zapewne redundantną informację.

Jak wykonywana jest analiza wrażliwości? Istnieją procedury kompensowania braków danych występujących w zmiennych (przeważnie wstawia się średnią, przy zmiennych ilościowych, a dla zmiennych nominalnych używa się prawdopodobieństw a priori). Procedury te używane są w trakcie analizy wrażliwości. Dane prezentowane są sieci wielokrotnie, przy czym w każdym z testów, wszystkie wartości jednej zmiennej, innej w każdym powtórzeniu, zamieniane są na braki danych i obliczany jest całkowity błąd, podobnie jak w standardowym uczeniu sieci.

Ponieważ odrzucamy pewną ilość danych spodziewać się powinniśmy zwiększenia błędu sieci. Tak więc podstawową miarą wrażliwości sieci jest iloraz błędu uzyskanego przy uruchomieniu sieci dla zbioru danych bez jednej zmiennej i błędu uzyskanego z kompletem zmiennych. Im większy błąd po odrzuceniu zmiennej, w stosunku do pierwotnego błędu tym bardziej wrażliwa jest sieć na brak tej zmiennej.

Jeżeli iloraz błędów wynosi 1 lub jest nawet mniejszy, to usunięcie zmiennej nie ma wpływu na jakość sieci a nawet ją poprawia (!).

Po wykonaniu analizy wrażliwości dla wszystkich zmiennych, zmienne można uszeregować pod względem ważności.

API (Application Programming Interface). Application Programming Interface jest zbiorem funkcji dostosowanych do konwencji stosowanych w określonym systemie operacyjnym (np. Windows), które umożliwiają użytkownikowi programowy dostęp do funkcjonalności innego programu. Na przykład można na wiele sposobów uzyskać dostęp do jądra programu STATISTICA Sieci Neuronowe przez inne programy (np. Visual Basic, STATISTICA BASIC, Delphi, C, C++).

Atrybut. Inna nazwa dla zmiennej nominalnej.

Automatyczny projektant sieci. Algorytm heurystyczny (zaimplementowany w programie STATISTICA Neural Networks) służący do eksperymentalnego określania struktury sieci właściwej dla aktualnie przetwarzanego zbioru danych.




© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.