Przeszukaj Internetowy Podręcznik Statystyki



Macierz eksperymentu. W przypadku ogólnych modeli liniowych i uogólnionych modeli liniowych, macierz eksperymentu jest macierzą X dla predyktorów, wykorzystywaną przy rozwiązywaniu równań normalnych. Macierz X ma jeden wiersz dla każdego przypadku oraz jedną kolumnę dla każdej wartości predyktora występującego w układzie. Wartości w komórkach macierzy eksperymentu identyfikują sposób przyporządkowania przypadków do poziomów predyktorów.

Patrz także, Ogólne modele liniowe, Uogólnione modele liniowe.

Macierz kosztów (w sieciach neuronowych). Jeśli sieć jest uczona w taki sposób, że wartości wyjściowe są oszacowaniami prawdopodobieństw, to można zastosować macierz kosztów (Bishop, 1995).

W prostszych przypadkach zadań klasyfikacyjnych do podejmowania decyzji o przynależności rozważanych obiektów do określonych klas mogą być wykorzystane bezpośrednio same tylko (wyznaczone przez sieć) oszacowania prawdopodobieństw. Powoduje to nieuchronnie, że czasami sieć może się pomylić (jest to nie do uniknięcia jeśli dane są zaszumione).

Jednakże pewne błędy mogą być bardziej dotkliwe (bardziej "kosztowne") niż inne. Na przykład, jeśli diagnozując pacjenta system rozpozna u niego potencjalnie śmiertelną chorobę, to wówczas (opierając się na tej diagnozie) zalecimy lekarstwo osobie, która go nie potrzebuje, bo nie jest w rzeczywistości chora. Postępowanie takie jest oczywiście niekorzystne, jednak można uznać je za mniej poważny błąd, niż błąd polegający na nie rozpoznaniu choroby i - w efekcie - zaniechaniu podania lekarstwa komuś, kto naprawdę jest poważnie chory.

Macierz kosztów jest kwadratową macierzą współczynników, które odzwierciedlają relatywny koszt różnych błędnych klasyfikacji. Te koszty błędów przemnażane są w budowanej sieci neuronowej przez wektor oszacowań prawdopodobieństw i w ten sposób uzyskuje się wektor oszacowań kosztów związanych z każdą decyzją, jaka może być podjęta. Po takim oszacowaniu kosztów stosowana reguła decyzyjna jest prosta i oczywista: rozważany przypadek jest przypisywany do klasy o najmniejszym oszacowanym koszcie.

Ponieważ poprawna klasyfikacja posiada zawsze koszt zerowy, na głównej przekątnej macierzy kosztów znajdują się zawsze zera. Na innych pozycjach współczynnik w n-tej kolumnie i m-tym wierszu reprezentuje koszt błędnego zaklasyfikowania przypadku, który w rzeczywistości należy do n-tej klasy, a został zaklasyfikowany do m-tej klasy.

Więcej informacji na ten temat można znaleźć w sekcji Sieci neuronowe.

Macierz odwrotna. Odwracanie macierzy jest uogólnieniem dzielenia liczb. Odwrotnością nieosobliwej macierzy A (oznaczaną przez indeks górny -1) jest macierz spełniająca warunek:

A-1A=A-1A=I

gdzie I oznacza macierz jednostkową.

Macierz odwrotna nie istnieje dla macierzy osobliwych. Dla takich macierzy można obliczyć uogólnioną macierz odwrotną.

Dodatkowe informacje można znaleźć pod hasłami macierz osobliwa, uogólniona macierz odwrotna.

Macierz osobliwa. Macierz prostokątna (np. macierz sum kwadratów) jest osobliwa, jeżeli co najmniej jeden z jej wierszy (lub jedna z kolumn) jest liniową kombinacją innych wierszy (lub kolumn) macierzy. Przykładowo jeżeli pierwsza kolumna macierzy równa jest (1,-1,0), a trzecia (2,-2,0), to macierz jest osobliwa, ponieważ trzecią kolumnę uzyskamy mnożąc pierwszą przez 2. O macierzy takiej mówimy, że jest współliniowa.

Dla macierzy osobliwej nie można obliczyć macierzy odwrotnej, można natomiast wyznaczyć nieskończenie wiele uogólnionych macierzy odwrotnych.

Macierz pomyłek (w sieciach neuronowych). Macierz ta zawiera liczby przypadków należących do każdej z klas, względem klas, do których "zaliczyła" je sieć neuronowa (liczby przypadków zaklasyfikowanych do właściwej klasy oraz liczby przypadków zaliczonych do niewłaściwej klasy).

Macierz rozszerzona momentów mieszanych. Dla zbioru p zmiennych jest to macierz kwadratowa
(p + 1) X (p + 1). Pierwsze p wierszy i kolumn zawiera macierz momentów względem zera, natomiast ostatni wiersz i kolumna zawierają średnie z próby dla p zmiennych. Macierz ta ma zatem postać:

gdzie M jest macierzą z elementem

N jest licznością próbki;

jest wektorem ze średnimi zmiennych;

' jest wektorem transponowanym dla   

(zob. Modelowanie równań strukturalnych).

Macierz symetryczna. Dana macierz jest macierzą symetryczną, jeżeli w wyniku przeprowadzenia jej transponowania otrzymamy taką samą macierz (tzn. A = A'). Inaczej mówiąc dolny trójkąt macierzy kwadratowej jest "lustrzanym odbiciem" górnego trójkąta.

|1 2 3 4|
|2 1 5 6|
|3 5 1 7|
|4 6 7 1|

Macierz współliniowa, współliniowość wielokrotna. Termin ten odnosi się do macierzy korelacji (lub kowariancji) zmiennych, które nie są liniowo niezależne (tzn. co najmniej jedna z tych zmiennych jest kombinacją liniową pozostałych). Macierze takie są osobliwe i nie istnieją dla nich macierze odwrotne (można natomiast wyznaczyć dla nich uogólnione macierze odwrotne). Więcej informacji na ten temat znajduje się pod hasłem macierz osobliwa.

Macierz źle uwarunkowana. Termin macierz źle uwarunkowana jest ogólnym określeniem macierzy, która nie jest odpowiednia do wykorzystania w konkretnej analizie.

Sytuacja tak najczęściej występuje przy wielorakiej regresji liniowej, gdy macierz korelacji zmiennych objaśniających (niezależnych) jest osobliwa i nie można jej odwrócić. W niektórych analizach (np. analizie czynnikowej) ten problem rozwiązywany jest przez sztuczne zmniejszenie wszystkich współczynników korelacji uzyskiwane poprzez dodanie niewielkiej, stałej liczby do wartości na przekątnej macierzy, a następnie standaryzację macierzy. Zastosowanie tej procedury zazwyczaj umożliwia uzyskanie macierzy, którą można odwrócić.

Warto zauważyć, że w ogólnym i uogólnionym modelu liniowym często występują macierze osobliwe (np. gdy stosujemy model przeparametryzowany dla predyktorów skategoryzowanych). W tym wypadku problem jest rozwiązywany poprzez wyznaczanie uogólnionej odwrotności macierzy zamiast macierzy odwrotnej.

Innym przykładem złego uwarunkowania macierzy jest nieprzechodniość korelacji w macierzy korelacji. Jeżeli zmienna A jest wysoce dodatnio skorelowana z B, B jest wysoce dodatnio skorelowana z C, a A wysoce ujemnie skorelowana z C, to takie "niemożliwe" związki sugerują błędny element macierzy.

Dodatkowe infomarcje można znaleźć także pod hasłami: macierz osobliwa, macierz odwrotna, uogólniona macierz odwrotna.

Maks-min-zamknięcie. W przypadku tego typu wykresu ramkowego lub zakresu, poprzeczne kreski nie są symetryczne lecz są skierowane w lewą stronę. Jest to tradycyjny wykres kursów akcji. Do dyspozycji mamy różne układy wąsów: Zwykłe, Góra-dół w lewo i Góra-dół w prawo. Poniżej przedstawiono przykłady różnego układu wykresu :

Maksymalne nieuwikłanie. Kryterium maksymalnego nieuwikłania planu doświadczenia to uzupełnienie kryterium rozdzielczości. Wybranie kryterium maksymalnego nieuwikłania powoduje taki wybór generatorów planu, że maksymalna liczba interakcji rzędu mniejszego lub równego rzędowi krytycznemu, określonemu przez rozdzielczość, jest nieuwikłana z innymi interakcjami rzędu krytycznego. Omawiane kryterium jest alternatywą kryterium najmniejszej aberracji przy poszukiwaniu "najlepszego" planu o największej rozdzielczości.

Dyskusja roli kryteriów w planowaniu doświadczeń znajduje się w sekcji Plany frakcyjne 2(k-p) i Plany 2(k-p) maksymalnie nieuwikłane i o najmniejszej aberracji w rozdziale Planowanie doświadczeń (DOE).


Mapa topologiczna. Warstwa radialna w sieci Kohonena, w której neurony ułożone są na dwuwymiarowej powierzchni. Dzięki procesowi uczenia, skupieniom zbliżonym do siebie odpowiadają neurony ulokowane blisko siebie na mapie topologicznej. Mapa topologiczna używana jest w analizie skupień (Kohonen, 1982; Fausett, 1994; Haykin, 1994; Patterson, 1996). Zob. Sieci neuronowe..

Masa (w analizie korespondencji). Termin masa w analizie korespondencji jest stosowany do oznaczenia wielkości (zapisów) w dwudzielczej tabeli liczności względnych (tzn. każda wielkość jest dzielona przez sumę wszystkich wielkości w tabeli). Zauważmy, że wyniki analizy korespondencji będą poprawne, także gdy wielkościami w tabeli nie będą liczności, ale pewna inna miara korespondencji, związku, podobieństwa, chaosu itd. Ponieważ suma wszystkich wielkości w tabeli liczebności względnych wynosi 1.0, można by powiedzieć, że tabela liczebności względnych pokazuje, jak jedna jednostka masy rozkłada się w komórkach tabeli. W terminologii analizy korespondencji, sumy wierszowe i kolumnowe tabeli liczebności względnych nazywa się odpowiednio masami wierszy i masami kolumn.

Mediana. Mediana z próby (ang. median , termin ten został po raz pierwszy użyty przez Galtona, 1882) jest jedną z miar tendencji centralnej, dla której połowa obserwacji (50%) leży powyżej, a druga połowa poniżej jej wartości. Jeśli liczba obserwacji w próbie jest parzysta, wówczas mediana jest obliczana jako średnia z dwóch wartości leżących pośrodku. Informacje dodatkowe można znaleźć w sekcji Statystyki opisowe rozdziału Statystyki podstawowe.

Metauczenie (meta-learning). W predykcyjnym data mining metauczenie stosuje się do łączenia wyników wielu modeli. Technika ta jest w szczególności użyteczna, gdy modele są różnego typu. W tym znaczeniu metodę tą nazywamy również kontaminacją modeli (stacking, stacked generalization).

Rozważmy na przykład projekt data mining, w którym stosujemy metody C&RT, CHAID, liniową analizę dyskryminacyjną (np. GDA) i sieci neuronowe. Każdy model wyznacza przewidywane klasyfikacje dla próby do sprawdzianu krzyżowego. Na podstawie tych danych obliczamy ogólne statystyki dopasowania (stopy błędnych klasyfikacji). Z doświadczenia wiadomo, że połączenie wielu metod daje lepsze przewidywania niż każda z metod z osobna (zob. Witten i Frank, 2000). Przy kontaminacji modeli wyniki działania poszczególnych modeli są danymi wejściowymi dla metauczenia. Przykładowo wyniki drzew klasyfikacyjnych, modelu liniowego i sieci neuronowych mogą stanowić dane wejściowe dla sieci neuronowej, która "nauczy się", jak połączyć wyniki różnych modeli, tak aby uzyskać najlepszy finalny model prognostyczny.

Możliwe jest zastosowanie tej techniki w stosunku do wyników modelu zbiorczego, uzyskanego przez metauczenie (taką technikę możemy nazwać metametauczeniem); taką procedurę możemy stosować wielokrotnie. Jednak w praktyce zwiększa to ilość obliczeń, a uzyskiwana poprawa modeli jest coraz mniej znacząca.

Metoda Gaussa-Newtona. Metoda Gaussa-Newtona służy do znajdowania minimum wyrażeń nieliniowych (w tym do rozwiązywania nieliniowych problemów najmniejszych kwadratów). Metoda ta wykorzystuje Jacobian (macierz pierwszych pochodnych) do poszukiwania wektora wartości parametrów x, który minimalizuje sumę kwadratów reszt. Udoskonaloną i wydajniejszą wersją tego podejścia jest algorytm Levenberga-Marquardta. Szczegółowe omówienie tych metod znajduje się w pracy Dennis i Schnabel (1983).

Metoda Hooke'a-Jeevesa przemieszczania układu. Jedna z procedur estymacji nieliniowej, w przypadku której w każdej iteracji zostaje zdefiniowany układ punktów przez przesuwanie pojedynczo każdego parametru, tak by zoptymalizować bieżącą funkcję straty. Cały układ punktów zostaje następnie przesunięty lub przemieszczony w nowe położenie; nowe położenie jest określone przez ekstrapolację linii ze starego punktu bazowego w m wymiarowej przestrzeni parametrów do nowego punktu bazowego. Długości kroków w tym procesie są stale dostosowywane, tak by "synchronizować się" w odpowiednim optimum. Metoda ta jest zazwyczaj całkiem efektywna i powinna być wypróbowana, gdy metody quasi-Newtona i sympleks nie dają sensownych ocen parametrów.

Metoda momentów. Metoda ta służy do szacowania ocen parametrów rozkładu (zob. wykresy kwantyl-kwantyl, wykresy prawdopodobieństwo-prawdopodobieństwo oraz sekcja Analiza procesu). W metodzie momentów przyjmuje się, że momenty rozkładu, są równe momentom uzyskanym na podstawie danych empirycznych i parametry rozkładu oblicza się rozwiązując układ równań wiążących parametry rozkładu z momentami dla danej postaci rozkładu prawdopodobieństwa. Na przykład, dla rozkładu normalnego (który ma dwa parametry), dwa pierwsze momenty rozkładu (średnia i wariancja) przyrównywane są do pierwszych dwóch momentów z próby (średniej z próby oraz średnią kwadratów odchyleń od średniej). Do oceny wartości parametrów rozkładu możemy stosować metodę największej wiarygodności i metodę najmniejszych kwadratów. Więcej informacji na ten temat znajduje się w pracy Hahn i Shapiro, 1994.

Metoda Monte Carlo dla łańcuchów Markowa. Termin "metoda Monte Carlo" został zaproponowany przez Johna von Neumanna i S. M. Ulama w roku 1940 i oznacza on symulację procesów z wykorzystaniem liczb losowych. Nazwa Monte Carlo (miasto doskonale znane z wielu kasyn) wynika ze stosowania w tej metodzie losowania (mówiąc precyzyjniej liczb losowych), w celu obliczenia złożonych całek wielowymiarowych (pierwotnym zastosowaniem było projektowanie pierwszych bomb jądrowych). Przykładowo, generując liczby pseudolosowe o złożonym, wielowymiarowym rozkładzie możemy w przybliżeniu wyznaczyć wartości momentów rozkładu (np. wartości oczekiwanej lub odchylenia standardowego) i innych wielowymiarowych całek, w których pojawiają się funkcje gęstości prawdopodobieństwa tych rozkładów.

Złożone równania, do których rozwiązania potrzebne jest obliczenie wartości całek, często występują w estymacji Bayesowskiej. Prosty przykład MCMC przedstawiono w opisie losowania Gibbsa.

Szczegółowe omówienie MCMC można znaleźć w pracy Gilks, Richardson i Spiegelhalter (1996). Tematy pokrewne losowanie Gibbsa i estymacja Bayesowska.

Metoda największej wiarygodności. Metoda największej wiarygodności (ang. maximum likelihood method nazwa po raz pierwszy użyta przez Fishea 1922a, w Polsce popularny jest również termin najwiekszej wiarogodności) stanowi ogólną metodę estymacji parametrów populacji przy pomocy wartości, które maksymalizują wiarogodność próby (L). Wiarogodność L próby składającej się z n obserwacji x1, x2, ..., xn jest funkcją łącznego prawdopodobieństwa p(x1, x2, ..., xn), gdzie x1, x2, ..., xn są zmiennymi losowymi skokowymi. Jeśli x1, x2, ..., xn są zmiennymi losowymi ciągłymi, wówczas wiarygodność L próby składającej się z n obserwacji x1, x2, ..., xn jest funkcją gęstości łącznego prawdopodobieństwa f(x1, x2, ..., xn).

Niech L będzie wiarygodnością próby, gdzie L jest funkcją parametrów 1, 2, ... k. Wówczas ocenami estymatorów największej wiarygodności parametrów 1, 2, ... k są wartości 1, 2, ... k, które maksymalizują wartość funkcji L .
Niech będzie elementem . Jeśli będzie przedziałem otwartym i jeśli L () jest różniczkowalna i przyjmuje maksimum w , wówczas MNW będzie rozwiązaniem następującego równania: (dL())/d = 0. Więcej informacji na ten temat znajduje się w pracach Mendenhall i Sincich (1984), Bain i Engelhardt (1989), Neter, Wasserman, i Kutner (1989).

Dodatkowe informacje można znaleźć w sekcjach Estymacja nieliniowa oraz Komponenty wariancyjne i model mieszany ANOVA/ANCOVA.

Metoda Quasi-Newtona (w sieciach neuronowych). Metoda quasi-Newtona (Bishop, 1995; Shepherd, 1997) jest zaawansowaną metodą uczenia perceptronów wielowarstwowych. Zwykle działa ona zdecydowanie lepiej od wstecznej propagacji błędów, a może być stosowana wszędzie tam, gdzie stosuje się wsteczną propagację. Zalecana jest dla większości sieci o małej liczbie wag (do kilkuset). Jednak, w przypadku jednowyjściowej sieci regresyjnej i w zagadnieniu o dobrym dopasowaniu, lepszy może być algorytm Levenberga-Marquardta.

Algorytm quasi-Newtona modyfikuje wagi jednorazowo, w końcowej fazie każdej epoki. O ile we wstecznej propagacji, wagi korygowane są po prezentacji każdego przypadku, to w algorytmie quasi-Newtona wyznaczany jest średni gradient dla powierzchni błędu, który determinuje sposób modyfikacji wag.

Z uwagi na sposób działania algorytmu nie ma tu uzasadnienia mieszanie przypadków. Nie trzeba tu też ustawiać żadnych współczynników uczenia, czy bezwładności, co czyni algorytm quasi-Newtona znacznie łatwiejszym w użyciu niż wsteczna propagacja. Dodatkowy szum również nie jest, w algorytmie quasi-Newtona potrzebny, ze względu na możliwość zaburzania założenia o kształcie przestrzeni poszukiwań.

Algorytm quasi-Newtona korzysta z faktu, że na kwadratowej (parabolicznej) funkcji błędu można znaleźć kierunek do minimum, używając do tego hesjanu, czyli macierzy pochodnych cząstkowych drugiego rzędu. Każda powierzchnia błędu, dostatecznie blisko minimum, może być traktowana jak kwadratowa. Ponieważ jednak hesjan jest trudny i czasochłonny do obliczenia, a kroki Newtona, na nieparabolicznej powierzchni mogą być błędne, to aproksymacja odwrotności hesjanu tworzona jest w procesie iteracyjnym. Aproksymacja, w pierwszym kroku podąża za linią największego spadku, a później dopiero pozostaje w większej zgodności z estymowanym hesjanem.

Algorytm quasi-Newtona jest najpopularniejszym algorytmem optymalizacji nieliniowej, ocenianym jako szybko zbieżny. Ma on jednak też wady: jest raczej mniej stabilny numerycznie niż, np. metoda gradientów sprzężonych, może mieć tendencję zbieżności do minimów lokalnych, wymaga znacznej ilości pamięci.

Często korzystne jest poprzedzenie algorytmu quasi-Newtona krótkim uczeniem (powiedzmy 100 epok) wsteczną propagacją, dla uniknięcia problemów z minimami lokalnymi.

Dla sieci o licznych wagach rekomendowana jest raczej metoda gradientów sprzężonych, która wymaga pamięci w ilości proporcjonalnej do liczby wag, a nie do kwadratu liczby wag. Czas uczenia natomiast, jest dla obu algorytmów jest porównywalny.

Szczegóły techniczne. Algorytm quasi-Newtona działa jednocześnie na całości danych, oblicza gradient błędu jako sumę gradientów dla wszystkich przypadków uczących.

Używa pewnej aproksymacji odwrotności hesjanu, niżej oznaczonej przez H. Kierunek największego spadku nazywany jest g. Wektor wag w i-tej epoce nazywany jest fi. H jest inicjalizowana jako macierz jednostkowa, tak więc pierwszy krok wykonywany jest w kierunku określonym przez g (jak przy wstecznej propagacji). W każdej epoce wykonywane jest poszukiwanie liniowe w kierunku:

d = – Hg

Następnie uaktualniany jest kierunek poszukiwań, z pomocą wzoru BFGS (Broyden-Fletcher-Goldfarb-Shanno):

Powyższe formuły gwarantują właściwe określenie kierunku poszukiwań (zapewniający ruch "w dół" po powierzchni błędu), jak i zbieżność do prawdziwego, odwrotnego hesjanu, w W krokach, gdzie W jest liczbą wag na parabolicznej powierzchni błędu. W praktyce, błędy operacji arytmetycznych mogą prowadzić do niespełnienia tych teoretycznych założeń i doprowadzić do rozbieżności wag albo innych nieprawidłowości. W takich wypadkach inicjalizujemy ponownie sieć i uruchamiamy algorytm od nowa, albo korzystamy z innego algorytmu uczącego.

Metoda Rosenbrocka poszukiwania układu. W tej metodzie estymacji nieliniowej obraca się przestrzeń parametrów i wyrównuje się jedną oś do grzbietu (metoda ta nazywana jest także metodą rotacji współrzędnych); wszystkie inne osie pozostaną do niej ortogonalne. Jeśli funkcja straty jest jednomodalna i ma wykrywalne grzbiety opadające w kierunku minimum funkcji, to metoda będzie zmierzać ze stabilną dokładnością w kierunku minimum funkcji.

Metody gradientowe. Techniki optymalizacyjne mające zastosowanie do funkcji nieliniowych (np. funkcja błędu sieci neuronowej występująca w trakcie dobierania wag), polegające na przemieszczaniu się w przestrzeni poszukiwań w kierunku punktów o coraz niższych wartościach funkcji, w celu zlokalizowania minimum.

Metody nieparametryczne. Metody nieparametryczne stosuje się, gdy badacz dla branej pod uwagę zmiennej nie zna parametrów jej rozkładu w populacji (stąd zresztą wywodzi się nazwa (metody nieparametryczne). Mówiąc nieco bardziej szczegółowo, metody nieparametryczne nie polegają na estymacji parametrów (takich jak średnia lub odchylenie standardowe) opisujących rozkład rozważanej zmiennej w populacji. Dlatego też, metody te są czasem określane (w sposób nieco bardziej poprawny) jako metody niezależne od parametrów lub metody niezależne od rozkładu.

Więcej informacji na temat metod nieparametrycznych można znaleźć w części Wprowadzenie do statystyk nieparametrycznych oraz w części Podstawowe pojęcia statystyki.

Miara Gini'ego niespójności węzła (Node Impurity). Prawdopodobieństwa a priori, a miara Gini'ego niejednorodności węzła. Zgodnie z pracą: Breiman, Friedman, Olshen, & Stone (1984), miara Gini dla węzła (domyślnego w STATISTICA Ogólne modele drzew klasyfikacyjnych i regresyjnych i, w związku z tym, również w drzewach ze wzmacnianiem (boosted)) zdefiniowana jest jak następuje (strony 28, 38):

gdzie

oraz

taki, że

p ( j | t ) jest oceną prawdopodobieństwa przynależności obserwacji do grupy j, pod warunkiem, że jest w węźle t,

p ( j , t ) jest oceną prawdopodobieństwa przynależności obserwacji do grupy j i węzła t ,

p ( t ) jest oceną prawdopodobieństwa przynależności obserwacji do węzła t, ,

jest prawdopodobieństwem a priori dla grupy j,

N j ( t ) jest liczbą elementów z grupy j, w węźle t,

oraz N j jest licznością grupy j.

Tak więc prawdopodobieństwa a priori mają wpływ na miarę Giniego, w każdym węźle. Jednak, jak zauważono w pracy Breiman i inni, jeżeli prawdopodobieństwa a priori są oceniane z danych, to:

A to może być przyczyną wyższej liczby błędnych klasyfikacji w grupach słabiej reprezentowanych.

Mieszanie przypadków (w sieciach neuronowych). Losowe przypisywanie przypadków do podzbioru uczącego i walidacyjnego, tak by uniknąć, w miarę możliwości jakichkolwiek statystycznych obciążeń. Patrz też, Sieci neuronowe.

Mieszanie, Algorytm wstecznej propagacji (w sieciach neuronowych). Prezentowanie przypadków ze zbioru poddanego uczeniu w losowej kolejności w każdej epoce, by zapobiec pojawieniu się niepożądanych efektów (jak np. oscylacje lub zbieganie się do minimum lokalnego). Zob. Sieci neuronowe.

Minima lokalne. Minima lokalne to lokalne "doliny" lub mniejsze "wklęśnięcia" funkcji straty, które w większości praktycznych zastosowań generują skrajnie duże lub małe estymatory parametrów z bardzo dużymi błędami standardowymi. Wyjątkowo dobra w unikaniu takich minimów jest metoda sympleks; dlatego może ona być szczególnie przydatna do wyszukania właściwych wartości początkowych dla złożonych funkcji.

Moc (statystyczna). Zob.moc testu statystycznego.


Moc testu statystycznego. Prawdopodobieństwo odrzucenia fałszywej hipotezy zerowej.

Więcej informacji znajdziemy w rozdziale Analiza mocy testów.

Modalna. Modalna z próby (ang. mode; termin ten został po raz pierwszy użyty przez Pearsona, 1895) jest jedną z miar tendencji centralnej i oznacza wartość, która występuje w próbie najczęściej.

Dodatkowe informacje można znaleźć w sekcji Statystyki opisowe.

Model przeparametryzowany. W przypadku ogólnych modeli liniowych oraz uogólnionych modeli liniowych, w celu przedstawienia efektów dla predyktorów jakościowych, model przeparametryzowany wykorzystuje podejście opierające się na użyciu zmiennej wskaźnikowej. Dla zilustrowania sposobu kodowania wykorzystującego zmienną wskaźnikową rozważmy predyktor jakościowy o nazwie Płeć z dwoma poziomami (tzn. męska i żeńska). W metodzie tej, dla każdej grupy identyfikowanej przez predyktor jakościowy, stosowana jest oddzielna zmienna objaśniająca. Przykładowo, w obrębie pierwszej zmiennej objaśniającej identyfikującej przynależność do grupy żeńskiej kobietom przypisano by kod 1, a mężczyznom kod 0, a następnie w drugiej zmiennej objaśniającej identyfikującej przynależność do grupy męskiej mężczyznom przypisano by kod 1, a kobietom kod 0.

Taka metoda kodowania predyktorów jakościowych prawie zawsze prowadzi w ogólnych modelach liniowych i uogólnionych modelach liniowych do macierzy eksperymentu o redundantnych kolumnach i w związku z tym przy rozwiązywaniu równań normalnych wymaga uogólnionej macierzy odwrotnej. Dlatego też metoda ta, jest często nazywana modelem przeparametryzowanym dla przedstawiania predyktorów jakościowych, ponieważ daje w efekcie więcej kolumn w macierzy eksperymentu niż to jest wymagane do określenia wzajemnych związków predyktorów jakościowych z odpowiedziami zmiennych zależnych.

Dodatkowe informacje można znaleźć pod hasłami predyktory jakościowe, macierz eksperymentu oraz w sekcji Ogólne modele liniowe (GLM).

Model z sigma-ograniczeniami. W przypadku ogólnych modeli liniowych oraz uogólnionych modeli liniowych, w celu przedstawienia efektów dla predyktorów jakościowych, model z sigma-ograniczeniami wykorzystuje sposób kodowania z sigma-ograniczeniami. Dla zilustrowania tego sposobu kodowania efektów rozważmy predyktor jakościowy (skategoryzowany) o nazwie Płeć z dwoma poziomami (tzn. męska i żeńska). Przypadkom należącym do dwóch grup przypisywane są wartości zmiennej objaśniającej równe 1 i -1, dzięki czemu w przypadku, gdy współczynnik regresji dla zmiennej jest dodatni, wówczas grupa zakodowana w zmiennej objaśniającej przy pomocy 1 będzie miała wyższą prognozowaną wartość (tzn. wyższą wartość średniej grupowej) zmiennej zależnej, a gdy współczynnik regresji jest ujemny, wówczas grupa kodowana jako -1 w obrębie zmiennej objaśniającej będzie miała wyższą prognozowaną wartość zmiennej zależnej. Kodowanie takie nazywamy z sigma-ograniczeniami, ponieważ kody predyktora sumują się do 0, a sigma jest powszechnie przyjętym oznaczeniem sumy.

Patrz także: predyktor jakościowy, macierz eksperymentu i GLM.

Modele addytywne. Modele addytywne stanowią uogólnienie regresji wielorakiej (która jest z kolei szczególnym przypadkiem ogólnego modelu liniowego). W regresji liniowej za pomocą metody najmniejszych kwadratów obliczane jest dopasowanie liniowe dla zbioru predyktorów w celu prognozowania wartości zmiennej zależnej Y. Dobrze znane równanie regresji liniowej zawierające m predyktorów ma postać:

Y = b0 + b1*X1 + .. bm*Xm

gdzie Y oznacza zmienną zależną (wartości prognozowane), X1 do Xm przedstawiają m wartości predyktorów, a b0 i b1 do bm to współczynniki regresji szacowane za pomocą regresji wielorakiej. Uogólnienie modelu regresji wielorakiej polega na zachowaniu addytywnej postaci modelu i zastąpieniu prostych wyrażeń równania liniowego bi*Xi wyrażeniem fi(Xi), gdzie fi oznacza nieparametryczną funkcję predyktora Xi. Innymi słowy mówiąc w modelu addytywnym, zamiast pojedynczego współczynnika dla każdej ze zmiennych (składnik addytywny) występujących w modelu, szacowana jest nieokreślona (nieparametryczna) funkcja dla każdego predyktora, która daje najlepszą prognozę wartości zmiennej zależnej.

Dalsze informacje można znaleźć w książkach: Hastie i Tibshirani (1990) lub Schimek (2000).

Modele data mining. Realizacja złożonych projektów data mining (zgłębiania danych) w przedsiębiorstwie (i innych dużych organizacjach) wymaga skoordynowanego wysiłku ekspertów, właścicieli i różnych działów organizacji. W literaturze data mining proponowane są różne metodyki, mogące służyć jako scenariusz, w jaki sposób należy zorganizować proces zbierania i analizy danych, rozpowszechniania wyników i sprawdzania korzyści z wdrażania projektu.

Jednym z modeli data mining jest CRISP (Cross-Industry Standard Process for data mining) zaproponowany w połowie lat dziewięćdziesiątych przez europejskie konsorcjum przedsiębiorstw, jako powszechnie dostępny standard dla procesu data mining. Model ten postuluje następujący ciąg etapów projektu data mining (raczej nie budzą one większych kontrowersji):

Innym podejściem jest metodyka Sześć Sigma (Six Sigma). Jest to dobrze zorganizowana, bazująca na danych strategia unikania wad i problemów z jakością we wszystkich rodzajach produkcji i usług, zarządzaniu i innej działalności biznesowej. Metodyka Sześć Sigma staje się ostatnio coraz bardziej popularna (ze względu na wiele udany wdrożeń) w USA i na całym świecie. Metodyka Sześć Sigma zaleca następujące etapy (tzw. DMAIC):

Wywodzą się one z tradycji doskonalenia jakości i sterowania procesami i szczególnie dobrze nadają się do zastosowania w produkcji i świadczeniu usług.

Inna metodyka (w istocie do pewnego stopnia podobna do Sześć Sigma) to zaproponowana przez SAS Institute strategia SEMMA.

Skupia się ona bardziej na technicznych aspektach projektów data mining.

Wszystkie te modele dotyczą sposobu korzystania z metodyki data mining przez organizację, "przekształcania danych na wiedzę", tego jak zaangażować kluczowe osoby (właścicieli, zarząd) w proces data i jak udostępnić wiedzę, w takiej postaci, aby łatwo było podejmować na jej podstawie decyzje.

Niektóre aplikacje data mining zostały zaprojektowane i udokumentowane, tak aby spełniać wymogi jednej z tych strategii.

Natomiast system STATISTICA Data Miner został zaprojektowany jako środowisko data mining, które ma zastosowanie w dowolnej organizacji, gałęzi przemysłu i kulturze organizacyjnej, bez względu na ogólny model procesu data mining, na który zdecydowała się dana organizacja. Przykładowo system STATISTICA Data Miner może zawierać pełny zakres narzędzi wymaganych do wdrożenia, metodyki Sześć Sigma w całej organizacji, a użytkownicy mogą korzystać ze środowiska zorientowanego na DMAIC (które jest jedną z wielu opcji do wyboru). System równie dobrze spełni rolę części projektu CRM (Customer Relationship Management), związanej z badaniami marketingowymi itp., zgodnymi z podejściem CRISP lub SEMMA - spełnia on bardzo dobrze wymogi obu tych metodyk nie faworyzując żadnej z nich. Ponadto system STATISTICA Data Miner ma zalety ogólnego, przeznaczonego do data mining systemu, zawierającego narzędzia, umożliwiające nie tylko stosowanie w projektach takich obiektów jak połączenia z bazami danych, interakcyjne zapytania do baz danych i własne algorytmy. Dodatkowo (korzystając z opcjonalnych aplikacji StatSoft, np. STATISTICA Enterprise Server) można korzystać z narzędzi pracy grupowej i tworzyć rozbudowane systemy korporacyjne obejmujące cała organizację i spełniające wymogi CRISP albo SEMMA lub ich kombinacji.

Dodatkowe informacje można znaleźć w sekcji Techniki zgłębiania danych (data mining).

Modelowanie liniowe. Modelowanie liniowe polega na aproksymacji funkcji dyskryminacyjnej lub funkcji regresji przy użyciu hiperpłaszczyzny (w najprostszym przypadku jest to linia prosta). Mają tu zastosowanie proste techniki optymalizacyjne, lecz model liniowy często nie odzwierciedla dobrze rzeczywistej sytuacji.

Więcej informacji można znaleźć w części Sieci neuronowe.

Monte Carlo. Technika komputerowa polegająca na szacowaniu, jak zachowa się statystyka przy powtarzanym losowaniu. Przy metodach Monte Carlo komputer stosuje techniki symulacji losowej, aby naśladować zbiorowość statystyczną. W pakiecie STATISTICA w procedurze Monte Carlo, komputer konstruuje zbiorowość zgodnie z przepisem użytkownika, następnie dla każdego powtórzenia Monte Carlo komputer:

  1. Symuluje próbę losową ze zbiorowości,
  2. Analizuje tę próbę,
  3. Przechowuje wyniki.
Po wielu powtórzeniach, przechowywane wyniki będą naśladować rozkład z próby danej statystyki. Techniki Monte Carlo mogą dostarczyć informacji na temat rozkładów z próby wtedy, gdy nie ma dokładnej teorii rozkładu z próby.

Multivariate Adaptive Regression Splines (MARSplines). Multivariate Adaptive Regression Splines (MARSplines) to nieparametryczna metoda regresji, w której nie zakładamy konkretnej zależności funkcyjnej łączącej zmienne niezależne (predyktory) i zmienną zależną. W metodzie MARSplines tworzymy model zależności korzystając z funkcji bazowych i współczynników wyznaczonych z danych. Technika ta uzyskała popularność w data mining, dlatego że nie zakłada i nie wymaga określonej postaci zależności między zmiennymi (np. liniowej, logistycznej itp.).

Ogólna postać modelu MARSplines jest następująca (Hastie et al., 2001, równanie 9.19):

 

Sumowanie odbywa się po wszystkich M predyktorach uwzględnionych w modelu. Podsumowując, y jest obliczane jako funkcja predyktorów X (z uwzględnieniem ich interakcji). Funkcja ta jest sumą wyrazu wolnego () oraz iloczynów i funkcji bazowych .

Model ten można rozumieć jako ważoną sumę funkcji bazowych wybranych spośród dużego zbioru funkcji bazowych (cały ten zbiór może obejmować jedną funkcję bazową z jedną wartością węzła t dla każdej wartości konkretnego predyktora i w ten sposób dokładnie oddawać wszystkie, pojedyncze wartości danych). Algorytm MARSplines przeszukuje przestrzeń wszystkich danych wejściowych (położeń węzłów) i ich interakcji. Podczas poszukiwań w modelu uwzględniania jest coraz większa liczba funkcji bazowych (wybieranych spośród zbioru możliwych funkcji bazowych), tak aby spełnić kryterium najmniejszych kwadratów.

Więcej informacji o metodzie MARSplines i porównanie jej z innymi technikach estymacji nieliniowej i drzewami regresyjnymi można znaleźć w pracy Hastie, Tibshirani, Friedman (2001).




© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.