© Copyright StatSoft, Inc., 1984-2011
Przeszukaj Internetowy Podręcznik Statystyki
Analiza dyskryminacyjna


Ogólny cel

Analiza funkcji dyskryminacyjnej jest stosowana do rozstrzygania, które zmienne pozwalają w najlepszy sposób dzielić dany zbiór przypadków na występujące w naturalny sposób grupy. Na przykład, w badaniach pedagogicznych można dociekać, które zmienne pozwalają oddzielić absolwentów szkół średnich, którzy decydują się (1) iść na studia, (2) uczęszczać do pomaturalnych szkół zawodowych lub (3) zaprzestać dalszej nauki. W tym celu badacz mógł zebrać dane dotyczące wielu zmiennych poprzedzających ukończenie szkoły. Po ukończeniu szkoły większość absolwentów w naturalny sposób zostanie zaliczona do jednej z trzech wymienionych kategorii. Analiza dyskryminacyjna mogłaby następnie być wykorzystana do rozstrzygnięcia, która zmienna lub zmienne są najlepszymi predyktorami późniejszego wyboru absolwentów.

W badaniach medycznych można rejestrować różne zmienne związane ze stanem zdrowia pacjentów, aby sprawdzić, które zmienne najlepiej prorokują, czy pacjent ma szansę na zupełne wyleczenie (grupa 1), częściowe wyleczenie (grupa 2), czy nie ma szans (grupa 3) na wyleczenie. Biolog mógłby rejestrować różne charakterystyki podobnych typów (grup) kwiatów, a następnie wykonać analizę funkcji dyskryminacyjnej w celu określenia zestawu charakterystyk, które umożliwiają najlepszą dyskryminację tych typów.

Indeks

Podejście obliczeniowe

Z rachunkowego punktu widzenia analiza funkcji dyskryminacyjnej jest bardzo podobna do analizy wariancji (ANOVA ). Rozważmy prosty przykład. Wyobraźmy sobie, że mierzymy wzrost w losowej próbie 50 mężczyzn i 50 kobiet. Kobiety nie są, przeciętnie, tak wysokie jak mężczyźni, a różnica ta znajdzie odbicie w różnicy średnich (dla zmiennej Wzrost). Dlatego zmienna wzrost pozwala nam zróżnicować mężczyzn i kobiety z większym niż przypadkowe prawdopodobieństwem: jeśli osoba jest wysoka, to prawdopodobnie jest mężczyzną, jeśli osoba jest niska, to prawdopodobnie jest kobietą.

Możemy uogólnić to rozumowanie na mniej trywialne grupy i zmienne. Na przykład, wyobraźmy sobie, że mamy dwie grupy absolwentów szkoły średniej: tych, którzy zdecydowali się iść na studia po szkole i tych, którzy się nie zdecydowali. Mogliśmy zmierzyć deklarowane zamierzenia studentów dotyczące studiów na rok przed ukończeniem szkoły. Jeśli średnie w tych dwóch grupach (wśród tych, którzy faktycznie poszli na studia i tych, którzy nie poszli) byłyby różne, to moglibyśmy stwierdzić, że zamiar pójścia na studia zadeklarowany na rok przed ukończeniem szkoły umożliwia nam odróżnienie tych, którzy są i tych, którzy nie są kandydatami na studia (a informacja taka może być wykorzystana przez specjalistów do spraw doradztwa zawodowego, którzy służyliby poradą odpowiednim uczniom).

Podsumowując, główna idea leżąca u podstaw analizy funkcji dyskryminacyjnej to rozstrzyganie, czy grupy różnią się ze względu na średnią pewnej zmiennej, a następnie wykorzystanie tej zmiennej do przewidywania przynależności do grupy (np. nowych przypadków).

Analiza wariancji. Przedstawione zagadnienie funkcji dyskryminacyjnej może być przeformułowane na problem jednoczynnikowej analizy wariancji (ANOVA). W szczególności, można zapytać, czy dwie lub więcej grupy różnią się istotnie od siebie ze względu na średnią pewnej zmiennej. Aby dowiedzieć się czegoś więcej na temat testowania istotności statystycznej różnic między średnimi w różnych grupach, warto zajrzeć do wprowadzenia rozdziału ANOVA/MANOVA . Powinno być jednak jasne, że jeśli średnie pewnej zmiennej są istotnie różne w różnych grupach, to możemy powiedzieć, że ta zmienna dyskryminuje te grupy.

W przypadku pojedynczej zmiennej, ostatecznym testem istotności tego, czy zmienna dyskryminuje grupy, jest test F. Zgodnie z opisem w części Podstawowe pojęcia oraz w części ANOVA /MANOVA , statystyka F jest obliczana jako stosunek wariancji międzygrupowej do połączonej wariancji wewnątrzgrupowej. Jeśli wariancja międzygrupowa jest istotnie większa, to muszą występować istotne różnice między średnimi.

Przypadek wielu zmiennych. Zazwyczaj w badaniach uwzględniamy kilka zmiennych w celu sprawdzenia, która lub które przyczyniają się do dyskryminowania grup. W takim przypadku mamy macierz całkowitych wariancji i kowariancji; ponadto mamy macierz połączonych wewnątrzgrupowych wariancji i kowariancji. Aby rozstrzygnąć, czy są jakieś istotne różnice (odnośnie wszystkich zmiennych) między grupami, możemy porównać te dwie macierze przy pomocy wielowymiarowych testów F. Jest to procedura identyczna jak wielowymiarowa analiza wariancji lub MANOVA . Tak samo jak w wielowymiarowej analizie wariancji, możemy najpierw zastosować test wielowymiarowy, a następnie, jeśli wykazuje on istotność różnic, możemy sprawdzić, które zmienne mają istotnie różne średnie w grupach. Zatem nawet jeśli obliczenia dla wielu zmiennych są bardziej złożone, to rozumowanie pozostaje takie samo, chodzi mianowicie o to, że szukamy zmiennych, które dyskryminują grupy, co znajduje wyraz w obserwowanych różnicach średnich.

Indeks

Krokowa analiza dyskryminacyjna

Prawdopodobnie najpowszechniejsze zastosowanie analizy funkcji dyskryminacyjnej polega na włączeniu do badań wielu miar w celu wyodrębnienia tych, które dyskryminują grupy. Na przykład, w zagadnieniach pedagogicznych, badacz zainteresowany przewidywaniem decyzji o dalszej nauce wśród absolwentów szkół średnich mógłby uwzględnić w badaniach wiele miar osobowości, motywacji osiągnięć, itd., aby dowiedzieć się, które z nich najlepiej nadają się jako zmienne prognostyczne.

Model. Chcemy zbudować model najlepszego przewidywania, do której grupy należy dany przypadek. W poniższych rozważaniach będziemy stosowali termin "w modelu", odwołując się do zmiennych, które są wykorzystane do przewidywania przynależności do grupy, a termin "poza modelem", odwołując się do zmiennych, które nie są wykorzystywane.

Postępująca analiza krokowa. W analizie krokowej funkcji dyskryminacyjnej model dyskryminacji jest budowany krok po kroku. W szczególności, na każdym etapie będziemy przeglądać wszystkie zmienne i oceniać, która najbardziej przyczynia się do dyskryminacji grup. Ta zmienna zostanie następnie włączona do modelu i ten proces jest powtarzany.

Wsteczna analiza krokowa. Można także prowadzić analizę krokową wstecz; w tym przypadku wszystkie zmienne najpierw zostaną włączone do modelu , a następnie, w każdym kroku, będziemy eliminować zmienną, która najmniej wnosi do przewidywania przynależności do grupy. Zatem w wyniku pomyślnej analizy funkcji dyskryminacyjnej otrzymujemy tylko "ważne" zmienne w modelu, to znaczy te zmienne, które najbardziej przyczyniają się do dyskryminacji grup.

F do wprowadzenia, F do usunięcia. Procedura krokowa jest sterowana przez odpowiednie wartości F do wprowadzenia i F do usunięcia. Wartość F dla zmiennej wskazuje jej statystyczną istotność w dyskryminacji grup, to znaczy mówi, jaki jest indywidualny wkład zmiennej w przewidywaniu przynależności do grupy. Jeśli Czytelnik zapoznał się z procedurami krokowej regresji wielokrotnej (patrz Regresja wielokrotna ), to może interpretować wartość F do wprowadzenia/usunięcia w ten sam sposób, jak w przypadku regresji krokowej.

Uznanie za (statystycznie) istotne przypadkowych efektów. Powszechny błąd w interpretacji wyników krokowej analizy dyskryminacyjnej polega na dosłownym rozumieniu wartości poziomów istotności. Gdy rozstrzygamy, czy włączyć czy wyeliminować zmienną w następnym kroku analizy, to faktycznie obliczamy istotność wkładu każdej rozważanej zmiennej. Dlatego procedury krokowe mogą powodować uznawanie za statystycznie istotne przypadkowych efektów, ponieważ wybierają spośród zmiennych te, które mają być włączone do modelu, tak aby uzyskać największą dyskryminację. Zatem, stosując podejście krokowe badacz powinien być świadom, że poziomy istotności nie odzwierciedlają rzeczywistej wielkości błędu alfa, to znaczy prawdopodobieństwa błędnego odrzucenia H0 (hipoteza zerowa zakładająca brak zróżnicowania grup).

Indeks

Interpretacja funkcji dyskryminacyjnej dla dwóch grup

W przypadku dwóch grup, analiza funkcji dyskryminacyjnej może być także rozważana w kategoriach (i jest analogiczna do) regresji wielokrotnej (patrz Regresja wielokrotna ; analiza dyskryminacyjna dla dwóch grup jest także nazywana liniową analizą dyskryminacyjną Fishera (Fisher 1936); z obliczeniowego punktu widzenia wszystkie te podejścia są analogiczne). Jeśli zakodujemy dwie grupy jako 1 i 2, i wykorzystamy tę zmienną jako zmienną zależną w analizie regresji wielokrotnej, to dostaniemy wyniki analogiczne do tych, które otrzymalibyśmy przy pomocy analizy dyskryminacyjnej. Mówiąc ogólnie, w przypadku dwóch grup dopasowujemy równanie liniowe o postaci:

Grupa = a + b1*x1 + b2*x2 + ... + bm*xm

gdzie a jest stałą b1 do bm są współczynnikami regresji. Interpretacja wyników w przypadku dwóch grup wynika bezpośrednio z logiki regresji wielokrotnej: zmienne, które mają największe (standaryzowane) współczynniki regresji najbardziej przyczyniają się do predykcji przynależności do grupy.

Indeks

Funkcje dyskryminacyjne dla wielu grup

Gdy mamy więcej niż dwie grupy, możemy szacować więcej niż jedną funkcję dyskryminacyjną, jak ta przedstawiona poprzednio. Na przykład, jeżeli istnieją trzy grupy, możemy szacować (1) funkcję dla dyskryminacji grup 1 oraz 2 i 3 łącznie, a także (2) inną funkcję dla dyskryminacji między grupą 2 i 3. Na przykład moglibyśmy mieć jedną funkcję, która dyskryminuje tych absolwentów szkół średnich, którzy idą na studia i tych, którzy nie idą (ale albo dostają pracę, albo wstępują do szkół pomaturalnych) oraz drugą funkcję, która dyskryminuje absolwentów, którzy idą do szkół pomaturalnych i tych, którzy dostają pracę. Współczynniki b w tych funkcjach dyskryminacyjnych mogą być następnie interpretowane w taki sam sposób, jak poprzednio.

Analiza kanoniczna. Kiedy przeprowadzamy analizę dyskryminacyjną dla wielu grup, nie musimy określać, w jaki sposób łączyć grupy, aby uformować różne funkcje dyskryminacyjne. Zamiast tego, możemy automatycznie określić pewną optymalną kombinację zmiennych, tak aby pierwsza funkcja zapewniła najbardziej ogólne rozróżnienie między grupami, druga następne w kolejności itd. Ponadto, funkcje te powinny być niezależne lub ortogonalne, tzn. ich udział w dyskryminowaniu grup nie będzie się pokrywał. Od strony obliczeniowej, przeprowadźmy analizę korelacji kanonicznej (patrz także Korelacja kanoniczna ), która wyznaczy kolejne funkcje i pierwiastki kanoniczne (termin pierwiastek odnosi się do wartości własnych, powiązanych z odpowiednimi funkcjami dyskryminacyjnymi). Maksymalna liczba obliczonych funkcji, będzie równa liczbie grup minus jeden lub liczbie zmiennych w analizie, w zależności od tego, która jest mniejsza.

Interpretacja funkcji dyskryminacyjnych. Jak i wcześniej, otrzymamy współczynniki b (oraz standaryzowane beta) dla każdej zmiennej w obrębie każdej funkcji dyskryminacyjnej (teraz zwanej także kanoniczną) i można je interpretować jak zwykle: im wyższa wartość standaryzowanego współczynnika, tym większy udział danej zmiennej w dyskryminowaniu grup. (Zauważmy, że mogliśmy także zinterpretować współczynniki struktury; patrz poniżej). Współczynniki te nie mówią nam jednak, które grupy są dyskryminowane przed dane funkcje. Naturę dyskryminacji dla każdej funkcji dyskryminacyjnej (kanonicznej) możemy określić przyglądając się średnim dla tych funkcji w grupach. Możemy także zobrazować, w jaki sposób te dwie funkcje dyskryminują grupy, kreśląc poszczególne wartości dla dwóch funkcji dyskryminacyjnych (zob. graf poniżej).

W tym przykładzie, Pierwiastek (funkcja) 1 wydaje się być najbardziej dyskryminującą między grupami Setosa, oraz kombinacją grup Virginic i Versicol. W pionie (Pierwiastek 2), widoczny jest niewielki trend punktów grupy Versicol, który opada poniżej linii centralnej 0.

Macierz struktury czynnikowej. Innym sposobem rozstrzygnięcia, które zmienne oznaczają lub definiują konkretną funkcję dyskryminacyjną jest przyjrzenie się strukturze czynnikowej. Współczynniki struktury czynnikowej są to współczynniki korelacji między zmiennymi w modelu a funkcjami dyskryminacyjnymi; jeśli Czytelnikowi jest znana analiza czynnikowa (patrz Analiza czynnikowa ), to może traktować te korelacje tak jak ładunki czynnikowe tych zmiennych dla każdej z funkcji dyskryminacyjnych.

Niektórzy autorzy dowodzili, że te współczynniki struktury powinny być stosowane do interpretacji rzeczywistego znaczenia funkcji dyskryminacyjnych. Powody podane przez tych autorów są takie, że (1) przypuszczalnie współczynniki struktury są bardziej stabilne oraz (2) umożliwiają interpretację czynników (funkcji dyskryminacyjnych) w sposób analogiczny do analizy czynnikowej. Jednakże kolejne badania przeprowadzone metodą Monte Carlo (Barcikowski i Stevens, 1975; Huberty, 1975) pokazały, że współczynniki funkcji dyskryminacyjnej i współczynniki struktury są mniej więcej równie niestabilne, jeśli n nie jest stosunkowo duże (np. jeśli nie ma 20 razy więcej przypadków niż zmiennych). Najważniejszą rzeczą do zapamiętania jest to, że współczynniki funkcji dyskryminacyjnej określają indywidualny (cząstkowy) wkład każdej zmiennej do funkcji dyskryminacyjnej (dyskryminacyjnych), podczas gdy współczynniki struktury określają proste korelacje między zmiennymi i funkcją (funkcjami). Gdyby chcieć przypisać funkcjom dyskryminacyjnym (które interpretujemy podobnie jak czynniki w analizie czynnikowej) rzeczywiste znaczące nazwy, to należałoby wykorzystać (zinterpretować) współczynniki struktury; gdyby chcieć się dowiedzieć, jaki jest indywidualny wkład każdej zmiennej do funkcji dyskryminacyjnej, zastosowalibyśmy współczynniki funkcji dyskryminacyjnej (wagi).

Istotność funkcji dyskryminacyjnych. Testowaniu można poddać liczbę pierwiastków, które istotnie wpływają na dyskryminację grup. Powinno się interpretować tylko te, które są istotne statystycznie; nieistotne funkcje (pierwiastki) powinny zostać pominięte.

Podsumowanie. Podsumowując, gdy interpretujemy wiele funkcji dyskryminacyjnych, które pochodzą z analizy więcej niż dwóch grup i więcej niż jednej zmiennej, najpierw testujemy istotność statystyczną różnych funkcji i w dalszych badaniach rozważamy tylko funkcje istotne. Następnie analizujemy standaryzowane współczynniki b dla każdej zmiennej w obrębie każdej istotnej funkcji. Im wyższa wartość standaryzowanego współczynnika b, tym większy indywidualny wkład odpowiedniej zmiennej w podział określony przez daną funkcję dyskryminacyjną. W celu wprowadzenia znaczących nazw funkcji dyskryminacyjnych, można także zbadać macierz struktury czynnikowej, zawierającą korelacje między zmiennymi a funkcjami dyskryminacyjnymi. Wreszcie, przyglądamy się średnim dla istotnych funkcji dyskryminacyjnych w celu rozstrzygnięcia, które grupy są rozróżniane przez dane funkcje.

Indeks

Założenia

Jak już wspomniano wcześniej, analiza funkcji dyskryminacyjnej jest z obliczeniowego punktu widzenia bardzo podobna do wielowymiarowej analizy wariancji MANOVA i mają tu zastosowanie wszystkie założenia tej analizy wymienione w rozdziale ANOVA/MANOVA . W rzeczywistości możemy stosować szeroki wybór narzędzi diagnostycznych i testów statystycznych, do badania danych pod kątem analizy dyskryminacyjnej.

Rozkład normalny. Zakłada się, że dane (ujęte w postaci zmiennych) reprezentują próbę z wielowymiarowego rozkładu normalnego. Łatwo można zbadać, czy zmienne podlegają bądź nie podlegają rozkładowi normalnemu za pomocą histogramów rozkładów liczności. Zauważmy jednak, że naruszanie założenia o normalności zazwyczaj nie jest "zgubne" w tym sensie, że otrzymywane testy istotności itd. pozostają "godne zaufania". Dodatkowo (obok wykresów), możemy także użyć specjalnych testów służących do oceny normalności rozkładu.

Jednorodność wariancji/kowariancji. Zakłada się, że macierze wariancji/kowariancji zmiennych są jednorodne (homogeniczne) w grupach. I znów, nieznaczne odchylenia nie są aż tak ważne. Zanim jednak przyjmiemy ostateczne wnioski z ważnego badania, warto przejrzeć macierze wariancji wewnątrzgrupowych i macierze korelacji. W szczególności, warto w tym celu wykorzystać macierz wykresów rozrzutu. Jeśli mamy wątpliwości, możemy powtórzyć analizy eliminując jedną lub dwie mniej interesujące grupy. Jeśli ogólne wyniki (interpretacje) pozostaną takie same, to prawdopodobnie wszystko jest w porządku. Można także wykorzystać wiele testów i narzędzi w celu zbadania, czy założenie to zostało w przypadku naszych danych naruszone. Jak wspomniano jednak w rozdziale ANOVA/MANOVA, wielowymiarowy test M Boxa służący do oceny jednorodności wariancji/kowariancji jest szczególnie wrażliwy na odchylenia od wielowymiarowej normalności i nie powinien być traktowany zbyt "poważnie".

Korelacje między średnimi i wariancjami. Podstawowe "rzeczywiste" zagrożenie dla trafności testów istotności pojawia się wówczas, gdy średnie zmiennych w grupach są skorelowane z wariancjami (lub odchyleniami standardowymi). Intuicyjnie, jeśli w grupie występuje duża zmienność przy szczególnie wysokich średnich niektórych zmiennych, to te wysokie średnie nie są rzetelne. Ogólne testy istotności są jednak oparte na łącznych wariancjach, to znaczy na przeciętnej wariancji z wszystkich grup. Zatem testy istotności dla relatywnie większych średnich (przy dużych wariancjach) byłyby oparte na relatywnie mniejszych wariancjach łącznych, dając w efekcie mylny obraz istotności statystycznej. W praktyce taki układ może się pojawić wtedy, gdy jedna z badanych grup zawiera kilka odstających obserwacji, które mają duży wpływ na średnie, a także zwiększają zmienność. Aby ustrzec się przed tym problemem należy na okoliczność takich powiązań zbadać statystyki opisowe, to znaczy średnie i odchylenia standardowe lub wariancje.

Problem złego uwarunkowania macierzy. Inne założenie analizy funkcji dyskryminacyjnej wymaga, by zmienne wykorzystanie do dyskryminacji grup nie były całkowicie redundantne. W ramach obliczeń związanych z analizą dyskryminacyjną występuje operacja odwracania macierzy wariancji/kowariancji zmiennych w modelu. Jeśli któraś ze zmiennych jest całkowicie redundantna wobec innych zmiennych, to o macierzy mówi się, że jest źle uwarunkowana i nie może być odwrócona. Na przykład, jeśli zmienna jest sumą trzech innych zmiennych, które także znajdują się w modelu, to macierz jest źle uwarunkowana.

Wartości tolerancji. Aby uniknąć złego uwarunkowania macierzy, stale będzie sprawdzane dla każdej zmiennej tak zwane wartości tolerancji. Wartość tolerancji jest obliczana jako 1 minus R-kwadrat danej zmiennej przy włączeniu do bieżącego modelu wszystkich innych zmiennych. Jest to zatem część wariancji wyjaśniana przez daną zmienną. Więcej informacji na temat regresji wielokrotnej i interpretacji wartości tolerancji znajduje się także w rozdziale Regresja wielokrotna . Ogólnie, gdy zmienna jest prawie całkowicie redundantna (a zatem może pojawić się problem złego uwarunkowania macierzy), wartość tolerancji dla tej zmiennej zbliży się do 0.

Indeks

Klasyfikacja

Innym, ważnym celem stosowania analizy dyskryminacyjnej jest potrzeba tworzenia prognoz klasyfikacyjnych przypadków. Gdy mamy ustalony model i wyprowadzoną funkcję dyskryminacji, jak dokładnie jesteśmy w stanie przewidzieć, do której grupy należy dany przypadek?

Predykcje a priori i post hoc. Zanim przejdziemy do szczegółów różnych procedur estymacji, chcielibyśmy upewnić się, że ta różnica jest jasna. Zazwyczaj, jeśli estymujemy funkcje dyskryminacyjne, które najlepiej dyskryminują grupy w oparciu o pewien zbiór danych, a następnie wykorzystujemy te same dane do oceny, na ile trafna jest nasza predykcja, to wówczas jesteśmy narażeni na uznanie za statystycznie istotne przypadkowych efektów. Ogólnie, zawsze dostaniemy gorszą klasyfikację wtedy, gdy przewidujemy przynależność przypadków, które nie były użyte do estymacji funkcji dyskryminacyjnej. Innymi słowy, predykcje post hoc są zawsze lepsze niż predykcje a priori. (Trudność z przewidywaniem przyszłości a priori polega na tym, że nie wiemy, co się stanie; znacznie łatwiej jest znaleźć sposoby predykcji tego, o czym wiemy, że się zdarzyło). Dlatego nie należy opierać swojego zaufania dotyczącego poprawnej klasyfikacji przyszłych obserwacji na tym samym zbiorze danych, na podstawie którego zostały wyznaczone funkcje dyskryminacyjne; jeśli chcemy klasyfikować przyszłe nowe przypadki, to należy raczej zebrać nowe dane, aby "wypróbować" (ocenić trafność krzyżową ) użyteczność funkcji dyskryminacyjnych.

Funkcje klasyfikacyjne. Nie powinno się mylić funkcji klasyfikacyjnych z funkcjami dyskryminacyjnymi. Funkcje klasyfikacyjne mogą być wykorzystane do rozstrzygania, do której grupy najprawdopodobniej należą poszczególne przypadki. Jest tyle funkcji klasyfikacyjnych ile grup. Każda funkcja pozwala nam obliczyć wartości klasyfikacyjne dla każdego przypadku w każdej grupie, przy pomocy wzoru:

Si = ci + wi1*x1 + wi2*x2 + ... + wim*xm

We wzorze tym, indeks i określa daną grupę; indeksy 1, 2, ..., m określają m zmiennych; ci jest stałą dla i-tej grupy, wij jest wagą dla j-tej zmiennej przy obliczaniu wartości klasyfikacyjnej dla i-tej grupy; xj jest wartością obserwowaną dla danego przypadku dla j-tej zmiennej. Si oznacza wynikową wartość klasyfikacyjną.

Funkcje klasyfikacyjne mogą być bezpośrednio wykorzystane do obliczenia wartości klasyfikacyjnych dla nowych obserwacji.

Klasyfikacja przypadków. Po obliczeniu wartości klasyfikacyjnych dla danego przypadku, łatwo zdecydować, jak sklasyfikować ten przypadek: zwykle klasyfikujemy przypadek jako należący do grupy, dla której ma on największą wartość klasyfikacyjną (jeśli prawdopodobieństwa klasyfikacji a priori nie różnią się poważnie; patrz poniżej). Zatem jeśli mielibyśmy badać zagadnienie wyboru zawodu lub kierunku dalszego kształcenia (np. wstąpienie na studia, uczęszczanie do szkół pomaturalnych, podjęcie pracy) absolwentów szkół średnich w oparciu o kilka zmiennych zmierzonych rok przed ukończeniem szkoły, moglibyśmy wykorzystać funkcje klasyfikacyjne w celu przewidywania, co najprawdopodobniej zrobi każdy uczeń po szkole. Chcielibyśmy jednak poznać także prawdopodobieństwo tego, że dany uczeń zachował się zgodnie z przewidywaniem. Prawdopodobieństwa te nazywa się prawdopodobieństwami a posteriori i można je także obliczyć. Aby zrozumieć, jak wyznacza się te prawdopodobieństwa, rozważmy najpierw tak zwane odległości Mahalanobisa.

Odległości Mahalanobisa. Czytelnik mógł już przeczytać o tych odległościach w innych rozdziałach tego podręcznika. Ogólnie, odległość Mahalanobisa jest miarą odległości między dwoma punktami w przestrzeni zdefiniowanej przez dwie lub większą liczbę skorelowanych zmiennych. Na przykład, jeśli mamy dwie zmienne, które są nieskorelowane, to możemy wykreślić punkty (przypadki) na standardowym dwuwymiarowym wykresie rozrzutu ; odległości Mahalanobisa między tymi punktami byłyby wówczas identyczne z odległościami Euklidesa; byłaby to taka odległość, jaką na przykład odmierza linijka. Jeśli mamy trzy nieskorelowane zmienne, to do określenia odległości między punktami także możemy po prostu użyć linijki (na wykresie 3W). Jeśli mamy więcej niż 3 zmienne, nie możemy ich już przedstawić na wykresie. Ponadto, jeśli zmienne są skorelowane, to osie wykresu mogą być traktowane jako nieortogonalne, to znaczy nie można by ich było umieścić prostopadle względem siebie. W takich przypadkach zwykła odległość Euklidesa nie jest właściwą miarą, natomiast odległość Mahalanobisa w odpowiedni sposób odda występujące korelacje.

Odległości Mahalanobisa i klasyfikacja. Dla każdej grupy w naszej próbie możemy określić położenie punktu reprezentującego średnie dla wszystkich zmiennych w przestrzeni wielowymiarowej zdefiniowanej przez zmienne w modelu. Punkty te nazywają się centroidami grup. Dla każdego przypadku możemy obliczyć odległości Mahalanobisa (danego przypadku) od każdego z centroidów grupowych. Następnie moglibyśmy sklasyfikować przypadek do grupy, której jest najbliższy, to znaczy do tej, do której odległość Mahalanobisa jest najmniejsza.

Prawdopodobieństwa klasyfikacyjne a posteriori. Stosując do klasyfikacji odległości Mahalanobisa, możemy teraz wyznaczyć prawdopodobieństwa. Prawdopodobieństwo, że przypadek należy do danej grupy jest zasadniczo proporcjonalne do odległości Mahalanobisa od centroidu grupy (nie jest dokładnie proporcjonalne ponieważ zakładamy wielowymiarowy rozkład normalny wokół każdego centroidu). Ponieważ położenie każdego przypadku obliczamy na podstawie naszej wcześniejszej wiedzy o wartościach, jakie zmienne należące do modelu przyjmują dla danego przypadku, prawdopodobieństwa te są nazywane prawdopodobieństwami a posteriori. Podsumowując, prawdopodobieństwo a posteriori jest to prawdopodobieństwo oparte na naszej wiedzy o wartościach innych zmiennych, że dany przypadek należy do konkretnej grupy. Pewne programy obliczą automatycznie takie prawdopodobieństwa dla wszystkich przypadków (lub tylko dla wybranych przypadków w celu oceny trafności w ocenie krzyżowej ).

Prawdopodobieństwa klasyfikacyjne a priori. Jest jeszcze jeden dodatkowy czynnik, który powinien być wzięty pod uwagę podczas klasyfikacji przypadków. Czasami zawczasu wiemy, że w jednej z grup jest więcej obserwacji niż w jakiejś innej; zatem prawdopodobieństwo a priori, że przypadek należy do tej grupy, jest większe. Na przykład, jeśli zawczasu wiemy, że 60% absolwentów naszej szkoły średniej zwykle wstępuje na studia (20% idzie do szkoły pomaturalnej, a pozostałe 20% do pracy), to powinniśmy skorygować nasze przewidywanie odpowiednio: a priori i przy takich samych pozostałych warunkach, jest bardziej prawdopodobne, że uczeń pójdzie na studia, niż że wybierze którąś z pozostałych możliwości. Analiza dyskryminacyjna umożliwia określenie różnych prawdopodobieństw a priori, które zostaną następnie wykorzystanie do skorygowania klasyfikacji przypadków (i obliczenia prawdopodobieństw a posteriori).

W praktyce badacz powinien zadać sobie pytanie, czy nierówna liczba przypadków w różnych grupach w próbie jest odzwierciedleniem rzeczywistego rozkładu w populacji, czy jest to tylko (losowy) efekt procedury losowania. W pierwszym przypadku ustawilibyśmy prawdopodobieństwa a priori tak, aby były proporcjonalne do rozmiarów grup w naszej próbie, w drugim przypadku określilibyśmy prawdopodobieństwa a priori tak, aby były jednakowe dla każdej grupy. Specyfikacja różnych prawdopodobieństw a priori może poważnie wpłynąć na trafność predykcji.

Podsumowanie zagadnienia predykcji. Zazwyczaj w celu rozstrzygnięcia, na ile dobrze bieżące funkcje klasyfikacyjne pozwalają przewidzieć przynależność przypadków do grupy oglądamy macierz klasyfikacji. Macierz klasyfikacji pokazuje liczbę przypadków, które zostały poprawnie sklasyfikowane (na przekątnej macierzy) oraz tych, które zostały błędnie zaklasyfikowane.

Ostrzeżenie. Powtórzmy jeszcze, że przewidywanie post hoc tego, co zdarzyło się w przeszłości, nie jest specjalnie trudne. Nie jest niczym niezwykłym otrzymanie bardzo dobrej klasyfikacji, jeśli wykorzystujemy te same przypadki, na których zostały obliczone funkcje klasyfikacyjne. Aby przekonać się, na ile dobrze działają bieżące funkcje klasyfikacyjne, "należy" sklasyfikować (a priori) inne przypadki, to znaczy przypadki, które nie były wykorzystywane do oszacowania funkcji klasyfikacyjnych. Możemy włączyć lub wyeliminować z analizy przypadki; zatem macierz klasyfikacji może zostać obliczona zarówno dla "starych", jak i dla "nowych" przypadków. Tylko klasyfikacja nowych przypadków pozwala nam oszacować trafność prognostyczną funkcji klasyfikacyjnych (patrz także ocena trafności krzyżowej ); klasyfikacja tylko starych przypadków dostarcza użytecznego narzędzia do identyfikowania przypadków odstających lub obszarów, gdzie funkcja klasyfikacyjna, wydaje się być mniej trafna.

Podsumowanie. Ogólnie rzecz ujmując, analiza dyskryminacyjna jest bardzo przydatnym narzędziem (1) do wykrywania tych zmiennych, które pozwalają badaczowi dyskryminować różne (naturalne wyłaniające się) grupy oraz (2) do klasyfikacji przypadków do różnych grup z większą niż przypadkowa trafnością.

Indeks






© Copyright StatSoft, Inc., 1984-2011
STATISTICA is a trademark of StatSoft, Inc.