Wprowadzenie
Ogólna analiza dyskryminacyjna (GDA) nazywana jest "ogólną" analizą dyskryminacyjną, ponieważ do zagadnienia analizy funkcji dyskryminacyjnej stosuje ogólny model liniowy (patrz także Ogólne modele liniowe (GLM) ). Ogólne wprowadzenie do analizy funkcji dyskryminacyjnej oraz opis tradycyjnych metod stosowanych przy dopasowywaniu modeli liniowych, zawierających zmienne zależne jakościowe i predyktory ciągłe zostało podane w rozdziale Analiza dyskryminacyjna . W rozdziale GDA zagadnienie analizy funkcji dyskryminacyjnej zostało "przetworzone" do postaci ogólnego wielowymiarowego modelu liniowego, w którym analizowane zmienne zależne są zakodowanymi (zerojedynkowo) wektorami, odzwierciedlającymi przynależność każdego z przypadków do określonej grupy. Dalsza analiza jest przeprowadzana tak jak to zostało opisane w kontekście modułu Ogólne modele regresji (GRM) , z uwzględnieniem kilku wspomnianych poniżej dodatkowych własności.
| Indeks |
Zalety GDA
Definiowanie modeli dla predyktorów i efektów. Jedną z korzyści wynikających ze stosowania ogólnego modelu liniowego do zagadnienia analizy dyskryminacyjnej jest możliwość definiowania złożonych modeli dla zbioru predyktorów. I tak, przykładowo dla zbioru predyktorów ciągłych możemy zdefiniować model regresji wielomianowej , model powierzchni odpowiedzi , model regresji czynnikowej lub model regresji powierzchni odpowiedzi dla mieszaniny (bez wyrazu wolnego). Moglibyśmy zatem poddać analizie doświadczenie dla mieszaniny z nałożonymi ograniczeniami (np. wartości predyktorów sumujące się do stałej wartości), w którym interesująca nas zmienna zależna jest z natury jakościowa . GDA rzeczywiście nie nakłada żadnych szczególnych ograniczeń na typ stosowanych predyktorów (jakościowych czy ciągłych) czy też typ definiowanego modelu. Jednakże w przypadku stosowania predyktorów jakościowych trzeba zachować pewną ostrożność (zapoznaj się z zamieszczoną poniżej "Uwagą na temat modeli zawierających predyktory jakościowe i innych zaawansowanych technik").
Analiza krokowa a analiza przeprowadzana metodą najlepszego podzbioru. Oprócz tradycyjnej krokowej analizy dyskryminacyjnej dla predyktorów o jednym stopniu swobody wykonywanej w analizie dyskryminacyjnej , Ogólna analiza dyskryminacyjna umożliwia również stosowanie analizy krokowej i analizy metodą najlepszego, podzbioru opisanych w rozdziale Ogólne modele regresji (GRM) . W szczególności, można wybrać dobór predyktorów lub zbiorów predyktorów (w przypadku efektów o wielu stopniach swobody, uwzględniających predyktory jakościowe) metodę krokową i metodę najlepszego podzbioru w oparciu o statystykę F do wprowadzania i p do wprowadzania (powiązaną ze statystyką wielowymiarowego testu Lambda Wilksa). Ponadto, jeśli określimy próbę do oceny krzyżowej wówczas dobór metodą najlepszego podzbioru możemy przeprowadzić w oparciu o wskaźniki błędnych klasyfikacji dla tej próby. Oznacza to, że po oszacowaniu funkcji dyskryminacyjnych dla danego zbioru predyktorów obliczane są wskaźniki błędnych klasyfikacji i wybierany jest ten model (podzbiór predyktorów), który daje najniższą wartość wskaźnika błędnych klasyfikacji w próbie przeznaczonej do oceny krzyżowej. Jest to zatem potężna technika umożliwiająca wybór modeli charakteryzujących się dobrą trafnością prognostyczną i pozwalająca jednocześnie uniknąć nadmiernego dopasowania modelu do danych (patrz także rozdział Sieci Neuronowe ).
Profile użyteczności prawdopodobieństwa a posteriori klasyfikacji.Inną, wyjątkową cechą Ogólnych modeli analizy dyskryminacyjnej (GDA) jest dostęp do opcji tworzenia Profili użyteczności/odpowiedzi . Opcje te zostały szczegółowo omówione w rozdziale Planowanie doświadczeń (DOE) . Mówiąc krótko, obliczane są wartości przewidywanych odpowiedzi dla każdej zmiennej zależnej i przypisuje im pojedyncze wartości użyteczności. Następnie możemy utworzyć graficzne podsumowanie pokazujące sposób "zachowania się" przewidywanych odpowiedzi i wartości użyteczności względem zakresów wartości predyktorów. W GDA możemy tworzyć profile zarówno prostych wartości przewidywanych (podobnie jak w rozdziale Ogólne modele regresji) dla kodowanych zmiennych zależnych (tzn. kodowanych zerojedynkowo kategorii jakościowej zmiennej zależnej) jak i tworzyć profile prawdopodobieństw a posteriori klasyfikacji. Ta ostatnia wyjątkowa opcja umożliwia nam ocenę wpływu różnych wartości predyktorów na przewidywaną klasyfikację przypadków i jest szczególnie użyteczna przy interpretacji wyników dla złożonych modeli uwzględniających predyktory jakościowe i ciągłe oraz ich wzajemne interakcje .
Uwaga na temat modeli zawierających predyktory jakościowe i innych zaawansowanych technik. Ogólna analiza dyskryminacyjna zawiera metody, które czynią z tej techniki niezwykle efektywne narzędzie do zagadnień klasyfikacyjnych i technik zgłębiania danych (data mining ). Jednakże, zdecydowana większość podręczników, w których jest omawiana analiza funkcji dyskryminacyjnych, ogranicza się do opisu analizy prostej i krokowej i to tylko dla predyktorów ciągłych o jednym stopniu swobody. W literaturze brakuje natomiast opracowań dotyczących zagadnienia odporności i efektywności tych technik, w przypadku ich uogólnienia do postaci zaprezentowanej w GDA. Wykorzystanie metody najlepszego podzbioru (w szczególności w powiązaniu z predyktorami jakościowymi lub w przypadku wskaźników błędnych klasyfikacji w próbie przeznaczonej do oceny krzyżowej) do wyboru najlepszego podzbioru predyktorów powinno być traktowane bardziej jako metoda heurystycznego poszukiwania niż technika analizy statystycznej.
Stosowanie predyktorów jakościowych.Ze statystycznego punktu widzenia stosowanie predyktorów jakościowych lub ich efektów w modelu analizy dyskryminacyjnej może budzić wątpliwości. Przykładowo, możemy wykorzystać GDA do analizy tabeli liczności 2x2, przyjmując jedną ze zmiennych w takiej tabeli za zmienną zależną a drugą za predyktor. Widać wyraźnie, że takie wykorzystanie GDA byłoby nierozsądne (chociaż, co ciekawe w większości przypadków otrzymamy wyniki zgodne z tymi, które otrzymalibyśmy w wyniku przeprowadzenia zwykłego testu Chi-kwadrat dla tabeli 2x2 ). Z drugiej strony jeśli potraktujemy oceny parametrów obliczone w GDA jako rozwiązanie układu równań liniowych uzyskane metodą najmniejszych kwadratów wtedy użycie predyktorów jakościowych w GDA jest w pełni uzasadnione. Co więcej, w badaniach stosowanych często zdarza się sytuacja w której mamy do czynienia z kombinacją predyktorów ciągłych i jakościowych (np. dochód i wiek, które są zmiennymi ciągłymi oraz status zawodowy, który jest zmienną jakościową) na podstawie których chcemy przewidywać wartości dla zmiennej zależnej, o charakterze jakościowym. W takich przypadkach może być bardzo pouczającym zbadanie klasyfikacji przypadków dla określonych modeli uwzględniających predyktory jakościowe i modeli uwzględniających możliwe interakcje pomiędzy zmiennymi jakościowymi i ciągłymi. Należy jednak jeszcze raz podkreślić, że stosowanie predyktorów jakościowych w analizie funkcji dyskryminacyjnych nie jest zbyt szeroko udokumentowane w literaturze i dlatego należy zachować szczególną ostrożność przy akceptacji wyników statystycznych testów istotności jak również przy wyciąganiu ostatecznych wniosków płynących z przeprowadzonej analizy. Należy również pamiętać, że są dostępne alternatywne metody służące do przeprowadzania podobnych analiz, w szczególności modele logitowe dla zmiennych o rozkładzie wielomianowym opisane w rozdziale Uogólnione modele liniowe i nieliniowe (GLZ) oraz metody przeznaczone do analizy tabel wielodzielczych przedstawione w rozdziale Analiza log-liniowa .
| Indeks |
