Analiza modeli liniowych i nieliniowych


Pakiet STATISTICA zawiera pięć potężnych grup procedur przeznaczonych do analizy modeli liniowych i nieliniowych: Ogólny model liniowy (GLM), Ogólne modele regresji (GRM), Ogólne modele analizy dyskryminacyjnej (GDA) oraz Modele cząstkowych najmniejszych kwadratów (PLS). Warto również zauważyć, że w programie STATISTICA zostały także zaimplementowane metody Uogólnionych modeli addytywnych (GAM), Ogólnych modeli drzew klasyfikacyjnych i regresyjnych (C&RT) oraz Ogólnych modeli CHAID. Są one dostępne w systemie STATISTICA Data Miner i można je wykorzystywać do budowania modeli nieliniowych (typu ANOVA lub ANCOVA) dla ciągłych lub ilościowych zmiennych zależnych (objaśnianych).

Wszystkie wspomniane moduły są niezwykle obszernymi i zaawansowanymi implementacjami odpowiednich metod, jednakże wszystkie zawierają pewne ogólne rozwiązania w zakresie interfejsu użytkownika:

GLM  
GRM  
GDA  
GLZ  
PLS  
Ogólne własności wszystkich pięciu modułów

Trzy alternatywne interfejsy użytkownika: (1) Okna szybkiego definiowania, (2) Kreator oraz (3) Składnia. Wszystkie moduły oferują trzy alternatywne interfejsy użytkownika służące do definiowania układów (planów) doświadczalnych (np. układy ANOVA/MANOVA, modele regresji, plany (układy) powierzchni odpowiedzi (reakcji), układy dla mieszanin, itp., patrz szczegółowy opis GLM):

  1. poprzez użycie Okien szybkiego definiowania, które wymagają od użytkownika określenia zmiennych, dla danego wstępnie wybranego układu (np. po wybraniu planu powierzchni odpowiedzi (reakcji) użytkownik zostaje poproszony o określenie predyktorów ciągłych oraz opcjonalnie, zmiennej definiującej strukturę blokową układu),
  2. [GLZ Szybkie definiowanie]

  3. poprzez unikalne, potężne Kreatory układów, które prowadzą użytkownika krok po kroku przez proces definiowania (specyfikowania) modelu oraz
  4. [GRM Kreator]

  5. poprzez prostą składnię poleceń, która oferuje możliwość wyboru pomiędzy tradycyjnym językiem zaproponowanym w programie SAS®, a prostszym w użyciu i bardziej elastycznym językiem GLM (obydwie opcje zawierają okna dialogowe „szybkiego wprowadzania” z przyciskami skrótów i możliwościami otwierania plików składni zapisywanych w formacie tekstowym).
  6. [GLM Edytor składni]

Automatyczne generowanie poleceń składniowych. Jedną z wyjątkowych własności tego interfejsu użytkownika jest możliwość jednoczesnego (niejako w tle) automatycznego generowania w programie pełnego zbioru poleceń składniowych dla dowolnego układu definiowanego za pomocą Okien szybkiego definiowania (patrz powyżej, punkt 1) lub za pomocą Kreatora (patrz punkt 2). Te swego rodzaju „aktywne” zapisy, równoważne najbardziej złożonym i niestandardowym układom mogą być ponownie uruchamiane, zapisywane do wykorzystania w przyszłości, modyfikowane a także umieszczane w programach wsadowych pisanych w języku STATISTICA Visual Basic, przeznaczonych do rutynowego wykorzystywania na nowych zbiorach danych, itp. Dzięki temu, że składnia służąca do określania układów o postaci ogólnego modelu liniowego jest wspólna dla wszystkich opisywanych modułów można w łatwy sposób przenosić specyfikacje pomiędzy różnymi rodzajami analiz, np. w celu dopasowania tego samego modelu w module GLM i GLZ.

Próba obliczeniowa (ucząca), próba do oceny krzyżowej (weryfikacji) oraz próba do prognozowania. Wszystkie cztery moduły pozwalają na obliczanie szczegółowych statystyk stosowanych w analizie reszt, które mogą być zachowywane do dalszych analiz w innych modułach. Kolejna unikalna własność tych programów polega na tym, że statystyki dotyczące wartości prognozowanych i analizy reszt mogą być obliczane oddzielnie dla obserwacji, na podstawie których były przeprowadzane odpowiednie obliczenia (tzn. na próbie obliczeniowej lub uczącej), oddzielnie dla obserwacji specjalnie wyłączonych z obliczeń dopasowania modelu (próba do oceny krzyżowej lub weryfikacji) oraz oddzielnie dla przypadków, dla których brakuje danych dotyczących zmiennych zależnych (próba do prognozowania). Ponadto dla tych prób dostępne są wszystkie opcje wyników w postaci graficznej (np. wykresy prawdopodobieństwa, histogramy, wykresy rozrzutu lub wybrane statystyki prognoz i analizy reszt). Tak więc wszystkie cztery programy oferują wyjątkowo kompletne metody diagnostyczne do oceny jakości dopasowania modelu.

Porównywanie analiz; modyfikacja analiz. Wszystkie cztery moduły są programami całkowicie realizującymi mechanizm przetwarzania wielowejściowego, co oznacza, że można jednocześnie przeprowadzić wiele analiz na tych samych lub różnych zbiorach danych. Jest to własność niezwykle użyteczna przy porównywaniu wyników pochodzących z różnych analiz tego samego zbioru danych lub analiz tego samego typu przeprowadzanych w oparciu o różne dane. Modyfikacja analizy nie wymaga ponownego jej określania – wystarczy tylko określić żądane zmiany. Wyniki uzyskiwane w oparciu o różne modyfikacje analizy mogą być w łatwy sposób porównywane. W trybie automatycznej aktualizacji wszystkie wyniki uzyskane dla różnych analiz są automatycznie przeliczane. Moduły VGLM, VGSR, VGLZ oraz VPSL programu STATISTICA przenoszą analizy typu „Co-jeśli” na nowy poziom dzięki możliwości przeprowadzania jednoczesnych porównań różnych danych i różnych analiz.

GLM  Ogólne modele liniowe (GLM)

Poniżej opisano najważniejsze zalety modułu GLM w stosunku do innych programów tego typu oraz jego wyjątkowe własności i funkcje. Jest jednak bardzo ważne aby już na wstępie podkreślić fakt, że program GLM to nie tylko najbardziej zaawansowane w sensie obliczeniowym narzędzie przeznaczone do zagadnienia ogólnego modelu liniowego dostępne na rynku, ale również najobszerniejsza i najbardziej kompletna aplikacja tego typu. GLM zawiera znacznie szerszy wybór opcji, więcej wykresów, więcej statystyk pomocniczych i poszerzonych diagnostyk niż jakikolwiek inny program tego typu. Moduł ten został zaprojektowany w sposób „nie dopuszczający kompromisów” w odniesieniu do najbardziej wymagających problemów występujących w zagadnieniu ogólnego modelu liniowego oraz oferuje najbogatszy wybór narzędzi, które służą do rozwiązywania tzw. „kontrowersyjnych zagadnień” nie mających żadnych powszechnie akceptowanych rozwiązań.

[GLM]

Układy. Użytkownik ma do wyboru stosunkowo proste lub zupełnie niestandardowe układy ANOVA lub MANOVA; jednoczynnikowe, dla efektów głównych, czynnikowe lub zagnieżdżone, układy z powtarzanymi pomiarami, modele regresji prostej, wielorakiej i wielomianowej, układy powierzchni odpowiedzi (reakcji), (zawierające bloki lub bez bloków), układy badające powierzchnie odpowiedzi dla mieszanin, proste lub bardziej złożone układy analizy kowariancji (np. z różnymi współczynnikami kierunkowymi) lub ogólne wielowymiarowe układy MANCOVA. Czynniki mogą mieć charakter stały lub losowy (w tym przypadku są obliczane połączone źródła błędu). Wszystkie te układy mogą być w sposób efektywny definiowane za pomocą każdego z trzech typów opisanych wcześniej interfejsów użytkownika oraz modyfikowane na różne sposoby (np. można pomijać efekty, określać własne hipotezy, itd.). Ponadto moduł GLM umożliwia operowanie na skrajnie dużych układach analiz, np. można określać czynniki powtarzanych pomiarów z 1000 poziomów, modele mogą zawierać 1000 zmiennych towarzyszących, program umożliwia efektywną analizę olbrzymich układów porównań międzygrupowych.

Model przeparametryzowany i model z sigma-ograniczeniami. Dokładne omówienie tych zagadnień nie jest celem tego zestawienia. Większość z dostępnych na rynku programów oferuje tylko model przeparametryzowany, a tylko kilka model z sigma-ograniczeniami. Moduł GLM w programie STATISTICA jako jedyny oferuje obydwa rozwiązania. Warto zauważyć, że każdy z tych modeli ma swoje zalety i wady, jednakże obydwa rozwiązania są konieczne w sytuacji, gdy chce się oferować prawdziwie wszechstronne środowisko obliczeniowe dla ogólnego modelu liniowego, umożliwiające prawidłowe rozwiązanie nawet najbardziej zaawansowanych i wymagających problemów analitycznych. Przykładowo do analizy układów zagnieżdżonych i układów różnych nachyleń lepiej jest użyć model przeparametryzowany. Również najczęściej stosowany sposób estymacji komponentów wariancyjnych oraz obliczanie połączonych źródeł zmienności dla błędu w modelu mieszanym ANOVA oparte są na modelu przeparametryzowanym. Układy czynnikowe z dużą liczbą czynników najlepiej analizuje się przy pomocy modelu z sigma-ograniczeniami. Mówiąc krótko, prosta dwuczynnikowa interakcja dwóch czynników o dwóch poziomach wymaga w przypadku modelu z sigma-ograniczeniami pojedynczej kolumny w macierzy układu podczas gdy w przypadku modelu przeparametryzowanego potrzeba 4 kolumny. W wyniku tego, na przykład analiza układu czynnikowego kompletnego z ośmioma czynnikami za pomocą modułu GLM zajmuje kilka sekund.

Postępowanie z układami zawierającymi brakujące podklasy. Moduł GLM w programie STATISTICA oblicza tradycyjnie stosowane sumy kwadratów od typu I do typu IV dla układów niezrównoważonych i niekompletnych, jednakże jak to zostało szeroko potwierdzone (np. Searle, 1987; Milliken i Johnson 1986) zastosowanie tych metod do układów „niestandardowych” zawierających brakujące podklasy rozmieszczone w mniej lub bardziej losowych miejscach układu mogą prowadzić do błędów a nawet rażąco nonsensownych wyników. Dlatego też moduł GLM oferuje także dwie dodatkowe metody przeznaczone do analizy układów z brakującymi danymi: metodę Hockinga (1985) „efektywnej dekompozycji hipotez” oraz metodę automatycznie odrzucającą efekty, które nie są estymowalne (np. w sytuacji gdy nie istnieją oceny najmniejszych kwadratów odpowiedniego efektu głównego lub efektu interakcji). Ta ostatnia metoda jest metodą powszechnie wykorzystywaną w przypadku planów układów czynnikowych ułamkowych wykorzystywanych do eksperymentów w naukach technicznych (patrz także moduł rozszerzający STATISTICA Planowanie doświadczeń). Metoda ta prowadzi do jednoznacznych wyników (niezależnych od uporządkowania poziomów czynników), które są łatwe do interpretacji i zgodne z literaturą dotyczącą eksperymentów w naukach technicznych. Ta niezwykle użyteczna własność jest unikalna cechą modułu GLM.

Wyniki. Moduł GLM wykonuje wszystkie standardowe obliczenia, w tym tabele ANOVA zawierające wyniki testów jednowymiarowych i wielowymiarowych, statystyki opisowe, itd. GLM oferuje także dużą liczbę opcji wyników, w szczególności wykresy, zazwyczaj niedostępne w innych programach. Przykładowo, za pomocą GLM można tworzyć różnorodne wykresy średnich (obserwowanych, ocen uzyskanych zwykłą lub ważoną metodą najmniejszych kwadratów) dla interakcji wyższego rzędu,

[GLM Tabela efektów]

zawierających słupki błędów (błędy standardowe) dla efektów dotyczących zarówno czynników międzygrupowych jak i czynników powtarzanych pomiarów,

[GLM: Słupki błędów]

obszerną analizę reszt i wykresy reszt (dla próby  uczącej  lub obliczeniowej, dla próby do oceny krzyżowej lub weryfikacji lub dla próby do prognozowania bez obserwowanych wartości zmiennej zależnej lub wielkości wyjściowej), wykresy komponentów wariancyjnych; profile użyteczności oraz optymalizację wielkości wyjściowych dla dowolnego modelu;

[GLM: Profile]

a także średnie poprawione dla tradycyjnych układów analizy kowariancji. W programie są dostępne bardzo rozbudowane i wygodne opcje służące do definiowania zaplanowanych porównań, w tym także możliwość określania kontrastów albo za pomocą tradycyjnych pleceń składniowych albo przy użyciu niezwykle prostych w użyciu (w stylu Kreatora) sekwencji „inteligentnych” okien dialogowych

[GLM Kontrasty]

(użytkownik może wprowadzać współczynniki kontrastu dla określonych w sposób czytelny etykiet poziomów czynników lub komórek (podklas) układu; po czym program wyznacza ocenę porównania na podstawie obliczonych metodę najmniejszych kwadratów ocen dla średnich ( prognozowanych ), właściwych dla aktualnego modelu. Jest to zupełnie unikalne rozwiązanie zagadnienia zaplanowanych porównań (kontrastów) w przypadku układów złożonych i niekompletnych. Program oferuje także proste sposoby testowania hipotez wyrażanych poprzez liniowe kombinacje parametrów (np. przetestowania równości szczegółowych współczynników regresji); możliwość łączenia źródeł błędu i źródeł zmienności dla efektów; rozbudowane metody przeprowadzania porównań typu  post hoc  dla efektów obiektowych a także porównanie efektów czynnikowych i efektów interakcyjnych właściwych dla modeli obserwacji uzyskiwanych w doświadczeniach z powtarzanych pomiarami: w tym: NIR Fishera, test Bonferroniego, Scheffego, HSD Tukeya, HSD dla nierównych N, Newmana-Keulsa, Duncana oraz test Dunnetta

[VGLM Post Hoc]

(łącznie z wygodnymi opcjami służącymi do estymacji błędów występujących w testach), testowanie założeń (np. test Levene'a, wykresy średnich względem odchyleń standardowych, itd.).

GRM  Ogólne modele regresji (GRM)

Moduł Ogólne modele regresji (GRM) jest wyjątkową i niezwykle elastyczną implementację ogólnego modelu liniowego. W trakcie budowania modeli dla skrajnie złożonych układów, w tym układów zawierających efekty dla predyktorów jakościowych (zmiennych objaśniających) program pozwala użytkownikowi wykorzystywać metodę krokową oraz metodę wyboru optymalnego podzbioru zmiennych. Tak więc określenie „ogólna” w nazwie Ogólne modele regresji odnosi się zarówno do stosowania technik ogólnego modelu liniowego, jak również do faktu, że w odróżnieniu od innych programów przeznaczonych do przeprowadzania regresji krokowej, GRM nie ogranicza się wyłącznie do analizy układów, w których obserwacje opisywane są jedynie za pomocą predyktorów (zmiennych objaśniających) ciągłych.

[VGSR Start]

Wybór modelu regresji metodą krokową lub metodą optymalnego podzbioru dla predyktorów ciągłych i jakościowych (modele ANOVA) w przypadku wielu zmiennych zależnych. Program GRM jest programem bardzo podobnym do modułu Ogólne modele liniowe (GLM). Oprócz dużej liczby unikalnych opcji analitycznych dostępnych w module GLM (analiza dowolnych porównań (kontrastów), testowanie hipotez użytkownika, bogaty wybór testów typu post-hoc, opcje analizy reszt, itd.) moduł GRM pozwala także na budowanie modeli za pomocą metody krokowej i metody wyboru optymalnego podzbioru zmiennych. Metody te mogą być stosowane w przypadku układów, w których występują zarówno predyktory ciągłe jak i jakościowych (tzn. układy ANOVA lub ANCOVA). Techniki wykorzystywane w module GRM zapewniają uwzględnienie efektów z jednym lub kilkoma stopniami swobody (poprzez ich umieszczenie lub usunięcie z modelu) w blokach. W szczególności GRM umożliwia budowanie modeli poprzez jednorazowe dodawanie lub eliminowanie efektów predyktorów, (efekty mogą być wprowadzane lub usuwane tylko jeden raz w trakcie procesu selekcji). Moduł GRM udostępnia także standardowe metody wielokrotnego dodawania i eliminowania efektów (selekcja postępująca i wsteczna, tzn. efekty mogą być wprowadzane lub usuwane z modelu w każdym kroku, zgodnie z kryterium selekcji opartym na statystykach F lub p) lub selekcję metodą wyboru optymalnego podzbioru zmiennych (metoda wszystkich możliwych regresji). Ta ostatnia metoda daje użytkownikowi wygodne opcje przeznaczone do weryfikacji modeli przyjmowanych w trakcie poszukiwania podzbioru (np. maksymalna lub minimalna wielkość podzbioru, statystyka CP Mallowa, R-kwadrat oraz poprawiony R dla selekcji najlepszego podzbioru zmiennych, itp.).

Wyniki. Moduł Ogólne modele regresji (GRM) oferuje wszystkie standardowe i unikalne opcje wyników opisane przy okazji opisywania modułu GLM w poprzednim fragmencie (w tym profile użyteczności, statystyki wartości prognozowanych i reszt dla próby obliczeniowej, próby do oceny krzyżowej lub próby kontrolnej lub do prognozowania, testy założeń modelu, wykresy średnich , itd.). Ponadto są także dostępne unikalne specyficzne dla regresji opcje wyników, w tym także wykresy Pareto ocen parametrów, podsumowanie (testy) całego modelu oraz opcje zawierające różne metody oceny modeli bez wyrazu wolnego, korelacje cząstkowe i semicząstkowe, itd.

GDAOgólne modele analizy dyskryminacyjnej (GDA)

Moduł Ogólne modele analizy dyskryminacyjnej stanowi zastosowanie i rozszerzenie ogólnego modelu liniowego na zagadnienia klasyfikacji. Podobnie jak moduł Analiza dyskryminacyjna, umożliwia przeprowadzania analizy dyskryminacyjnej metodą standardową i metodą krokową. GDA zawiera implementację zagadnienia analizy dyskryminacyjnej jako szczegółowego przypadku ogólnego modelu liniowego i dlatego oferuje niezwykle użyteczne techniki analityczne, które cechują się nowoczesnością, efektywnością i dużą wydajnością.

Podejście obliczeniowe i specjalne zastosowania. Tak jak w tradycyjnej analizie dyskryminacyjnej, moduł GDA pozwala stosować zmienne zależne o charakterze jakościowym. Następnie dla potrzeb analizy, przynależność grupowa (określona przez wartości zmiennej zależnej) jest kodowana do postaci zmiennych wskaźnikowych i można stosować wszystkie metody (opisanego wcześniej) modułu GRM. W oknach z wynikami jest również dostępny szeroki zakres statystyk wartości resztowych występujących w module GRM i GLM, możemy na przykład przeglądać wszystkie reszty typu regresyjnego oraz wartości przewidywane dla każdej z grup oraz wybrać określony wykres reszt. Ponadto program oblicza wszystkie szczegółowe statystyki wartości przewidywanych i klasyfikacji, które są zazwyczaj brane pod uwagę w analizie dyskryminacyjnej. Ze względu na wyjątkowość podejścia w programie STATISTICA statystyki te mogą być przeglądane w zupełnie nowy sposób. Możemy na przykład tworzyć profile użyteczności łącząc przewidywane prawdopodobieństwa a posteriori dla grup w wartość użyteczności, po czym program znajduje wartości lub kombinacje ustawień predyktorów jakościowych, które optymalizują tę wartość. Tak więc opisywany moduł zawiera zaawansowane a jednocześnie wydajne narzędzia, znajdujące zastosowanie zarówno w technikach zgłębiania danych (data mining) jak i badaniach stosowanych. Moglibyśmy na przykład wykorzystać metody Planowania doświadczeń do wygenerowania układu doświadczalnego dla zagadnienia poprawy jakości, zastosować ten układ do jakościowych danych wyjściowych (tzn. oddzielne kategorie dla zmiennej wyjściowej: „lepszy”, „akceptowalny” lub „zepsuty”) a następnie modelowania przewidywanych prawdopodobieństw a posteriori tych zmiennych wyjściowych wykorzystując zmienne swojego układu doświadczalnego.

Standardowe wyniki analizy dyskryminacyjnej. GDA daje możliwość obliczania wszystkich standardowych wyników analizy dyskryminacyjnej, w tym współczynników funkcji dyskryminacyjnych, wyników analizy kanonicznej (współczynników standaryzowanych i niestandaryzowanych, testów malejących pierwiastków kanonicznych, itp.), statystyki klasyfikacji (w tym odległości Mahalanobisa, prawdopodobieństwa a posteriori, rzeczywistą klasyfikację przypadków w próbie przeznaczonej do analizy i próbie walidacyjnej, macierz błędnych klasyfikacji, itp.) i inne.

Wyjątkowe własności modułu GDA, aktualnie dostępne tylko w programie STATISTICA. Oprócz wymienionych wcześniej opcji GDA zawiera liczne wyjątkowe własności i wyniki:

Określanie predyktorów i efektów; budowa modelu:

1. Możliwość wprowadzania do modelu predyktorów jakościowych i ciągłych; w odróżnieniu od tradycyjnej analizy dyskryminacyjnej (która ogranicza się do predyktorów jakościowych) moduł GDA pozwala określać proste i bardziej złożone układy typu ANOVA lub ANCOVA, np. mieszaniny predyktorów ciągłych i jakościowych, układy wielomianowe (powierzchni odpowiedzi), układy czynnikowe, układy zagnieżdżone i inne.

2. Możliwość uwzględnienia efektów o wielu stopniach swobody w trakcie krokowego wyboru; wyrażenia tworzące zbiór predyktorów (zawierające nie tylko predyktory ciągłe o jednym stopniu swobody ale również efekty o wielu stopniach swobody) możemy wykorzystywać w trakcie krokowej analizy funkcji dyskryminacyjnej. Efekty o wielu stopniach swobody są zawsze wprowadzane lub usuwane w postaci bloków.

3. Wybór efektów metodą najlepszego podzbioru; efekty o jednym lub wielu stopniach swobody mogą być określane w przypadku przeprowadzania analizy dyskryminacyjnej metodą najlepszego podzbioru. Program wybiera efekty (do podanej przez użytkownika liczby efektów), które dają najlepszą dyskryminację grup.

4. Wybór efektów w oparciu o wskaźnik błędnych klasyfikacji; moduł GDA umożliwia użytkownikowi budowanie modelu (wybór efektów) nie tylko w oparciu o tradycyjnie stosowane kryteria (np. poziom p do wprowadzania lub usuwania, lambda Wilksa) ale również na bazie wskaźników błędnych klasyfikacji. Innymi słowy mówiąc program wybiera te efekty, które maksymalizują trafność klasyfikacji dla przypadków, na podstawie których były obliczane oceny parametrów lub dla próby przeznaczonej do oceny krzyżowej (aby uniknąć efektu przeuczenia). Techniki te lokują moduł GDA na równi z narzędziami do data mining takimi jak sieci neuronowe, które mogą być stosowane jako alternatywa w stosunku do innych podobnych technik (drzew klasyfikacyjnych, specjalnie dedykowanych sieci neuronowych, itp.; moduł GDA jest zazwyczaj szybszy od tych technik, ponieważ opiera się na bardziej efektywnym rozwiązaniu jaki jest Ogólny model liniowy).

Statystyki wynikowe i tworzenie profili użyteczności:

1. Szczegółowe wyniki, statystyki diagnostyczne i wykresy; oprócz standardowych wyników moduł GDA dostarcza olbrzymią liczbę dodatkowych informacji, które pomagają użytkownikowi ocenić adekwatność wybranego modelu analizy dyskryminacyjnej (statystyki opisowe i wykresy, odległości Mahalanobisa, odległości Cooka oraz wartości wpływowe dla predyktorów, itp.).

2. Tworzenie profili oczekiwanych klasyfikacji; moduł GDA zawiera opcje tworzenia profili odpowiedzi, takie same jak moduły GLM i GRM; umożliwiają one użytkownikowi szybkie określenie wartości (lub poziomów) predyktorów które maksymalizują prawdopodobieństwo klasyfikacji a posteriori dla pojedynczej grupy lub zbioru grup występujących w analizie; użytkownik może w pewnym sensie szybko określić typowe profile wartości predyktorów (lub poziomy w przypadku predyktorów jakościowych), które identyfikuję grupę (lub zbiór grup) w analizie.

Uwaga na temat modeli zawierających predyktory jakościowe i innych zaawansowanych technik. Moduł Ogólna analiza dyskryminacyjna zawiera opcje, które czynią z tej techniki niezwykle efektywne narzędzie do zagadnień klasyfikacyjnych i technik zgłębiania danych (data mining). Jednakże, zdecydowana większość podręczników, w których jest omawiana analiza funkcji dyskryminacyjnych, ogranicza się do opisu analizy prostej i krokowej i to tylko dla predyktorów ciągłych o jednym stopniu swobody. W literaturze brakuje natomiast opracowań dotyczących zagadnienia odporności i efektywności tych technik, w przypadku ich uogólnienia do postaci, która została zaimplementowana w module GDA. Wykorzystanie metody najlepszego podzbioru (w szczególności w powiązaniu z predyktorami jakościowymi lub w przypadku wskaźników błędnych klasyfikacji w próbie przeznaczonej do oceny krzyżowej) do wyboru najlepszego podzbioru predyktorów powinno być traktowane bardziej jako metoda heurystycznego poszukiwania niż technika analizy statystycznej.

GLZ  Uogólnione modele liniowe i nieliniowe (GLZ)

Uogólnione modele liniowe umożliwiają elastyczne poszukiwanie liniowych i nieliniowych zależności pomiędzy zmiennymi. Zmienne objaśniane mogą być ciągłe lub jakościowe (dychotomiczne lub wielowartościowe) a zmienne objaśniające (predyktory) mogą być także jakościowe (skategoryzowane) lub ciągłe.
Wiele szeroko wykorzystywanych rodzajów analiz, takich jak regresja dwumianowa lub wielomianowa albo regresja logitowa lub probitowa bądź też modele Teorii wykrywania sygnałów (SDT) może być uważanych za specjalne zastosowania uogólnionych modeli liniowych. Interfejsy użytkownika, metody definiowania układów oraz interakcyjność programu jest taka sama jak ta, która została zaimplementowana w pozostałych trzech opisanych w tym dokumencie modułach (GLM, GRM, GDA, PLS). Przykładowo jest możliwe łatwe określanie układów analizowanych metodą ANOVA lub ANCOVA, planów powierzchni odpowiedzi (reakcji), planu badania powierzchni odpowiedzi (reakcji) dla mieszanin, itd., dzięki czemu nawet początkujący użytkownicy nie powinni mieć trudności przy wykorzystywaniu uogólnionych modeli liniowych do analizy swoich danych.

Uogólnione modele liniowe i nieliniowe

Modele i funkcje wiążące. Dla zmiennej objaśnianej można określić szeroki zakres rozkładów (należących do rodziny rozkładów wykładniczych): w tym rozkład normalny, Poissona, gamma, dwumianowy, wielomianowy, wielomianowy dla zmiennej porządkowej oraz rozkład Gaussa odwrotny. Dodatkowo istnieje możliwość określenia charakteru powiązań łączących predyktory (zmienne objaśniające) ze zmiennymi objaśnianymi poprzez wybór tzw. funkcji wiążącej z obszernej listy funkcji (powszechnie używanych i stosowanych do specjalnych celów). Dostępne funkcje powiązania obejmują: funkcję logarytmiczną, potęgową, identycznościową, logitową, probitową, funkcje typu log-log dopełnienia oraz funkcje typu log-log. W odróżnieniu od innych modeli nieliniowych, modele te mogą zostać dopasowane za pomocą szybkich procedur estymacji oraz umożliwiają czytelną interpretację (podobną jak w przypadku ogólnych modeli liniowych), stąd też są szeroko stosowane do analizy nieliniowych współzależności w zagadnieniach naukowych i badaniach stosowanych.

Selekcja predyktorów ciągłych i jakościowych (skategoryzowanych) metodą krokową i metodą wyboru optymalnego podzbioru zmiennych (modele ANOVA). Oprócz standardowych technik dopasowywania modelu moduł GLZ oferuje także unikalne opcje do przeprowadzania analizy eksploracyjnej, w tym metody budowy modeli takie jak metoda jednorazowego dodawania lub usuwania efektów (efekty mogą być tylko jeden raz umieszczane lub usuwane w trakcie przeprowadzania selekcji), Moduł GLZ udostępnia także standardowe metody selekcji krokowej, zgodnie z którą efekty mogą być wprowadzane lub usuwane z modelu w każdym kroku, (zgodnie z kryterium opartym na wartości p do wprowadzania lub usuwania efektów). Ponadto, możemy także skorzystać tu z metody wyboru optymalnego podzbioru zmiennych (metoda wszystkich możliwych regresji, wykorzystująca jako kryterium wyboru statystykę uzyskaną metodą największej wiarogodności, lub kryterium informacji Akaike). Te niezwykle potężne metody mogą być wykorzystywane zarówno dla predyktorów jakościowych (w modelach ANOVA; efekty będą usuwane lub wprowadzane do modelu pojedynczo lub w postaci bloków o wielu parametrach) jak i predyktorów ciągłych. Pozwala to istotnie skrócić czas potrzebny do budowy odpowiednich modeli dla danych o bardziej złożonej strukturze.

Wyniki. Moduł Uogólnione modele liniowe i nieliniowe pozwala wyliczać wszystkie standardowe statystyki wynikowe, w tym wartości funkcji testowych testów opartych na ilorazie wiarygodności, testów badających istotność parametrów modelu (efektów), oceny parametrów, błędy standardowe ocen oraz przedziały ufności, itd. Ponadto dla układów analizowanych metodami ANOVA mogą być wyliczane tabele i wykresy ocen średnich (odpowiedniki ocen wyliczanych w oparciu o metodę najmniejszych kwadratów, podobnie jak to było wyliczane w ogólnym modelu liniowym) wraz z ocenami ich błędów standardowych. Moduł GLZ zawiera również bogaty wybór narzędzi służących do sprawdzania dopasowania modelu takich jak arkusze wyników i wykresy dla określonych w różny sposób reszt oraz statystyk do wykrywania odstających obserwacji, w tym surowe reszty, reszty Pearsona, reszty odchyleń, studentyzowane reszty Pearsona, studentyzowane reszty odchyleń oraz uogólnione odległości Cooka, itd. Jak to wcześniej opisano statystyki wartości prognozowanych i reszt mogą zostać obliczone dla obserwacji, które zostały użyte do dopasowania modelu oraz dla innych obserwacji (tzn. dla tych, które tworzą próbę do oceny krzyżowej).

PLS  Modele cząstkowych najmniejszych kwadratów (PLS)

Zastosowanie metod cząstkowych najmniejszych kwadratów do analizy modeli liniowych zostało spopularyzowane dopiero w ostatnich latach i w dalszym ciągu jest ono tematem badań. Moduł Modele cząstkowych najmniejszych kwadratów (PLS) w programie STATISTICA oferuje możliwość wyboru algorytmów tej metody do analizy modeli jednowymiarowych i wielowymiarowych. Zewnętrzny wygląd interfejsu użytkownika jest bardzo podobny do tego, który występuje w przypadku opisywanych wcześniej modułów: GLM, GRM, GDA i GLZ. Wszystkie omawiane wcześniej własności dotyczą również modułu PLS (np. sposoby definiowania modeli, automatyczna aktualizacja wyników, itd.). Ponadto, dzięki pełnej implementacji sposobu wyboru trzech typów interfejsu użytkownika (patrz wyżej), stosowanych także w module GRM, GDA oraz GLZ, bardzo łatwo można zdefiniować modele w jednym module (np. w module GLM) a następnie przeanalizować go za pomocą modułów PLS (lub GLZ). Ta unikalna elastyczność pozwala nawet początkującemu użytkownikowi wykorzystać te użyteczne techniki do swoich problemów.

Modele cząstkowych najmniejszych kwadratów

Model przeparametryzowany i model z sigma-ograniczeniami dla predyktorów jakościowych (skategoryzowanych).

Moduł PLS, podobnie jak moduły GLM i GLZ, w przypadku predyktorów skategoryzowanych oferuje metodę analizy modelu (ANOVA) zarówno metodę właściwą dla modelu przeparametryzowanego jak i dla modelu z sigma-ograniczeniami. W modelach analizowanych cząstkową metodę najmniejszych kwadratów szczególnie korzystny wydaje się być przypadek analizy modelu z wykorzystaniem restrykcji nałożonych na sumy parametrów. Uzyskujemy wtedy oceny, częściowo zredukowane i uproszczone poprzez te restrykcje.

Algorytmy. W module PLS zaimplementowano dwa najbardziej ogólne algorytmy przeznaczone do analizy cząstkową metodą najmniejszych kwadratów: SIMPLS i NIPALS.

Wyniki. Moduł PLS wykonuje wszystkie niezbędne obliczenia związane z analizą danych cząstkową metodą najmniejszych kwadratów. Dodatkowo, oferuje dużą liczbę dodatkowych wyników i wykresów, które nie są zazwyczaj dostępne w innych tego typu programach; na przykład wykresy wartości parametrów w funkcji liczby komponentów, dwuwymiarowe wykresy dla wszystkich uzyskanych poprzez moduł wyników (parametrów, wartości wejściowych poziomów czynników, itp.). dwuwymiarowe wykresy dla reszt , itd. Podobnie jak moduły GLM, GRM i GLZ oferuje użytkownikowi bogate opcje analizy reszt. Statystyki dotyczące wartości prognozowanych i analizy reszt mogą być obliczane oddzielnie dla obserwacji na podstawie których dopasowywano model (próba  ucząca ), oddzielnie dla obserwacji wyłączonych z obliczeń dopasowania modelu (próba do oceny krzyżowej lub weryfikacji) oraz oddzielnie dla przypadków dla których brakuje danych dotyczących zmiennych zależnych (próba do prognozowania).