Analizy wielowymiarowe


ANALIZA SKUPIEŃ

[Ekran STATISTICA]

Ten moduł zawiera obszerną implientację metod grupowania (metodą k-średnich, grupowanie hierarchiczne oraz łączenie dwuwymiarowe). Program może przetwarzać albo dane surowe, albo macierze miar odległości (np. macierze korelacji). Użytkownik może grupować przypadki, zmienne lub jedne i drugie w oparciu o szeroki zestaw miar odległości (w tym odległości euklidesowe, kwadraty odległości euklidesowych, miejskie (Manhattan), Czebyszewa, potęgowe, procent niezgodności oraz 1-r) i reguły amalgamacji/wiązania (w tym metodę pojedynczego, pełnego wiązania, ważonych i nieważonych średnich lub centroidów grupowych, metodę Warda i inne). Macierze odległości mogą być zachowywane do dalszych analiz w innych modułach STATISTICA. W grupowaniu metodą k-średnich użytkownik ma pełną kontrolę nad wstępnymi centrami skupień. Można przetwarzać skrajnie duże układy analizy; na przykład łączenie hierarchiczne (drzewkowe) może analizować macierze zawierające ponad 1000 zmiennych lub ponad milion odległości. Oprócz standardowych wyników analizy skupień, program może podawać obszerny zestaw statystyk opisowych i rozszerzonych diagnostyk (np. pełny plan amalgamacji z poziomami spójności w grupowaniu hierarchicznym, tablicę ANOVA w grupowaniu metodą k-średnich). Dane o przynależności do skupienia można dołączyć do bieżącego pliku danych do dalszej analizy. Opcje graficzne w module Analizy skupień obejmują modyfikowalne diagramy drzewkowe, dyskretne dwuwymiarowe wykresy macierzowe (podobne do wykresów warstwicowych), wykresy planów amalgamacji, wykresy średnich w grupowaniu metodą k-średnich i wiele innych.

ANALIZA CZYNNIKOWA

[Ekran STATISTICA]

Moduł Analiza czynnikowa obejmuje szeroki zestaw statystyk i opcji i stanowi wszechstronną implementację czynnikowych (i hierarchicznych czynnikowych) technik analitycznych z rozbudowanymi diagnostykami i wieloma wykresami analitycznymi i eksploracyjnymi. Wykonuje analizę składowych głównych, zwykłą i hierarchiczną (ukośną) analizę czynnikową i może obsługiwać skrajnie duże zagadnienia analityczne (np. uwzględniające tysiące zmiennych). Konfirmacyjną analizę czynnikową (jak również analizę ścieżkową) można wykonać w module Modelowanie równań strukturalnych i analiza ścieżkowa (SEPATH).

ANALIZA SKŁADOWYCH GŁÓWNYCH i KLASYFIKACJA

Program STATISTICA zawiera również specjalny moduł przeznaczony do analizy składowych głównych i klasyfikacji. Uzyskiwane w nim wyniki obejmują wartości własne (zwykłe, skumulowane i względne), ładunki czynnikowe, wartości czynnikowe (które można dołączać do wejściowego pliku danych, przedstawiać graficznie w postaci ikon i interakcyjnie przekodowywać) oraz wiele innych statystyk i wartości diagnostycznych o charakterze technicznym. Przestrzeń czynnikowa może być wykreślana i przeglądana „przekrój za przekrojem” na dwuwymiarowych (2W) lub trójwymiarowych (3W) wykresach rozrzutu z etykietami punktów-zmiennych. Inne pokrewne wykresy to: wykresy osypiska, różnorodne wykresy rozrzutu, wykresy słupkowe, liniowe i inne. po znalezieniu rozwiązania czynnikowego, użytkownik może przeliczyć (tzn. odtworzyć) macierz korelacji na podstawie odpowiedniej liczby czynników w celu oceny dopasowania modelu czynnikowego. W charakterze wejścia można wykorzystać zarówno pliki surowych danych jak i macierze korelacji. Konfirmacyjną analizę czynnikową i inne pokrewne analizy można wykonać w module Modelowanie równań strukturalnych i analiza ścieżkowa (SEPATH). W module tym specjalny Kreator konfirmacyjnej analizy czynnikowej prowadzi użytkownika, krok po kroku przez proces definiowania modelu.

ANALIZA KORELACJI KANONICZNEJ

[Ekran STATISTICA]

Moduł ten oferuje obszerną implementację procedur analizy kanonicznej. Przetwarza on pliki danych surowych lub macierze korelacji i oblicza wszystkie standardowe statystyki korelacji kanonicznej (w tym wektory własne, wartości własne, współczynniki redundancji, wagi kanoniczne, ładunki, wyodrębnione wariancje, testy istotności dla każdego pierwiastka itd.) oraz rozszerzone diagnostyki. Dla każdego przypadku można obliczyć wartości zmiennych kanonicznych i przedstawić je na zintegrowanych wykresach obrazkowych. Moduł Analizy kanonicznej obejmuje także wiele zintegrowanych wykresów (w tym wykresy wartości własnych, korelacji kanonicznych, wykresy rozrzutu zmiennych kanonicznych oraz wiele innych). Zauważmy, że konfirmacyjne analizy zależności strukturalnych między zmiennymi ukrytymi można także wykonać za pomocą modułu SEPATH (Modelowanie równań strukturalnych i analiza ścieżkowa). Ponadto w module Ogólne modele regresji (GRM) są dostępne metody krokowe i metoda wyboru najlepszego podzbioru predyktorów dla układów ANOVA/MANCOVA (z wieloma zmiennymi zależnymi).

ANALIZA RZETELNOŚCI i POZYCJI

[Ekran STATISTICA]

Moduł ten zawiera obszerny zestaw procedur służących do budowania i oceny badań sondażowych i kwestionariuszy. Tak jak we wszystkich innych modułach programu STATISTICA, można tu analizować wyjątkowo duże układy. Użytkownik może obliczać statystyki rzetelności dla wszystkich pozycji skali, interakcyjnie wybierać podzbiory lub uzyskiwać porównania między podzbiorami pozycji korzystając z metody „podziału połówkowego” (lub podziału na części). W jednym przebiegu można ocenić rzetelność skali sumarycznej oraz podskal. Przy interakcyjnym usuwaniu pozycji, nowa rzetelność jest obliczana natychmiast bez potrzeby powtórnego przetwarzania pliku danych. Wyniki obejmują macierze korelacji i statystyki opisowe pozycji, alfę Cronbacha, standaryzowaną alfę, średnią korelację między pozycjami, pełną tabelę ANOVA dla skali, pełny zestaw statystyk dla wszystkich pozycji (łącznie z wielorakim R dla wszystkich pozycji), rzetelność połówkową i korelację między dwoma połówkami skorygowaną ze względu na tłumienie. Wprowadzono zestaw wykresów (łącznie z rozmaitymi zintegrowanymi wykresami rozrzutu, histogramami, wykresami liniowymi i innymi) oraz interakcyjnych procedur typu „Co się stanie, jeśli…”, które pomagają konstruować skalę. Na przykład, użytkownik może obliczyć oczekiwaną rzetelność po dodaniu do skali określonej liczby pozycji i może oszacować liczbę pozycji, którą należałoby dodać do skali, aby osiągnąć określoną rzetelność. Ponadto użytkownik może szacować korelacje skorygowane ze względu na tłumienie między bieżącą skalą a inną miarą (przy danej rzetelności bieżącej skali).

DRZEWA KLASYFIKACYJNE

[Ekran STATISTICA]

Moduł Drzewa klasyfikacyjne zawiera obszerną implementację rozwijanych od niedawna algorytmów, przeznaczonych do efektywnego tworzenia drzew klasyfikacyjnych i testowania ich odporności (drzewo klasyfikacyjne oznacza regułę wykorzystywaną w trakcie określania przynależności danego obiektu do klasy, na podstawie wartości pewnych zmiennych predykcyjnych). Zaawansowane metody, przeznaczone do tworzenia drzew klasyfikacyjnych, w tym wygodne opcje służące do budowania modelu oraz interakcyjne narzędzia do eksploracji drzew są także dostępne w modułach: Ogólne modele drzew klasyfikacyjnych i regresyjnych (GTrees) i Ogólne modele CHAID (Chi-square Automatic Interaction Detection). W procesie tworzenia drzew klasyfikacyjnych można wykorzystywać zarówno predyktory nominalne (np. płeć) jak również predyktory porządkowe (np. poziom wykształcenia) lub też kombinacje obydwu typów zmiennych.[Drzewa Klasyfikacyjne] Można także stosować podziały jednowymiarowe lub liniowe kombinacje podziałów. Opcje analizy umożliwiają przeprowadzanie podziałów wyczerpujących (takich jak w programach THAID oraz CART) lub podziałów opierających się na dyskryminacji; nieobciążony sposób doboru zmiennych (jak w programie QUEST); stosowanie kryteriów bezpośredniego zatrzymania (jak w programie FACT) lub przycinanie odwrotne (jak w programie CART); przycinanie w oparciu o wskaźniki błędnych klasyfikacji albo funkcje odchyleń oraz wyznaczanie uogólnionych miar dobroci dopasowania chi-kwadrat, G-kwadrat lub miary Giniego. Istnieje także możliwość określania równych prawdopodobieństw a priori i kosztów błędnych klasyfikacji, ich estymacji na podstawie danych lub podania wartości określonych przez użytkownika. Użytkownik może określać wielkości v dla v-krotnego sprawdzania krzyżowego podczas budowania drzewa, v dla v-krotnego sprawdzania krzyżowego w przypadku estymacji błędu, regułę błędu standardowego, minimalną liczbę węzłów przed przycinaniem, wartość początkową generatora liczb losowych oraz wartość alfa dla selekcji zmiennych. Program zawiera również zintegrowane opcje graficzne służące do eksploracji danych wejściowych i końcowych.
Patrz także: Ogólne modele drzew klasyfikacyjnych i regresyjnych (GTrees) oraz Ogólne modele CHAID (Chi-square Automatic Interaction Detection).

ANALIZA KORESPONDENCJI

[Ekran STATISTICA]

Ten moduł zawiera pełną implementację technik prostej i wielowymiarowej analizy korespondencji i może służyć do analizy nawet skrajnie dużych tabel. Program akceptuje pliki danych zawierające zmienne grupujące (kodujące), na podstawie których tworzy tablice kontyngencji, ale także pliki zawierające częstości (lub inne miary odpowiedniości, powiązania, podobieństwa, asocjacji itp.) i zmienne kodujące, identyfikujące komórki tablicy wejściowej, jak również pliki zawierające jedynie częstości (lub inne miary odpowiedniości), co umożliwia bezpośrednie wprowadzenie i analizę gotowej tablicy kontyngencji. Przy wielowymiarowej analizie korespondencji dane wejściowe można również podać w postaci tablicy Burta. Program wyznacza tablice różnego rodzaju, w tym tablice zawierające procentowe rozkłady w wierszach, w kolumnach, rozkłady łączne, liczebności oczekiwane, różnice między liczebnościami zaobserwowanymi a oczekiwanymi, odchylenia standaryzowane, oraz udział w ogólnej wartości statystyki chi-kwadrat. Moduł Analizy korespondencji oblicza uogólnione wartości własne, wektory własne oraz podaje wszystkie standardowe wielkości diagnostyczne, w tym wartości osobliwe, wartości własne i prezentuje je wraz z rozkładem bezwładności dla każdego wymiaru. Użytkownik może określić liczbę wymiarów układu wynikowego lub minimalny procent bezwładności jaki chce wyjaśnić. Program wylicza współrzędne punktów reprezentujących wiersze i kolumny. Użytkownik może wybrać jedną z czterech metod standaryzacji: wierszową, kolumnową, wierszowo-kolumnową lub kanoniczną. Dla każdego wymiaru i każdego punktu program wylicza bezwładność, jakość i kwadrat cosinusa. Dodatkowo, dostępne są (w arkuszach) macierze uogólnionych wektorów osobliwych, które poprzez STATISTICA Visual Basic można wykorzystać na przykład dla zastosowania nietypowej metody wyznaczania współrzędnych. Użytkownik może wyznaczyć współrzędne i odpowiednie statystyki (jakość i kwadrat cosinusa) dla wprowadzonych dodatkowych punktów (wierszy lub kolumn) i porównać wyniki z rezultatami uzyskanymi dla wierszy i kolumn podstawowej tablicy kontyngencji. Punkty dodatkowe można wprowadzać również przy wielowymiarowej analizie korespondencji. Na podstawie każdej z tablic można sporządzić trójwymiarowe histogramy, a ponadto wykresy wartości własnych oraz jedno-, dwu- i trójwymiarowe diagramy rozrzutu punktów reprezentujących wiersze lub kolumny. Punkty te można również przedstawić na wspólnym wykresie wraz z punktami dodatkowymi, przy czym te trzy rodzaje punktów oznaczane są odmiennymi kolorami i symbolami. Wszystkie punkty są opisywane, a długość (liczba znaków) tych opisów może być określana przez użytkownika.

SKALOWANIE WIELOWYMIAROWE

[Ekran STATISTICA]

Moduł Skalowanie wielowymiarowe obejmuje pełną implementację (niemetrycznego) skalowania wielowymiarowego. Można analizować macierze podobieństw, niepodobieństw lub korelacji między zmiennymi (tzn. „obiektami” lub przypadkami). Konfiguracja początkowa może być obliczona przez program (przy pomocy analizy składowych głównych) lub określona przez użytkownika. Program wykorzystuje procedurę iteracyjną do minimalizacji wartości stressu i współczynnika alienacji. Użytkownik może kontrolować iteracje i sprawdzać zmiany tych wartości. Konfigurację końcową można przeglądać w arkuszach lub na dwu- lub trójwymiarowych wykresach rozrzutu dla przestrzeni wielowymiarowej z opisanymi punktami-obiektami. Wyniki zawierają wartości surowe stressu (surowe F), współczynnik stressu Kruskala S i współczynnik alienacji. Dobroć dopasowania można ocenić przy pomocy diagramów Sheparda (z wartościami d-hat i d-star). Podobnie jak w przypadku innych wyników w programie STATISTICA, końcową konfigurację można zapisać w pliku danych.

ANALIZA DYSKRYMINACYJNA

[Ekran STATISTICA]

Moduł analizy dyskryminacyjnej jest pełną implementacją wielowymiarowej krokowej analizy funkcji dyskryminacyjnej. STATISTICA zawiera także moduł Ogólne modele analizy dyskryminacyjnej (opisany poniżej), który służy do dopasowywania układów podobnych do ANOVA/ANCOVA dla skategoryzowanych zmiennych zależnych oraz do przeprowadzania różnego rodzaju analiz bardziej zaawansowanych (np. doboru predyktorów metodą najlepszego podzbioru, profilowania prawdopodobieństw a posteriori, itp.). Program wykonuje postępujące i wsteczne analizy krokowe lub wprowadza do modelu bloki zmiennych określone przez użytkownika. Oprócz wielu możliwości graficznych i diagnostycznych do opisu funkcji dyskryminacyjnych, program ma szeroki zakres opcji i statystyk służących do klasyfikowania starych i nowych przypadków (na użytek oceny modelu). Wyniki obejmują odpowiednie wartości lambdy Wilksa, lambdy cząstkowe, F wprowadzenia (lub usunięcia), poziomy p, wartości tolerancji i R-kwadrat. Program wykonuje pełną analizę kanoniczną i podaje surowe i skumulowane wartości własne dla wszystkich pierwiastków oraz odpowiadające im poziomy p, surowe i standaryzowane współczynniki (kanonicznej) funkcji dyskryminacyjnej, macierz współczynników struktury (ładunki czynnikowe), średnie dla funkcji dyskryminacyjnych i wartości dyskryminacyjne dla każdego przypadku (które można automatycznie dołączyć do pliku danych). Zintegrowane wykresy obejmują histogramy wartości kanonicznych w każdej grupie (i we wszystkich grupach łącznie), specjalne wykresy rozrzutu dla par zmiennych kanonicznych (gdzie przynależność poszczególnych przypadków do grupy jest wyraźnie oznaczona), obszerny zestaw wykresów skategoryzowanych (wielokrotnych) pozwalających na eksplorację rozkładu i zależności między zmiennymi zależnymi w grupach (włączając wielokrotne wykresy ramka i wąsy, histogramy, wykresy punktowe i wykresy normalności prawdopodobieństwa) i wiele innych. Moduł Analizy dyskryminacyjnej oblicza także standardowe funkcje klasyfikacyjne dla każdej grupy. Klasyfikacje przypadków można przeglądać w kategoriach odległości Mahalanobisa, prawdopodobieństw a posteriori lub faktycznych klasyfikacji, a wartości poszczególnych przypadków można przedstawić na eksploracyjnych wykresach obrazkowych lub innych wykresach wielowymiarowych zintegrowanych bezpośrednio z arkuszami wyników. Wszystkie te wartości można automatycznie dołączyć do bieżącego pliku danych do dalszych analiz. Można także wyświetlić sumaryczną macierz klasyfikacyjną podającą liczbę i procenty dla poprawnie sklasyfikowanych przypadków. Użytkownik ma kilka możliwości określenia prawdopodobieństw klasyfikacyjnych a priori i może zdefiniować zestaw warunków włączenia lub wyłączenia wybranych przypadków z klasyfikacji (aby na przykład ocenić jakość funkcji dyskryminacyjnych na nowej próbie).

OGÓLNE MODELE ANALIZY DYSKRYMINACYJNEJ (GDA)

Moduł ten stanowi zastosowanie i rozszerzenie ogólnego modelu liniowego na zagadnienia klasyfikacji. Podobnie jak moduł Analizy dyskryminacyjnej, umożliwia przeprowadzania analizy dyskryminacyjnej metodą standardową i metodą krokową. GDA zawiera implementację zagadnienia analizy dyskryminacyjnej jako szczegółowego przypadku ogólnego modelu liniowego i dlatego oferuje niezwykle użyteczne techniki analityczne, które cechują się nowoczesnością, efektywnością i dużą wydajnością. Tak jak w tradycyjnej analizie dyskryminacyjnej, moduł GDA pozwala stosować zmiene zależne o charakterze jakościowym. Następnie dla potrzeb analizy, przynależność grupowa (określona przez wartości zmienej zależnej) jest kodowana do postaci zmiennych wskaźnikowych i można stosować wszystie metody modułu GRM. W oknach z wynikami jest również dostępny szeroki zakres statystyk wartości resztowych występujących w module GRM i GLM. Opisywany moduł zawiera zaawansowane a jednocześnie wydajne narzędzia, znajdujące zastosowanie zarówno w technikach zgłębiania danych (data mining) jak i badaniach stosowanych. GDA daje możliwość obliczania wszystkich standardowych wyników analizy dyskryminacyjnej, w tym współczynników funkcji dyskryminacyjnych, wyników analizy kanonicznej (współczynników standaryzowanych i niestandaryzowanych, testów malejących pierwiastków kanonicznych, itp.), statystyki klasyfikacji (w tym odległości Mahalanobisa, prawdopodobieństwa a posteriori, rzeczywistą klasyfikację przypadków w próbie przeznaczonej do analizy i próbie walidacyjnej, macierz błędnych klasyfikacji, itp.) i inne.