Statistica
Dane Wiedza Sukces

Modele Zaawansowane

Pakiet STATISTICA Modele zaawansowane zawiera szeroki wybór najbardziej zaawansowanych, spośród dostępnych na rynku, narzędzi modelowania współzależności liniowych i nieliniowych, które umożliwiają operowanie na predyktorach ciągłych i jakościowych, uwzględnianie interakcji, tworzenie modeli hierarchicznych oraz możliwości automatycznego wyboru modeli. Wszystkie te narzędzia dostępne są w polskojęzycznym środowisku użytkownika. Ponadto pozwala obliczać komponenty wariancyjne, analizować dane o postaci szeregów czasowych oraz stosować wiele innych metod. Wszystkie analizy są wspomagane doskonałą, interakcyjną grafiką oraz mają wbudowany język Visual Basic. W skład tego pakietu wchodzą moduły:

ROZKŁADY i SYMULACJE

[ROZKŁADY i SYMULACJE]

Moduł Rozkłady i symulacja (Distributions & Simulation) służy do automatycznego dopasowania do danych rozmaitych rozkładów oraz sprawdzenia dobroci dopasowania. Analizę można wykonać dla pojedynczej zmiennej lub całej listy zmiennych. do danych możemy dopasowywać standardowe rozkłady (normalny, połówkowy normalny, log-normalny, Weibulla itp.), jak również specjalistyczne, takie jak Johnsona, mieszanka rozkładów normalnych, uogólniony rozkład Pareto, uogólniony rozkład wartości ekstremalnej. Program automatycznie porządkuje dopasowane rozkłady według dobroci dopasowania.

Dopasowane do zmiennych rozkłady i ich macierz korelacji można zapisać i następnie wykorzystać do generowania wartości zmiennych pochodzących z odpowiedniego rozkładu z zachowaniem korelacji między zmiennymi. Dzięki temu moduł Rozkłady i symulacja nie tylko szybko i wygodnie znajduje rozkłady zmiennych, ale również jest w stanie wygenerować nowe dane z zachowaniem rozkładów poszczególnych zmiennych oraz korelacji między nimi. do generowania danych wykorzystywane są najnowocześniejsze techniki symulacji, takie jak metoda Latin-Hypercube.

Symulacyjne podejście wykorzystywane jest z powodzeniem w wielu dziedzinach, w tym w badaniu niezawodności, nowoczesnym planowaniu doświadczeń (DOE) i modelowaniu ryzyka.

Przykładowo przypuśćmy, że dla danej produkcji zidentyfikowano trzy ważne cechy jakościowe. Ze względu na sposób tworzenia produktu, jeżeli suma pierwszych dwóch cech jakościowych jest większa niż podwojona wartość trzeciej cechy, to produkt uznaje się za wadliwy. Zamiast czekać na napływające dane, możemy dopasować rozkład do zaobserwowanych danych, dokonać symulacji i wyciągnąć wnioski (jak np. procent braków) w oparciu o przeprowadzoną symulację. Mogą one nakierować inżynierów na dokonanie pewnych zmian w procesie produkcji.

KOMPONENTY WARIANCYJNE i MODEL MIESZANY ANOVA/ANCOVA

[Ekran STATISTICA]

Komponenty wariancyjne i model mieszany ANOVA/ANCOVA to specjalistyczny moduł przeznaczony do analizy układów z efektami losowymi i czynnikami działającymi na wielu poziomach. Opcje przeznaczone do operowania na efektach losowych oraz do estymacji komponentów wariancyjnych są także dostępne w module Ogólne modele liniowe. Efekty (czynniki) losowe często występują w badaniach prowadzonych w przemyśle, kiedy poziomy czynnika reprezentują wartości pochodzące ze zmiennej losowej (w przeciwieństwie do sytuacji w której eksperymentator celowo wybiera lub ustala poziomy działania czynnika). Moduł Komponenty wariancyjne umożliwia analizowanie układów z dowolnymi kombinacjami efektów stałych, efektów losowych oraz zmiennych towarzyszących. Istnieje możliwość analizy skrajnie dużych układów ANOVA/ANCOVA: czynniki mogą działać na kilkuset poziomach. Program pozwala przeprowadzać analizę standardowych układów czynnikowych (kompletnie zrandomizowanych) jak również układów zagnieżdżonych hierarchicznie oraz obliczać sumy kwadratów typu I, IIIII oraz średnie kwadraty dla efektów występujących w modelu. Ponadto możemy wyliczać elementy tabeli oczekiwanych średnich kwadratów dla efektów występujących w układzie, komponenty wariancyjne dla efektów losowych w modelu, współczynniki dla syntezy mianownika i kompletną tablicę ANOVA z testami opartymi na syntetyzowanych sumach kwadratów dla błędu oraz liczbami stopni swobody (przy użyciu metody Satterhwaite'a). Uwzględniono także inne metody estymacji komponentów wariancyjnych (np. metodę MIVQUE0, metodę największej wiarygodności [ML], metodę największej wiarygodności ograniczoną [REML]). W przypadku estymacji metodą największej wiarygodności mogą być wykorzystywane algorytmy Newtona-Raphsona i Fishera a podczas estymacji model nie jest arbitralnie zmieniany (redukowany) tak aby uwzględnić sytuację gdy większość komponentów wynosi zero lub jest bliska zeru. Dostępnych jest także kilka opcji służących do przeglądania ważonych i nieważonych średnich brzegowych oraz odpowiadających im przedziałów ufności. do wizualizacji rezultatów można wykorzystywać bogate możliwości graficzne.

ANALIZA CZASU PRZEŻYCIA i AWARYJNOŚCI

[Ekran STATISTICA]

Moduł ten stanowi obszerną implementację różnych technik przeznaczonych do analizy danych uciętych w badaniach społecznych, biologicznych i medycznych, a także procedur stosowanych w inżynierii i marketingu (np. kontrola jakości, ocena niezawodności). Oprócz obliczania tablic trwania życia z rozmaitymi statystykami opisowymi i estymatorami limitu iloczynowego Kaplana-Meiera, użytkownik może porównywać funkcje przeżycia w różnych grupach korzystając z obszernego zestawu metod (takich jak test Gehana, test F Coxa, test Coxa-Mantela, test log-rang czy też uogólnienie testu Wilcoxona wg Peto i Peto). Ponadto dla grup można tworzyć wykresy Kaplana-Meiera (dane nieucięte są na wykresach identyfikowane przy pomocy różnych znaczników punktów). Program cechuje się także zestawem procedur dopasowania funkcji przeżycia (takich jak funkcja wykładnicza, liniowa hazardu, GompertzaWeibulla) opartych na metodach nieważonych i ważonych najmniejszych kwadratów (w module

STATISTICA Analiza procesu można także wyznaczać oceny parametrów największej wiarygodności dla różnych rozkładów, łącznie z rozkładem Weibulla).

Opisywany moduł oferuje także pełną implementację czterech ogólnych modeli objaśniających (model proporcjonalnego hazardu Coxa, model regresji wykładniczej, modele regresji lognormalnej i normalnej) z rozbudowanymi diagnostykami, włączając analizę warstwową i wykresy przeżycia dla określonych przez użytkownika wartości predyktorów. W przypadku regresji proporcjonalnego hazardu Coxa użytkownik może wybrać warstwowanie próby, aby dopuścić różne hazardy linii zerowych w różnych warstwach (ale przy stałym wektorze współczynników) lub różne hazardy linii zerowej oraz różne wektory współczynników. Ponadto wprowadzono ogólne narzędzia definiowania jednej lub wielu zmiennych towarzyszących zależnych od czasu. Zmienne towarzyszące zależne od czasu można określać przy pomocy interpretera formuł, który umożliwia definiowanie zmiennych towarzyszących za pomocą wyrażeń arytmetycznych. Mogą one zawierać czas a także standardowe funkcje logiczne (np. timedep=age+age*log(t_)*(age>45), gdzie t_ odnosi się do czasu przeżycia) oraz szeroki zestaw funkcji rozkładu. Jak we wszystkich innych modułach programu STATISTICA, użytkownik ma dostęp i może zmieniać parametry techniczne wszystkich procedur (lub akceptować domyślne). Moduł oferuje także szeroki zestaw wykresów i diagramów ułatwiających interpretację wyników (włączając wykresy skumulowanych proporcji przeżywających/ulegających awarii, konfiguracji (układów) danych uciętych, funkcji hazardu i skumulowanych funkcji hazardu, funkcji gęstości prawdopodobieństwa, wykresy porównań grup, wykresy dopasowania rozkładów, różne wykresy reszt i wiele innych). Przy zastosowaniach technicznych zob. grupę procedur Analiza Weibulla.

OGÓLNA ESTYMACJA NIELINIOWA (oraz szybka regresja logistyczna i probit)

[Ekran STATISTICA]

Moduł Estymacja nieliniowa umożliwia dopasowanie praktycznie dowolnego typu modelu nieliniowego. Jedną z unikalnych właściwości tego modułu jest (w odróżnieniu od tradycyjnych programów estymacji nieliniowej) to, że nie narzuca on żadnych ograniczeń wielkości plików danych, które może przetwarzać.

Metody estymacji. Modele można dopasowywać przy pomocy estymacji metodą najmniejszych kwadratów lub metodą największej wiarygodności lub dowolnej funkcji straty określonej przez użytkownika. W przypadku stosowania kryterium najmniejszych kwadratów do estymacji parametrów modeli liniowych i nieliniowych możemy stosować bardzo efektywne algorytmy Levenberga-Marquardta i Gaussa-Newtona. Dla dużych plików danych lub w przypadku trudnych zagadnień regresji nieliniowej (takich jak te, które zostały ocenione jako zagadnienia o "podwyższonej trudności" przez Narodowy Instytut Standardów i Technologii; patrz http://www.nist.gov/itl/div898/strd/index.html) przy stosowaniu kryterium najmniejszych kwadratów jest to metoda zalecana do obliczania dokładnych ocen parametrów. Stosując arbitralnie dobraną funkcję straty mamy do wyboru cztery bardzo różne, wydajne procedury estymacji (quasi-Newtona, sympleks, metoda Hooke'a-Jeevesa przemieszczania układu oraz metoda Rosenbrocka poszukiwania układu rotowanych współrzędnych), tak że praktycznie we wszystkich przypadkach można otrzymać stabilne oceny parametrów, nawet w wyjątkowo wymagających obliczeniowo warunkach (patrz Kontrolne testy porównawcze ).

Modele. Możemy określić model dowolnego typu wpisując odpowiednie równanie w edytorze równań. Równania mogą zawierać operatory logiczne; zatem można estymować także nieciągłe (kawałkami liniowe) modele regresji i modele zawierające zmienne wskaźnikowe (predyktory jakościowe). Równania mogą także zawierać szeroki zestaw funkcji rozkładu i dystrybuant (rozkładu beta, dwumianowego, Cauchy'ego, chi-kwadrat, wykładniczego, wartości ekstremalnych, F, gamma, geometrycznego, Laplace'a, normalnego, lognormalnego, Pareto, Poissona, Rayleigha, t (Studenta) lub rozkładu Weibulla). Mamy pełną kontrolę nad wszystkimi aspektami procedury estymacji (np. wartościami początkowymi, wielkościami kroku, kryteriami zbieżności itd.). Najbardziej typowe modele regresji nieliniowej są w module Estymacji nieliniowej predefiniowane i można je wybrać po prostu za pomocą opcji menu. W ten sposób dostępne są krokowa regresja logistyczna (logit) i regresja probit, model regresji wykładniczej oraz regresję kawałkami liniową (z punktami przełamania). Zauważmy, że STATISTICA zawiera także implementacje wydajnych algorytmów służących do dopasowywania uogólnionych modeli liniowych, w tym modeli probit, modeli wielomianowych logit oraz uogólnionych modeli addytywnych. Dalsze szczegóły można znaleźć w odpowiednich tekstach opisu.

[Ekran STATISTICA] Wyniki. Oprócz rozmaitych statystyk opisowych, standardowe wyniki estymacji nieliniowej obejmują oceny parametrów i ich błędy standardowe (obliczane niezależnie od samej estymacji, przy pomocy metody różnic skończonych by zoptymalizować dokładność; patrz Kontrolne testy porównawcze)), macierz wariancji/kowariancji ocen parametrów, wartości przewidywane, reszty i odpowiednie miary dobroci dopasowania (np. logarytm wiarygodności modelu estymowanego i zerowego i różnicowe chi-kwadrat, test do oceny proporcji wyjaśnianej wariancji, klasyfikacja przypadków i ilorazy szans dla modeli logit i probit). Wartości przewidywane i reszty można dołączyć do pliku danych dla dalszych analiz. Jeśli stosowanym modelem jest regresja logistyczna lub regresja probit, to obliczane jest także przyrostowe dopasowanie, gdy dodajemy lub usuwamy parametry z modelu regresji (by eksplorować dane przy pomocy procedury krokowej estymacji nieliniowej). W opisanym poniżej module Uogólnione modele liniowe dostępne są także opcje przeznaczone do automatycznego przeprowadzania regresji postępującej i wstecznej oraz regresji metodą wyboru najlepszego podzbioru predyktorów w przypadku modeli logitowych i probitowych.

Wykresy. Wszystkie wyniki są zintegrowane z rozbudowanym zestawem wykresów, w tym interakcyjnie dostosowywane dwuwymiarowe i trójwymiarowe (powierzchniowe) wykresy dopasowania dowolnej funkcji, które umożliwiają przedstawienie jakości dopasowania i zidentyfikowanie przypadków odstających lub zakresów rozbieżności między modelem a danymi. Możemy interakcyjnie dostosowywać równanie dopasowanej funkcji (jak to pokazano na wykresie) bez powtórnego przetwarzania danych i przedstawić praktycznie wszystkie aspekty procesu dopasowania nieliniowego. Wprowadzono także wiele innych specjalistycznych wykresów służących do oceny procesu dopasowania i przedstawienia wyników, takich jak histogramy wszystkich wybranych zmiennych i wartości resztowych, wykresy rozrzutu wartości obserwowanych względem wartości przewidywanych i przewidywanych względem reszt, wykresy normalności i normalności połówkowej dla reszt i wiele innych.

ANALIZA LOG-LINIOWA TABEL LICZNOŚCI

[Ekran STATISTICA]

Moduł ten oferuje pełną implementację procedur modelowania logliniowego wielowymiarowych tabel liczebności. Warto zauważyć, że STATISTICA zawiera także moduł Uogólniony model liniowy, który umożliwia analizę modeli logitowych dwumianowych i wielomianowych z układami kodowanymi na wzór modeli ANOVA. W jednym przebiegu można analizować tabele obejmujące do 7 wymiarów. Można analizować zarówno kompletne, jak i niekompletne (zawierające tzw. zera strukturalne) tabele. Tabele liczebności można obliczyć na danych surowych lub można je wprowadzić bezpośrednio do programu. Moduł Analizy logliniowej oferuje wyczerpujący zestaw zaawansowanych procedur modelowania w interakcyjnym i elastycznym środowisku i zdecydowanie ułatwia analizy eksploracyjne i konfirmacyjne złożonych tabel. Użytkownik może zawsze przeglądać kompletną tabelę obserwowaną oraz tabele brzegowe i wartości dopasowane (oczekiwane), a także może ocenić dopasowanie wszystkich cząstkowych i brzegowych modeli zależności lub określonych wybranych modeli (tabel brzegowych), które mają być dopasowane do danych obserwowanych. Program posiada także inteligentną automatyczną procedurę wyboru modelu, która najpierw określa konieczny porządek składników interakcyjnych wymaganych w modelu dopasowywanym do danych, a następnie przez eliminację wsteczną wyznacza najlepszy wystarczający model, który dostatecznie pasuje do danych (na podstawie kryteriów określonych przez użytkownika). Standardowe wyniki obejmują statystykę G kwadrat (chi-kwadrat największej wiarygodności), standardową statystykę chi-kwadrat Pearsona z odpowiednimi stopniami swobody i poziomami istotności, tabele obserwowane i oczekiwane, tabele brzegowe i inne statystyki. Opcje graficzne dostępne w module Analizy logliniowej obejmują rozmaite wykresy dwu- i trójwymiarowe przeznaczone do prezentacji dwu- i wielowymiarowych tabel liczebności (także interakcyjne, sterowane przez użytkownika serie skategoryzowanych histogramów i histogramów 3W prezentujących "przekroje" wielowymiarowych tabel), wykresy liczebności obserwowanych i oczekiwanych, wykresy reszt (standaryzowanych, składników chi-kwadrat największej wiarygodności; odchylenia Freemana-Tukeya itd.) oraz wiele innych.

ANALIZA SZEREGÓW CZASOWYCH i PROGNOZOWANIE

[Ekran STATISTICA]

Moduł Szeregi czasowe i prognozowanie zawiera obszerny zestaw metod opisu, modelowania, dekompozycji i prognozowania modeli zarówno w dziedzinie czasu jak i częstotliwości. Procedury te są w pełni zintegrowane, to znaczy wyniki jednej analizy (np. reszty z analizy ARIMA) można bezpośrednio wykorzystać w następnych analizach (np. do obliczenia funkcji autokorelacji reszt ARIMA). Wprowadzono wiele wygodnych opcji przeglądania i sporządzania wykresów pojedynczego lub wielu szeregów czasowych. Analizy można prowadzić nawet na bardzo dużych szeregach czasowych. W aktywnym obszarze roboczym programu można przechowywać wiele szeregów (np. wiele nieprzetworzonych szeregów wejściowych lub szeregów powstałych na różnych etapach analizy); można te szeregi przeglądać i porównywać. Program automatycznie przechowuje przebieg kolejnych analiz oraz rejestr transformacji i innych wyników (np. reszty ARIMA, składniki sezonowości). Dlatego użytkownik może zawsze powrócić do poprzednich transformacji lub porównać (sporządzić wykres) pierwotny szereg z jego przekształceniami. Informacje na temat kolejnych transformacji są przechowywane w formie długich etykiet zmiennych, tak że jeśli zapiszemy nowo utworzone zmienne w zbiorze danych, zachowamy "historię" każdego szeregu czasowego. Poniżej opisano poszczególne procedury analizy szeregów czasowych.

Przekształcenia, modelowanie, wykresy, autokorelacje. Przekształcenia dostępne w programie pozwalają użytkownikowi analizować struktury wejściowych szeregów czasowych. Program daje możliwość wykonania wszystkich typowych przekształceń szeregów czasowych, takich jak: usuwanie trendu, usuwanie autokorelacji, wygładzanie przy pomocy średniej ruchomej (nieważonej i ważonej z wagami zdefiniowanymi przez użytkownika lub wagami Daniella, Tukeya, Hamminga, Parzena lub Bartletta), wygładzanie przy pomocy mediany ruchomej, proste wyrównywanie wykładnicze (patrz także opis wszystkich opcji wyrównywania wykładniczego, poniżej), różnicowanie, sumowanie, residualizację, przesuwanie, wygładzanie 4253H, temperowanie, przekształcenia Fouriera (i odwrotne) i inne. Można także prowadzić analizy autokorelacji, autokorelacji cząstkowej i korelacji wzajemnej.

[Ekran STATISTICA]

Analiza szeregów metodą ARIMA i szeregów czasowych z interwencją. Moduł Szeregów czasowych obejmuje pełną implementację modelu ARIMA. Modele mogą zawierać stałą, a szereg można przed analizą przetwarzać; przekształcenia te są automatycznie "cofane" podczas obliczania prognoz ARIMA, tak więc prognozy i ich błędy standardowe są wyrażane w kategoriach wartości pierwotnego szeregu wejściowego. Można obliczać przybliżone i dokładne warunkowe sumy kwadratów metodą największej wiarygodności, a implementacja ARIMA w module Szeregów czasowych doskonale nadaje się do dopasowywania modeli z długimi okresami sezonowymi (np. okresy 30-to dniowe). Standardowe wyniki zawierają oceny parametrów i ich błędy standardowe oraz korelacje parametrów. Można obliczać i sporządzać wykresy prognoz i ich błędów standardowych oraz dołączać je do wejściowego szeregu. Ponadto wprowadzono wiele opcji analizy reszt ARIMA (do oceny trafności modelu) z dużym zestawem wykresów. Implementacja metody ARIMA w module Szeregów czasowych umożliwia także analizę szeregów z interwencją. Można jednocześnie modelować kilka interwencji, które mogą mieć charakter albo nagłej trwałej zmiany (jeden parametr), albo zmiany narastającej lub zanikającej (dwa parametry); można przeglądać wykresy różnych typów wpływu. W przypadku wszystkich modeli interwencji można obliczać prognozy, a także sporządzać ich wykresy (łącznie z szeregiem wejściowym) i dołączać je do pierwotnego szeregu.

[Ekran STATISTICA]Sezonowe i niesezonowe wyrównywanie wykładnicze. Moduł Szeregów czasowych zawiera pełną implementację wszystkich 12 typowych modeli wyrównywania wykładniczego. Modele można definiować w taki sposób, aby zawierały addytywny lub multiplikatywny składnik sezonowości oraz trend liniowy, wykładniczy lub gasnący; zatem wśród dostępnych modeli znajdują się popularne modele z trendem liniowym Holta-Wintera. Użytkownik może określić wartość początkową transformacji wyrównywania, początkową wartość trendu i wskaźniki sezonowości (jeśli mają zastosowanie). Dla składników trendu i sezonowości można określić oddzielne parametry wyrównywania. Użytkownik może także przeprowadzić przeszukiwanie sieciowe w przestrzeni parametrów w celu zidentyfikowania najlepszych wartości parametrów; w odpowiednim arkuszu wyników dla wszystkich kombinacji wartości parametrów zostaną podane błąd średni, średni błąd absolutny, suma błędu kwadratowego, wariancja składnika resztowego, średni błąd procentowy oraz średni absolutny błąd procentowy. Najmniejsza wartość tych wskaźników dopasowania zostanie w arkuszu wyników wyróżniona. Ponadto, użytkownik może wykonać automatyczne poszukiwanie najlepszych parametrów ze względu na wariancję składnika resztowego, średni błąd absolutny lub średni absolutny błąd procentowy (w tym celu stosuje się ogólną procedurę minimalizacji funkcji). Wyniki odpowiedniej transformacji wyrównywania wykładniczego, reszty a także wymagana liczba prognoz mogą być wykorzystane w dalszych analizach oraz do sporządzania wykresów. Można także wykonać sumaryczny wykres w celu oceny trafności danego modelu wyrównywania wykładniczego; wykres taki pokazuje szereg pierwotny wraz z wartościami wygładzonymi i prognozami, a także reszty procedury wyrównywania wykreślone odrębnie względem prawej osi Y.

Klasyczna dekompozycja sezonowa (metoda Census I). Użytkownik może określić długość okresu i wybrać model sezonowości addytywnej lub multiplikatywnej. Program oblicza średnie ruchome, ilorazy lub różnice, wskaźniki sezonowości, szereg skorygowany sezonowo, wygładzony wskaźnik trendu i długookresowy oraz składnik nieregularny. Składniki te można poddawać dalszym analizom; na przykład, użytkownik może sporządzać histogramy, wykresy normalności itd. dla dowolnych lub wszystkich tych składników (np. W celu oceny trafności modelu).

[Ekran STATISTICA] Miesięczna i kwartalna dekompozycja sezonowa i korekcja sezonowa X-11 (metoda Census II). Moduł Szeregów czasowych zawiera pełną implementację wariantu X-11 metody Census II korekcji sezonowej opracowanej przez Amerykańskie Biuro Spisów Powszechnych. Implementacja algorytmów X-11 w programie STATISTICA pozwala na operowanie na datach przed 1 stycznia 2000, datach po 1 stycznia 2000 lub szeregach, które obejmują okres rozpoczynający się przed 1 stycznia 2000 i kończący się po tej dacie, w odróżnieniu od oryginalnych algorytmów X-11, które są niezgodne z rokiem 2000 (tzn. można poddawać analizie tylko dane przed 1 stycznia 2000). Układ opcji i okien dialogowych ściśle odpowiada definicjom i zasadom opisanym w dokumentacji Amerykańskiego Biura Spisów Powszechnych. Można określać addytywne i multiplikatywne modele sezonowe. Użytkownik może także wprowadzać czynniki wstępnej korekcji ze względu na liczbę dni handlowych i czynniki korekcji sezonowej. Zmienność wynikająca z liczby dni handlowych można szacować przy pomocy regresji (przy wyeliminowaniu wpływu obserwacji odstających) i można ją zastosować do korekcji szeregu (jeśli tego wymagamy). Wprowadzono standardowe opcje stopniowania obserwacji ekstremalnych, obliczania wskaźników sezonowości i obliczania składnika trendu i wahań długookresowych (użytkownik może wybierać różne typy ważonych średnich ruchomych; optymalne długości i typy średnich ruchomych mogą być także wybierane automatycznie przez program). Ostateczne składniki (sezonowości, trendu i wahań długookresowych, nieregularne) oraz szereg skorygowany sezonowo są automatycznie dostępne dla dalszych analiz i wykresów; można także te składniki zapisać w celu wykorzystania w analizach w innych programach. Program może sporządzać wykresy różnych składników, łącznie z wykresami skategoryzowanymi względem miesięcy (lub kwartałów).

Wielomianowe modele opóźnień. Moduł Szeregów czasowych może szacować model z nieograniczonymi opóźnieniami oraz modele z opóźnieniami Almona (ograniczonymi). do analizy rozkładów zmiennych modelu służy zestaw wykresów.

[Ekran STATISTICA] Analiza widmowa (Fouriera) i analiza widma wzajemnego. Moduł Szeregów czasowych obejmuje pełną implementację technik analizy widmowej (dekompozycja Fouriera) i analizy widma wzajemnego. Program szczególnie nadaje się do analizy wyjątkowo długich szeregów czasowych (np. zawierających ponad 250.000 obserwacji) i nie narzuca żadnych ograniczeń na długość szeregu (tzn. długość szeregu wejściowego nie musi być równa potędze liczby 2). Użytkownik może jednak przed analizą wybrać uzupełnienie lub obcięcie szeregu. Standardowe transformacje, które można wykonać przed analizą obejmują: temperowanie, odjęcie średniej i usunięcie trendu. W przypadku analizy pojedynczego widma standardowe wyniki zawierają częstotliwość, okres, współczynnik przy funkcjach sinus i cosinus, wartości periodogramu oraz oceny gęstości widmowej. Oceny gęstości można obliczać stosując wagi Daniella, Hamminga, Bartletta, Tukeya, Parzena lub zdefiniowane przez użytkownika oraz szerokości okna zdefiniowane przez użytkownika. Szczególnie przydatna w przypadku długich szeregów wyjściowych jest opcja wyświetlania tylko zdefiniowanej przez użytkownika liczby największych wartości periodogramu lub wartości gęstości w porządku malejącym; zatem w długich szeregach czasowych można łatwo zidentyfikować najbardziej wysunięte maksima periodogramu i gęstości. Użytkownik może obliczyć test d Kołmogorowa-Smirnowa dla wartości periodogramu na to, czy odpowiadają one rozkładowi wykładniczemu (tzn. czy na wejściu jest szereg białego szumu). Wyniki można zestawiać przy pomocy wielu rodzajów wykresów; użytkownik może sporządzać wykresy współczynników przy funkcjach sinus i cosinus, wartości periodogramu, wartości periodogramu logarytmicznego, wartości gęstości widmowej oraz wartości logarytmów gęstości względem częstotliwości, okresu lub logarytmu okresu. W przypadku długich szeregów czasowych użytkownik może wybrać odcinek (okres), dla którego może sporządzić wykres periodogramu lub wartości gęstości, co podnosi "rozdzielczość" wykresu periodogramu lub gęstości. W analizie widma wzajemnego oprócz wyników pojedynczego widma dla każdego szeregu, program oblicza periodogram mieszany (część rzeczywistą i urojoną), gęstość kospektralną, widmo kwadraturowe, amplitudę mieszaną, wartość koherencji, wartości wzmocnienia oraz widmo fazowe. Wszystkie te wartości można wykreślić względem częstotliwości, okresu lub logarytmu okresu dla wszystkich okresów (częstotliwości) lub tylko dla odcinków zdefiniowanych przez użytkownika. W arkuszu wyników można także wyświetlić zdefiniowaną przez użytkownika liczbę największych wartości (rzeczywistych lub urojonych) periodogramu mieszanego w porządku malejącym, co ułatwia identyfikację wyraźnych maksimów podczas analizy długich szeregów czasowych. Tak jak w przypadku wszystkich innych procedur w module Szeregów czasowych, wszystkie wynikowe szeregi mogą zostać dołączone do aktywnego obszaru roboczego i będą wówczas dostępne dla dalszych analiz z wykorzystaniem innych metod analizy szeregów czasowych lub innych modułów programu STATISTICA .

Techniki prognozowania oparte na regresji. STATISTICA zawiera również regresyjne techniki analizy szeregów czasowych dla zmiennych opóźnionych lub nieopóźnionych (łącznie z regresją bez wyrazu wolnego, regresją nieliniową i interakcyjnym prognozowaniem typu "Co się stanie, jeśli ..."").

MODELOWANIE RÓWNAŃ STRUKTURALNYCH i ANALIZA ŚCIEŻKOWA (SEPATH)

[Ekran STATISTICA]

Program STATISTICA zawiera obszerną implementację technik modelowania równań strukturalnych z wygodnymi narzędziami do symulacji metodą Monte Carlo (SEPATH). Moduł SEPATH jest to nowoczesny program z "inteligentnym" interfejsem użytkownika. Oferuje bogaty zestaw procedur modelowania zintegrowanych z unikalnymi narzędziami interfejsu użytkownika, które umożliwiają definiowanie nawet złożonych modeli bez zastosowania składni poleceń. Za pomocą KreatorówNarzędzi ścieżkowych możemy definiować analizę w prostych funkcjonalnych terminach korzystając z menu i okien dialogowych (w odróżnieniu od innych programów do modelowania równań strukturalnych nie ma konieczności opanowania żadnego złożonego "języka"). SEPATH jest kompletną implementacją, która ma wiele zaawansowanych własności. Program może analizować macierze korelacji, kowariancji i momentów (ustrukturowane średnie, modele ze zmiennymi wyrazów wolnych); wszystkie modele można definiować przy pomocy Kreatora ścieżek, Kreatora analizy czynnikowej i Ogólnych narzędzi ścieżkowych; narzędzia te cechują się wysoką efektywnością i pozwalają użytkownikowi definiować nawet skomplikowane modele w kilka minut przez wybieranie odpowiednich opcji w oknach dialogowych. Moduł SEPATH oblicza odpowiednie błędy standardowe dla modeli standaryzowanych i modeli dopasowanych do macierzy korelacji, stosując techniki optymalizacji z ograniczeniami. Wyniki obejmują wyczerpujący zestaw statystyk diagnostycznych wraz ze standardowymi wskaźnikami dopasowania oraz wskaźnikami dopasowania opartymi na niecentralności, co odpowiada najnowszym osiągnięciom w dziedzinie modelowania równań strukturalnych. Użytkownik może dopasowywać modele do wielu prób (grup), a dla każdej grupy może określać parametry ustalone, wolne lub ograniczone (równe w grupach). Podczas analizy macierzy momentów, narzędzia te umożliwiają testowanie złożonych hipotez dla ustrukturowanych średnich w różnych grupach. Dokumentacja modułu SEPATH zawiera wiele szczegółowych przykładów z literatury, także przykłady konfirmacyjnej analizy czynnikowej, analizy ścieżkowej, modeli teorii testów dla testów jednorodnych, macierzy wielu cech i wielu metod, analizy czynnikowej dla danych longitudinalnych, symetrii złożonej, ustrukturowanych średnich itd.

[Ekran STATISTICA] Symulacja Monte Carlo w module SEPATH. Moduł SEPATH (patrz powyżej) obejmuje bogate możliwości przeprowadzania symulacji metodą Monte Carlo: użytkownik może generować (i zapisywać) zbiory danych dla predefiniowanych modeli w oparciu o rozkład normalny lub rozkłady skośne. Na próbach Monte Carlo można wyznaczać wartości estymatorów bootstrapowych, a także rozkłady dla rozmaitych statystyk diagnostycznych, ocen parametrów itd. Wprowadzono wiele elastycznych opcji graficznych służących do przedstawiania wyników (np. rozkładów parametrów) analiz Monte Carlo.

OGÓLNE MODELE LINIOWE (GLM)

Ogólne Modele Liniowe

Moduł ten służy do analizy modeli ujmujących powiązanie jednej lub większej liczby zmiennych zależnych ciągłych z jedną lub wieloma skategoryzowanymi lub ciągłymi zmiennymi niezależnymi. GLM to nie tylko najbardziej zaawansowane w sensie obliczeniowym narzędzie przeznaczone do zagadnienia ogólnego modelu liniowego dostępne na rynku, ale również najobszerniejsza i najbardziej kompletna aplikacja tego typu. GLM zawiera znacznie szerszy wybór opcji, więcej wykresów, więcej statystyk pomocniczych i poszerzonych diagnostyk niż jakikolwiek inny program tego typu. Moduł ten został zaprojektowany w sposób "nie dopuszczający kompromisów" w odniesieniu do najbardziej wymagających problemów występujących w zagadnieniu ogólnego modelu liniowego oraz oferuje najbogatszy wybór narzędzi, które służą do rozwiązywania tzw. "kontrowersyjnych zagadnień" nie mających żadnych powszechnie akceptowanych rozwiązań. Moduł GLM wykonuje wszystkie standardowe obliczenia, w tym tabele ANOVA zawierające wyniki testów jednowymiarowych i wielowymiarowych, statystyki opisowe, itd. GLM oferuje także dużą liczbę opcji wyników, w szczególności wykresy, zazwyczaj niedostępne w innych programach. Program udostępnia także proste sposoby testowania hipotez wyrażanych poprzez liniowe kombinacje ocen parametrów; możliwość łączenia źródeł błędu i źródeł zmienności dla efektów; szeroki zakres metod przeprowadzania porównań typu "post hoc" dla efektów obiektowych a także porównanie efektów czynnikowych i efektów interakcyjnych właściwych dla modeli obserwacji uzyskiwanych w doświadczeniach z powtarzanych pomiarami. Kliknij tutaj aby dowiedzieć się więcej na temat dalszych możliwości dostępnych w module GLM.

OGÓLNE MODELE REGRESJI (GRM)

Ogólne Modele Regresji

Moduł ten stanowi wyjątkową i niezwykle elastyczną implementację ogólnego modelu liniowego. W trakcie budowania modeli dla skrajnie złożonych układów, w tym układów zawierających efekty dla predyktorów jakościowych (zmiennych objaśniających) program pozwala użytkownikowi wykorzystywać metodę krokową oraz metodę wyboru optymalnego podzbioru zmiennych. Tak więc określenie "ogólne" występujące w nazwie opisywanego modułu odnosi się zarówno do stosowania technik ogólnego modelu liniowego, jak również do faktu, że w odróżnieniu od innych programów przeznaczonych do przeprowadzania regresji krokowej, GLM nie ogranicza się wyłącznie do analizy układów, w których obserwacje opisywane są jedynie za pomocą predyktorów (zmiennych objaśniających) ciągłych. Ponadto są także dostępne unikalne specyficzne dla regresji opcje wyników, w tym także wykresy Pareto ocen parametrów, podsumowanie (testy) całego modelu oraz opcje zawierające różne metody oceny modeli bez wyrazu wolnego, korelacje cząstkowe i semicząstkowe, itd. Kliknij tutaj aby dowiedzieć się więcej na temat możliwości modułu GRM.

UOGÓLNIONE MODELE LINIOWE (GLZ)

Uogólnione Modele Liniowe (GLZ)

Uogólniony model liniowy (GLZ) umożliwia poszukiwanie zarówno liniowych jak i nieliniowych zależności pomiędzy zmienną zależną (odpowiedzią) a predyktorami skategoryzowanymi lub ciągłymi. Uogólnione modele liniowe obejmują wiele popularnych analiz, takich jak dwumianowa lub wielomianowa regresja logistyczna (logit) i probit oraz modele teorii wykrywania sygnałów (ang. Signal Detection Theory, SDT). Moduł GLZ pozwala wyliczać wszystkie standardowe statystyki wynikowe, łącznie z testami ilorazu wiarygodności oraz testem Walda i testem punktowym dla istotnych efektów. Interfejsy użytkownika, metody definiowania układów oraz interakcyjność programu jest taka sama jak ta, która została zaimplementowana w modułach GLM, GRMPLS. Przykładowo jest możliwe łatwe określanie układów analizowanych metodą ANOVA lub ANCOVA, planów powierzchni odpowiedzi (reakcji), planu badania powierzchni odpowiedzi (reakcji) dla mieszanin, itd., dzięki czemu nawet początkujący użytkownicy nie powinni mieć trudności przy wykorzystywaniu uogólnionych modeli liniowych do analizy swoich danych. Moduł GLZ zawiera również bogaty wybór narzędzi służących do sprawdzania dopasowania modelu takich jak arkusze i wykresy dla określonych w różny sposób reszt oraz statystyk do wykrywania odstających obserwacji, w tym surowe reszty, reszty Pearsona, reszty odchyleń, studentyzowane reszty Pearsona, studentyzowane reszty odchyleń, reszty największej wiarygodności, różnicową statystykę chi-kwadrat oraz uogólnione odległości Cooka, itd. Kliknij tutaj aby uzyskać więcej informacji na temat możliwości modułu GLZ.

OGÓLNE MODELE CZĄSTKOWYCH NAJMNIEJSZYCH KWADRATÓW (PLS)

Ogólne Modele Cząstkowych Najmniejszych Kwadratów (PLS)

Moduł ten zawiera obszerny zestaw algorytmów przeznaczonych do rozwiązywania zagadnień cząstkowych najmniejszych kwadratów w estymacji modeli jednowymiarowych i wielowymiarowych. PLS umożliwia obliczanie wszystkich standardowych wyników otrzymywanych w analizie metodą cząstkowych najmniejszych kwadratów. Ponadto oferuje on wiele różnych opcji wyników a w szczególności opcji graficznych, które nie są zazwyczaj dostępne w innych programach tego typu, np. wykresy wartości parametrów w funkcji liczby składowych, dwuwymiarowe wykresy dla wszystkich statystyk wynikowych (parametrów, ładunków czynnikowych, itp.), dwuwymiarowe wykresy dla statystyk wartości resztowych, itp. Dzięki temu, że moduł PLS oferuje taki sam zakres wygodnych środowisk definiowania analiz jak moduły GLM, GRMGLZ można bardzo łatwo zdefiniować modele w jednym module a następnie przeprowadzić szybką analizę danych wykorzystując ten sam model w module PLS. ta wyjątkowa elastyczność umożliwia nawet początkującym użytkownikom zastosowanie opisywanych technik do ich zagadnień analitycznych. Metoda cząstkowych najmniejszych kwadratów stanowi jedną z efektywnych technik zgłębiania danych (data mining), szczególnie wygodna w przypadku poszukiwania mniejszej liczby wymiarów wśród dużej liczby predyktorów i zmiennych zależnych. Zastosowanie metod najmniejszych kwadratów cząstkowych do analizy modeli liniowych zostało spopularyzowane dopiero w ostatnich latach i nadal jest ono tematem dalszych badań.

Kliknij w tym miejscu aby uzyskać więcej informacji na temat możliwości modułu PLS.
 
ContentKontakt

StatSoft Polska Sp. z o.o.
ul. Kraszewskiego 36,
30-110 Kraków,
Telefon: +48 12 428 43 00
Telefon: +48 (601) 41 41 51
Faks: +48 12 428 43 01
e-mail: info@statsoft.pl