Przeszukaj Internetowy Podręcznik Statystyki



Samoorganizujące się mapy cech (SOFM - Self-organized feature map), sieci Kohonena. Sieci neuronowe wzorowane na topologicznych właściwościach mózgu ludzkiego. Znane również pod nazwą sieci Kohonena (Kohonen, 1982; Fausett, 1994; Haykin, 1994; Patterson, 1996).

Sąsiedztwo (sieci neuronowe). Pojęcie odnoszące się do algorytmu uczenia sieci neuronowej metodą Kohonena. Przez sąsiedztwo rozumie się mający kwadratowy kształt zbiór neuronów ulokowanych wokół neuronu "zwycięskiego". Neurony należące do sąsiedztwa uczone są jednocześnie z neuronem zwycięskim.

SEDAS (STATISTICA Enterprise-wide Data Analysis System). SEDAS to system ogólnego przeznaczenia, m.in. dla zastosowań typu "business intelligence", w marketingu, finansach oraz w innych dziedzinach. Znacząco rozszerza on możliwości standardowych produktów z rodziny STATISTICA. Między innymi, system zapewnia:

integrację z bazami danych,
intuicyjne narzędzia do tworzenia zapytań i filtrowania danych,
wygodne administrowanie systemem,
automatyczne tworzenie raportów,
automatyczne powiadamianie,
i wiele, wiele więcej...

SEMMA. Zobacz modele data mining. Patrz także Techniki zgłębiania danych (data mining).

Sezonowość addytywna, bez trendu. Ten model szeregu czasowego jest częściowo równoważny modelowi prostego wyrównywania wykładniczego, dodatkowo jednak, każda prognoza jest "wzmocniona" przez addytywny składnik sezonowości, który jest wygładzany niezależnie (patrz parametr wyrównywania sezonowego ). Model ten mógłby na przykład, być odpowiedni, gdy obliczamy prognozy oczekiwanych miesięcznych opadów. Wielkość opadów będzie stabilna z roku na rok lub może się powoli zmieniać. Jednocześnie wystąpią zmiany sezonowe ("pory deszczowe"), które także mogą się powoli zmieniać z roku na rok.

Aby obliczyć wyrównane wartości dla pierwszego sezonu, konieczne są początkowe wartości tych składników sezonowych.

Sezonowość addytywna, trend gasnący. W tym modelu szeregu czasowego, prognozy prostego wyrównywania wykładniczego są "wzmocnione" przez składnik trendu gasnącego (niezależnie wyrównywanego przy pomocy jednego parametru , model ten jest rozwinięciem modelu liniowego z jednym parametrem Browna, zob. Gardner, 1985, str. 12-13) i addytywny składnik sezonowy (wyrównywany przy pomocy parametru d ).Na przykład załóżmy, że chcielibyśmy prognozować z miesiąca na miesiąc liczbę gospodarstw domowych, które kupują określone urządzenie elektroniczne (np. kamerę wideo). Co roku liczba gospodarstw domowych, które kupują kamerę wideo będzie rosła, jednak trend ten będzie wygasał (tzn. rosnący trend będzie powoli zanikał) w czasie, ponieważ rynek będzie się nasycał. Ponadto wystąpi składnik sezonowy odzwierciedlający zmiany sezonowe z miesiąca na miesiąc popytu na kamery wideo (popyt będzie prawdopodobnie mniejszy w lecie, a większy podczas świąt grudniowych). Ten składnik sezonowy może być addytywny, na przykład w okresie świąt grudniowych kamery wideo mogą być kupowane przez względnie stabilną liczbę nowych gospodarstw domowych. Aby obliczyć wyrównane wartości dla pierwszego sezonu, konieczne są wartości początkowe składników sezonowych. Domyślnie moduł szeregów czasowych oszacuje te wartości (dla wszystkich modeli zawierających składnik sezonowy) na podstawie danych przy pomocy klasycznej dekompozycji sezonowej. Również do obliczenia wyrównanej wartości (prognozy) dla pierwszej obserwacji szeregu, konieczne są obie oceny S0 i T0 (trend początkowy). Domyślnie wartości te są obliczane jako:

T0 = (1/)*(Mk-M1)/[(k-1)*p]

gdzie:
     jest parametrem wyrównywania,
k       jest liczbą pełnych cykli sezonowych,
Mk     jest średnią dla ostatniego cyklu sezonowego,
M1    jest średnią dla pierwszego cyklu sezonowego,
p       jest długością cyklu sezonowego
oraz  S0 = M1 - p*T0/2

Sezonowość addytywna, trend liniowy. W tym modelu szeregu czasowego, prognozy prostego wyrównywania wykładniczego są "wzmocnione" zarówno przez składnik trendu liniowego (niezależnie wyrównywany przy pomocy parametru ), jak i addytywny składnik sezonowości (wyrównywany przy pomocy parametru ). Na przykład załóżmy, że mieliśmy przewidzieć miesięczny budżet na odśnieżanie gminy. W modelu może występować składnik trendu (gdy gmina się rozrasta, występuje stały rosnący trend dla kosztów odśnieżania z roku na rok), oczywiście występuje dodatkowo składnik sezonowy, odzwierciedlający zróżnicowane prawdopodobieństwo opadów śniegu w różnych miesiącach roku. Składnik ten mógłby być addytywny, co znaczyłoby, że w miesiącach zimowych konieczna jest określona stała dodatkowa kwota pieniędzy lub multiplikatywny(por. poniżej), to znaczy przy danej określonej kwocie budżetu, może on rosnąć o pewien czynnik, na przykład 1,4 w konkretnych miesiącach zimowych.

Aby obliczyć wyrównane wartości dla pierwszego sezonu, konieczne są początkowe wartości dla składników sezonowych. Ponadto, do obliczenia wyrównanej wartości (prognozy) dla pierwszej obserwacji szeregu konieczne są obie oceny S0 i T0 (trend początkowy). Domyślnie wartości te są obliczane jako:

T0 = (Mk-M1)/((k-1)*p

gdzie:
k       jest liczbą pełnych cykli sezonowych,
Mk    jest średnią ostatniego cyklu sezonowego,
M1    jest średnią pierwszego cyklu sezonowego,
p       jest długością cyklu sezonowego,
oraz  S0 = M1 - T0/2

Sezonowość addytywna, trend wykładniczy. W tym modelu szeregu czasowego, prognozy prostego wyrównywania wykładniczego są "wzmocnione" zarówno przez składnik trendu wykładniczego (niezależnie wyrównywany przy pomocy parametru ), jak i addytywny składnik sezonowy (wyrównywany przy pomocy parametru ). Na przykład załóżmy, że chcieliśmy przewidzieć miesięczny dochód uzdrowiska. Co roku dochód może rosnąć o określony procent lub czynnik, dający w efekcie trend wykładniczy w ogólnym dochodzie. Ponadto, może występować addytywny składnik sezonowy, na przykład określona stała (i wolno się zmieniająca) kwota dodatkowego dochodu w czasie świąt grudniowych.

Aby obliczyć wyrównane wartości dla pierwszego sezonu, konieczne są wartości początkowe dla składników sezonowych. Ponadto, do obliczenia wyrównanej wartości (prognozy) dla pierwszej obserwacji w szeregu, konieczne są obie oceny S0 i T0 (trend początkowy). Domyślnie wartości te są obliczane jako:

T0 = exp((log(M2) - log(M1))/p)

gdzie:
M2     jest średnią dla drugiego cyklu sezonowego,
M1    jest średnią dla pierwszego cyklu sezonowego,
p       jest długością cyklu sezonowego,
a   S0 = exp(log(M1) - p*log(T0)/2)

Sezonowość multiplikatywna, bez trendu. Ten model szeregu czasowego, jest podobny do prostego wyrównywania wykładniczego, z tym że uwzględnia się w nim dodatkowo składnik multiplikatywny (zob. parametr wyrównywania sezonowego ). Model ten mógłby, na przykład, być odpowiedni do prognozowania miesięcznej sprzedaży pewnej zabawki. Poziom sprzedaży może być stabilny z roku na rok (lub może się zmieniać tylko w nieznaczny sposób); jednocześnie wystąpią zmiany sezonowe (np. większa sprzedaż w okresie świąt), a wielkość tych zmian może się powoli zmieniać z roku na rok. Zmiany sezonowe będą wpływać na sprzedaż w sposób multiplikatywny, na przykład, sprzedaż grudniowa może być zawsze większa o 40% od średniej miesięcznej sprzedaży w danym roku.

Sezonowość multiplikatywna, trend gasnący. W tym modelu szeregu czasowego, udoskonala się prognozy prostego wyrównywania wykładniczego poprzez uwzględnienie składnika trendu gasnącego (niezależnie wyrównywanego przy użyciu jednego parametru ). Model ten jest rozwinięciem modelu liniowego z jednym parametrem Browna (patrz: Gardner, 1985, str. 12-13) i multiplikatywnym składnikiem sezonowym (wyrównywanym przy użyciu parametru ). Na przykład załóżmy, że chcielibyśmy prognozować z miesiąca na miesiąc liczbę gospodarstw domowych, które kupują określone urządzenie elektroniczne (np. kamerę wideo). Co roku liczba gospodarstw domowych, które kupują kamerę wideo będzie rosła, jednak trend ten będzie wygasał (tzn. rosnący trend będzie wolno zanikał) w czasie w wyniku nasycenia rynku. Ponadto wystąpi składnik sezonowy odzwierciedlający sezonowe zmiany z miesiąca na miesiąc popytu na kamery wideo (popyt będzie prawdopodobnie mniejszy w lecie, a większy w okresie świąt grudniowych). Ten składnik sezonowy może być multiplikatywny, na przykład sprzedaż w grudniu może wzrosnąć o czynnik 1.4 (lub 40%) ponad przeciętną sprzedaż roczną. Do obliczenia wyrównanych wartości dla pierwszego sezonu, konieczne są wartości początkowe dla składników sezonowych. Ponadto do obliczenia wyrównanej wartości (prognozy) dla pierwszej obserwacji szeregu, konieczne są obie oceny S0 i T0 (trend początkowy). Domyślnie wartości te są obliczane jako:

T0 = (1/)*Mk-M1)/[(k-1)*p],

gdzie
     jest parametrem wyrównywania,
k       jest liczbą pełnych cykli sezonowych,
Mk    jest średnią dla ostatniego cyklu sezonowego,
M1    jest średnią dla pierwszego cyklu sezonowego,
p       jest długością cyklu sezonowego,
oraz   S0 = M1-p*T0/2.

Sezonowość multiplikatywna, trend liniowy (Potrójne wyrównywanie wykładnicze lub metoda Wintera trzech parametrów trendu i sezonowości). W tym modelu szeregu czasowego, udoskonala się prognozy prostego wyrównywania wykładniczego poprzez uwzględnienie składnika trendu liniowego (niezależnie wyrównywany przy pomocy parametru ), jak i multiplikatywny składnik sezonowy (wyrównywany przy pomocy parametru ). Na przykład załóżmy, że mieliśmy przewidzieć miesięczny budżet na odśnieżanie gminy. Może tu występować składnik trendu (gdy gmina rośnie, występuje rosnący trend kosztów odśnieżania z roku na rok), jednocześnie występuje oczywiście składnik sezonowy, odzwierciedlający zróżnicowane prawdopodobieństwo opadów śniegu w różnych miesiącach roku. Ten składnik sezonowy mógłby być multiplikatywny, co znaczyłoby, że przy danej określonej kwocie budżetu, może rosnąć o czynnik na przykład 1.4 podczas miesięcy zimowych; lub może być addytywny (patrz powyżej), to znaczy w czasie miesięcy zimowych konieczna jest pewna stała dodatkowa kwota pieniędzy. Do obliczenia wyrównanej wartości (prognozy) dla pierwszej obserwacji w szeregu, konieczne są także oceny S0 i T0 (trend początkowy). Domyślnie wartości te są obliczane jako:

T0 = (Mk-M1)/((k-1)*p),

gdzie
k       jest liczbą pełnych cykli sezonowych,
Mk    jest średnią dla ostatniego cyklu sezonowego,
M1    jest średnią dla pierwszego cyklu sezonowego,
p       jest długością cyklu sezonowego,
oraz   S0 = M1 - T0/2.

Sezonowość multiplikatywna, trend wykładniczy. W tym modelu szeregu czasowego, udoskonala się prognozy prostego wyrównywania wykładniczego poprzez uwzględnienie trendu wykładniczego (niezależnie wyrównywanego przy użyciu parametru ) i multiplikatywnego składnika sezonowego (wyrównywanego przy użyciu parametru ). Na przykład załóżmy, że chcieliśmy prognozować miesięczny dochód uzdrowiska. Co roku dochód może rosnąć o pewien procent lub czynnik, dający w efekcie trend wykładniczy w ogólnym dochodzie. Dodatkowo, może występować multiplikatywny składnik sezonowy, to znaczy przy danym odpowiednim dochodzie rocznym, co roku 20% tego dochodu jest wypracowywane w grudniu, a zatem w grudniu dochód rośnie o określony (multiplikatywny) czynnik.

Do obliczenia wyrównanych wartości dla pierwszego sezonu, konieczne są wartości początkowe składników sezonowych. Również do obliczenia wyrównanej wartości (prognozy) dla pierwszej obserwacji szeregu, konieczne są obie oceny S0 i T0 (trend początkowy). Domyślnie wartości te są obliczane jako:

T0 = exp{[log(M2)-log(M1)]/p},

gdzie
M2    oznacza średnią dla drugiego cyklu sezonowego,
M1    jest średnią dla pierwszego cyklu sezonowego,
p       jest długością cyklu sezonowego,
oraz   S0 = exp{log(M1)-p*log(T0)/2}.

Sieci bayesowskie. Działające zgodnie z twierdzeniem Bayesa sieci dokonujące szacowania rozkładu prawdopodobieństwa na podstawie dostępnych zbiorów danych.

Zobacz: probabilistyczne sieci neuronowe oraz sieci neuronowe realizujące regresję uogólnioną.

Sieci grupujące. Sieć grupująca nie jest w zasadzie siecią neuronową, przedstawiana jako sieć jest ona tylko dla wygody. Sieć grupująca składa się z pewnej liczby wzorcowych albo przykładowych wektorów (przypadków) oznaczonych nazwą klasy, a reprezentowanych przez pojedyncze neurony radialne. Wektory to centra otrzymane na przykład algorytmem k-średnich i oznaczone poprzez najbliższych sąsiadów. Po zaetykietowaniu, położenia centrów są doprecyzowywane za pomocą algorytmu LVQ (Learned Vector Quantization).

Sieci grupujące są bliskie sieciom Kohonena, z pewnymi różnicami. Sieci grupujące uczone są "z nauczycielem" bo przypadki uczące mają swoje klasy. Poza tym warstwa wyjściowa sieci grupujących nie tworzy mapy topologicznej.

Uczenie polega na znajdowaniu centrów i następnie ich etykietowaniu. Opcjonalnie, następować po tym może uczenie LVQ udoskonalające pozycje centrów. Po uczeniu sieć można redukować do mniejszych rozmiarów. Wybiera się też parametry klasyfikacji, jak próg akceptacji oraz K i L algorytmu KL najbliższych sąsiadów.

Sieci jednokierunkowe. Są to sieci neuronowe o strukturze warstwowej, w których przepływ sygnałów ma jeden kierunek, od wejścia do wyjścia. Czasami nazwa ta jest używana jako synonim perceptronu wielowarstwowego.

Sieci neuronowe. Sieci neuronowe to techniki analityczne wzorowane na (hipotetycznym) procesie uczenia w systemie poznawczym i funkcjach neurologicznych mózgu, zdolne do przewidywania nowych obserwacji (określonych zmiennych) na podstawie innych obserwacji (dokonanych na tych samych lub innych zmiennych) po przeprowadzeniu procesu tzw. uczenia w oparciu o istniejące dane.

[Neural Network]

Dodatkowe informacje można znaleźć w sekcji Sieci neuronowe, a także Data Mining oraz pod hasłem STATISTICA Sieci neuronowe.

Sieci realizujące regresję uogólnioną (GRNN - Generalized Regression Neural Network). Jest to rodzaj sieci neuronowej, w której do opisu zależności regresyjnych wykorzystuje się aproksymację jądrową. Sieci te stanowią jeden z typów sieci bayesowskich (Speckt, 1991; Patterson, 1996; Bishop, 1995).

Sieć autoasocjacyjna. Sieć (zwykle w postaci perceptronu wielowarstwowego) mająca na celu odtwarzanie na swoich wyjściach wartości wprowadzonych na wejścia. Warstwa środkowa sieci tego typu posiada mniejszą liczbę neuronów niż warstwa wejściowa lub wyjściowa, dzięki czemu dane wprowadzone na wejścia ulegają "upakowaniu" w warstwie środkowej, a następnie w warstwie wyjściowej są ponownie przekształcane do pierwotnego wymiaru. Sieć autoasocjacyjna może służyć do kompresji i redukcji wymiaru przestrzeni danych (Fausett, 1994; Bishop, 1995).

Sieć Kohonena. Sieć neuronowa wzorowana na topologicznych właściwościach mózgu ludzkiego, zwana również jako samoorganizująca się mapa cech (SOFM - self-organizing feature map, zob. Kohonen, 1982; Fausett, 1994; Haykin, 1994; Patterson, 1996).

Sieć o radialnych funkcjach bazowych (sieci RBF - Radial Basis Functions). Sieć neuronowa posiadająca jedną warstwę ukrytą, zbudowaną z neuronów radialnych oraz warstwę wyjściową wyposażoną w neurony liniowe. Charakteryzuje się krótkim czasem uczenia i stosunkowo niewielkimi rozmiarami. Zaproponowana przez Broomhead'a i Lowe'a (1988) oraz Moody'a i Darkina (1989); opisana dokładnie w literaturze (Bishop, 1995; Haykin, 1994). Zob. Sieci neuronowe.

Skala ilorazowa. Ta skala pomiaru zawiera punkt zera bezwzględnego, dzięki czemu umożliwia nie tylko określenie ilościowe oraz porównanie wielkości pomiędzy wartościami, ale również interpretację obydwu wartości w kategoriach bezwzględnego pomiaru ilości lub wielkości (np. czas; 3 godziny to nie tylko o 2 godziny więcej niż 1 godzina, lecz również 3 razy więcej niż 1 godzina).

Informacje dodatkowe o skalach pomiarowych można znaleźć w części Podstawowe pojęcia statystyki.

Skala nominalna. Jest to skategoryzowana skala pomiaru (tzn. jakościowa a nie ilościowa), na której każda wartość reprezentuje określoną kategorię, do której należą wartości danej zmiennej (każda kategoria "różni się" od pozostałych, ale nie może być do nich porównana pod względem ilościowym).

Dodatkowe informacje można znaleźć w sekcji Podstawowe pojęcia statystyki.

Skala porządkowa. Porządkowa skala pomiaru reprezentuje rangi wartości zmiennej. Wartości mierzone na skali porządkowej zawierają informację na temat ich relacji w stosunku do innych wartości, która określa jedynie czy są one "większe niż" lub "mniejsze niż", ale nie określają "o ile więcej" albo "o ile mniej".

Dodatkowe informacje o skalach pomiarowych można znaleźć w sekcji Podstawowe pojęcia statystyki.

Skala przedziałowa. Taka skala pomiarowa umożliwia nie tylko rangowanie mierzonych wielkości, ale również ich określenie liczbowe i porównywanie różnic pomiędzy nimi (nie jest wymagane zero bezwzględne).

Dodatkowe informacje można znaleźć w części Skale pomiarowe w rozdziale Podstawowe pojęcia statystyki.

Skalowanie wielowymiarowe. Skalowanie wielowymiarowe (SWW) może być w pewnych sytuacjach rozważane jako alternatywa analizy czynnikowej (zob. rozdział Analiza czynnikowa) i jest zazwyczaj wykorzystywane jako metoda eksploracyjna. Ogólnie, celem tej analizy jest wykrycie sensownych ukrytych wymiarów, które pozwalają badaczowi wyjaśnić obserwowane podobieństwa lub odmienności (odległości) między badanymi obiektami. W analizie czynnikowej podobieństwa między obiektami (np. zmiennymi) są wyrażone w postaci macierzy korelacji. Przy pomocy SWW, oprócz macierzy korelacji, można analizować dowolny rodzaj macierzy podobieństwa lub odmienności (w tym zbiór miar, które nie są wewnętrznie spójne np. mogą nie spełniać zasady przechodniości).

Więcej informacji na temat skalowania wielowymiarowego znajduje się we Wprowadzeniu do skalowania wielowymiarowego.

Skalowanie. Zamiana oryginalnych wartości zmiennych (zgodnie z określoną funkcją lub algorytmem) na przedział, który spełnia określone kryteria (np. liczby dodatnie, odsetki, liczby mniejsze od 10E12, liczby o relatywnie dużej wariancji).

Skategoryzowana zmienna zależna. Skategoryzowana zmienna zależna, to wyrażona na skali nominalnej (lub porządkowej) cecha, której wartości chcemy przewidywać. Przykładem takiej zmiennej jest Płeć przyjmująca dwie wartości: Mężczyzna i Kobieta; inny przykład to Wykształcenie przyjmujące wartości Wyższe, Średnie i Podstawowe. Badacz może chcieć przewidywać wartości takich zmiennych (innymi słowy przynależność do klas) na podstawie zmiennych niezależnych (nazywanych też predyktorami). Przykładem takiej analizy jest modelowanie ryzyka kredytowego w celu przewidzenia dobrych i złych kredytów.

Skategoryzowane wykresy 3W - Wykresy odchyleń. Na tym Skategoryzowanym wykresie 3W punkty danych (reprezentujące współrzędne X, Y oraz Z każdego punktu) są reprezentowane w przestrzeni 3W w postaci "odchyleń" od określonego poziomu bazowego osi Z. Dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych) tworzony jest jeden wykres składowy, a wszystkie wykresy składowe są umieszczane na jednym obrazie, aby umożliwić porównania pomiędzy podzbiorami (kategoriami) danych.

Szczegółowe omówienie wykresów skategoryzowanych znajduje się w sekcji Wykresy skategoryzowane, a informacje uzupełniające można znaleźć w tematach Data Mining oraz Wybrane techniki analizy graficznej.

Skategoryzowane wykresy 3W - Wykresy powierzchniowe. W przypadku tego typu Skategoryzowanego wykresu 3W, do skategoryzowanych danych (wartości zmiennych odpowiadających zbiorom współrzędnych X,Y,Z), tj. dla podzbiorów danych określonych przez wybraną metodę kategoryzacji, jest dopasowywana powierzchnia (zdefiniowana przez równanie lub metodę wygładzania). Wykresy dla poszczególnych grup rozmieszczane są na jednym obrazie dla umożliwienia porównań pomiędzy podzbiorami (kategoriami) danych.

Szczegółowe omówienie wykresów skategoryzowanych znajduje się w sekcji Wykresy skategoryzowane, a informacje uzupełniające można znaleźć w tematach Data Mining oraz Wybrane techniki analizy graficznej.

Skategoryzowane wykresy 3W - Wykresy przestrzenne. Ten rodzaj Skategoryzowanego wykresu 3W jest charakterystyczną metodą przedstawiania wykresu rozrzutu 3W poprzez wykorzystanie oddzielnej płaszczyzny X-Y, umieszczonej na określonym przez użytkownika poziomie pionowej osi Z (która "przechodzi" przez środek płaszczyzny). Poziom płaszczyzny X-Y może być korygowany w celu podzielenia przestrzeni X-Y-Z- na fragmenty (np. charakteryzujące różne układy relacji pomiędzy trzema zmiennymi). Dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych) tworzony jest jeden wykres składowy i wszystkie wykresy składowe rozmieszczane są na jednym obrazie, aby umożliwić porównania pomiędzy podzbiorami (kategoriami) danych.

Szczegółowe omówienie wykresów skategoryzowanych znajduje się w sekcji Wykresy skategoryzowane, a informacje uzupełniające można znaleźć w tematach Data Mining oraz Wybrane techniki analizy graficznej.

Skategoryzowane wykresy 3W - Wykresy rozrzutu. Ten rodzaj Skategoryzowanego wykresu 3W służy do wizualizacji powiązań pomiędzy trzema zmiennymi (reprezentującymi współrzędne X, Y oraz jedną lub więcej współrzędnych Z [pionowych] każdego punktu w przestrzeni trójwymiarowej) skategoryzowanymi względem zmiennej grupującej (lub określonej przez użytkownika metody kategoryzacji). Dla każdego poziomu zmiennej grupującej (lub określonego przez użytkownika podzbioru danych) tworzony jest jeden wykres składowy i wszystkie wykresy składowe są umieszczane na jednym wykresie, aby umożliwić porównania pomiędzy podzbiorami (kategoriami) danych.

Szczegółowe omówienie wykresów skategoryzowanych znajduje się w sekcji Wykresy skategoryzowane, a informacje uzupełniające można znaleźć w tematach Data Mining, Wybrane techniki analizy graficznej,a także Redukcja danych.

Skategoryzowane wykresy 3W - Wykresy spektralne. Skategoryzowane wykresy 3W tego typu są wielokrotnymi wykresami spektralnymi (dla podzbiorów danych określonych przez wybrane metody kategoryzacji) rozmieszczonych na jednym obrazie w celu umożliwienia porównań pomiędzy podzbiorami danych. Wartości zmiennych X i Z są interpretowane jako, odpowiednio; współrzędne X oraz Z każdego punktu. Wartości Y są pogrupowane w równoodległe wartości, odpowiadające położeniom kolejnych płaszczyzn spektralnych.

Szczegółowe omówienie wykresów skategoryzowanych znajduje się w sekcji Wykresy skategoryzowane, a informacje uzupełniające można znaleźć w tematach Data Mining oraz Wybrane techniki analizy graficznej.

Skategoryzowane wykresy kwantyl-kwantyl. Skategoryzowane wykresy kwantyl-kwantyl służą do wizualnej oceny dopasowania rozkładu teoretycznego do rozkładu empirycznego w grupach, poprzez analizę każdego z wykresów kwantyl-kwantyl dla odpowiedniego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych).

Na wykresie tego typu zaobserwowane wartości kwantyli wykreślane są w funkcji kwantyli rozkładu teoretycznego. Wykres ten będzie wskazywał na dobre dopasowanie rozkładu teoretycznego do zaobserwowanych wartości w przypadku, gdy wykreślane wartości będą tworzyły linię prostą. Dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych) tworzony jest jeden wykres składowy, a wszystkie wykresy składowe rozmieszczone są na jednym obrazie, aby umożliwić przeprowadzanie porównań pomiędzy podzbiorami danych (kategorii). (Zob. wykresy kwantyl-kwantyl)

Skategoryzowane wykresy normalności. Skategoryzowany normalny wykres prawdopodobieństwa jest skonstruowany w następujący sposób. Najpierw rangowane są odchylenia od średniej (reszty); tzn. porządkujemy je rosnąco i przypisujemy im numery kolejne (tj. rangi). Na podstawie rang wyliczamy wartości z (tzn. standaryzuje wartości rozkładu normalnego) w oparciu o założenie, że dane pochodzą z populacji o rozkładzie normalnym (patrz Uwaga na temat obliczeń). Wartości z są wykreślane na wykresie wzdłuż osi Y. Jeśli obserwowane reszty (wykreślane na osi X) podlegają rozkładowi normalnemu, wtedy wszystkie wartości powinny układać się wzdłuż linii prostej. Jeśli reszty nie podlegają rozkładowi normalnemu, wówczas będą odchylać się od prostej. Odstające obserwacje również są widoczne na tym wykresie. Jeśli występuje generalny brak dopasowania i dane wydają się tworzyć wyraźny wzorzec (np. w kształcie litery S) wokół linii, wówczas może wystąpić potrzeba zastosowania pewnego przekształcenia (np. przekształcenia logarytmicznego aby "skrócić" obszary ogonowe rozkładu itp.,

Szczegółowe omówienie, patrz wykresy skategoryzowane oraz Wybrane techniki analizy graficznej;

Skategoryzowane wykresy trójkątne. Na skategoryzowanym wykresie trójkątnym, wykreślane są punkty reprezentujące proporcje składowych (X, Y oraz Z), dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych). Dokładniej rzecz biorąc, dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych) tworzony jest wykres składowy, a wszystkie wykresy składowe są rozmieszczane na jednym obrazie umożliwiając przeprowadzanie porównań pomiędzy podzbiorami (kategoriami) danych.

Patrz także: redukcja danych.

Skategoryzowany wykres normalności połówkowej. Skategoryzowany wykres normalności połówkowej jest tworzony podobnie jak skategoryzowany wykres normalności z tą różnicą, że pod uwagę brany jest połówkowy rozkład normalny, czyli tylko dodatnia połowa krzywej rozkładu normalnego. Tak więc na osi pionowej wykreślane są tylko dodatnie wartości zmiennej normalnej. Wykres ten używany jest do testowania rozkładu reszt (np. w regresji wielorakiej), gdy ignorujemy znak reszty, gdyż interesujemy się jedynie wielkością odchylenia.

Szczegółowe omówienie, patrz wykresy skategoryzowane oraz Wybrane techniki analizy graficznej;

Skategoryzowany wykres odchyleń od normalności (skategoryzowany wykres prawdopodobieństwa normalnego bez trendu). Skategoryzowany wykres prawdopodobieństwa normalnego bez trendu jest tworzony podobnie jak skategoryzowany wykres normalności z tą różnicą, że zanim wygenerujemy wykres usuwamy liniowy trend. Powoduje to, że pozostają na wykresie jedynie "porozrzucane" punkty, co ułatwia wykrycie odchyleń od normalności.

Szczegółowe omówienie, patrz wykresy skategoryzowane oraz Wybrane techniki analizy graficznej;

Skategoryzowany wykres prawdopodobieństwo-prawdopodobieństwo. Skategoryzowane wykresy prawdopodobieństwo-prawdopodobieństwo służą do wizualnej oceny dopasowania rozkładu teoretycznego do rozkładu empirycznego w grupach, poprzez analizę każdego z wykresów prawdopodobieństwo-prawdopodobieństwo (P-P) dla odpowiedniego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych). Na wykresach typu prawdopodobieństwo-prawdopodobieństwo (lub w skrócie P-P) dystrybuanta empiryczna jest wykreślana w funkcji dystrybuanty teoretycznej. Podobnie jak w przypadku wykresu kwantyl-kwantyl wartości odpowiedniej zmiennej najpierw są porządkowane w kolejności rosnącej. Obserwacja i-ta jest wykreślana wzdłuż jednej osi jako i/n (tzn. dystrybuanta empiryczna) i wzdłuż drugiej osi jako F(x(i)), gdzie F(x(i)) oznacza wartość teoretyczną dystrybuanty dla odpowiedniej obserwacji x(i). Jeśli teoretyczny rozkład dobrze przybliża rozkład empiryczny, wówczas wszystkie punkty na wykresie powinny znaleźć się na przekątnej. Dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych) tworzony jest jeden wykres składowy, a wszystkie wykresy składowe rozmieszczone są na jednym obrazie, aby umożliwić przeprowadzanie porównań pomiędzy podzbiorami danych (kategorii).

Skośność. Skośność (ang. skewness, termin ten został po raz pierwszy użyty przez Pearsona, 1895) mierzy odchylenie rozkładu od symetrii. Jeśli wartość skośności jest wyraźnie różna od zera, wówczas dany rozkład jest asymetryczny. Zwróćmy uwagę, że rozkład normalny jest symetryczny.

Skośność = n*M3/[(n-1)*(n-2)*3]

gdzie:
M3     jest równy: (xi-Średniax)3
3     oznacza odchylenie standardowe (sigma) podniesione do trzeciej potęgi,
n        oznacza liczbę ważnych przypadków.

Patrz także, Statystyki opisowe - Wprowadzenie.

Softmax. Specjalistyczna funkcja aktywacji przystosowana do problemów klasyfikacyjnych, w których wykorzystywana jest reprezentacja zmiennej wyjściowej typu jeden-z-N. Stosowana jest w neuronach warstwy wyjściowej sieci. Wyznacza znormalizowane wartości funkcji wykładniczej (sumują się do jedności). W połączeniu z funkcją błędu opartą na entropii wzajemnej pozwala szacować przy pomocy perceptronu wielowarstwowego prawdopodobieństwa przynależności do poszczególnych klas (Bishop, 1995; Bridle, 1990). Tematy pokrewne: Sieci neuronowe.

SPC w skali całego przedsiębiorstwa.System SPC dla całego przedsiębiorstwa to oprogramowanie do statystycznego sterowania jakością umożliwiające pracę grupową, przeznaczone do wykorzystywania w całym przedsiębiorstwie. System taki umożliwia inżynierom jakości i zarządowi współdzielenie danych, szablonów kart kontrolnych (i innych analiz wykorzystywanych w SPC), raportów i szablonów dostępu do baz danych. W skład systemu SPC w skali całego przedsiębiorstwa zawsze wchodzi centralna baza danych. Prawidłowo wdrożony system umożliwia spełnianie wymogów jakościowych przez wszystkie produkty wytwarzane w przedsiębiorstwie.

Zob. także Statystyczne sterowanie procesem, Sterowanie jakością, Analiza procesu i STATISTICA Enterprise-wide SPC System (SEWSS).

Więcej informacji na temat statystycznego sterowania jakością można znaleźć w ASQC/AIAG's Fundamental statistical process control reference manual (1991).

Sprawdzian krzyżowy. Termin sprawdzian krzyżowy odnosi się do oceny trafności prognostycznej modelu za pomocą próby testowej, nie używanej przy budowie modelu, w porównaniu do trafności prognostycznej dla próby uczącej, na podstawie której został utworzony model. W idealnej sytuacji, gdy dysponujemy próbą o dużej liczności, cześć przypadków (np. połowę lub dwie trzecie) przypisujemy do próby uczącej, a pozostałe przypadki do próby testowej. Przy tworzeniu modelu wykorzystujemy przypadki należące do próby uczącej, a rzeczywistą trafność prognostyczną modelu można ocenić w oparciu o przypadki próby testowej. Jeśli dany model "działa" równie dobrze ma próbie testowej jak i uczącej, wówczas mówimy o takim modelu, że pozytywnie przeszedł sprawdzian krzyżowy. Omówienie sprawdzianu krzyżowego na próbie testowej, patrz Metody obliczeniowe we Wprowadzeniu do drzew klasyfikacyjnych, Klasyfikacja we Wprowadzeniu do Analizy funkcji dyskryminacyjnej oraz Data Mining.

Opracowano wiele technik sprawdzianu krzyżowego w przypadku małych prób. Tworzy się tam próby testowe i uczące, które są tylko częściowo niezależne. Patrz, Metody obliczeniowe we Wprowadzeniu do drzew klasyfikacyjnych.

SQL. SQL (Structured Query Language) umożliwia tworzenie zapytań do zewnętrznego źródła danych. Możemy go wykorzystać do określenia podzbioru wierszy, które mają być analizowane. Aby uzyskać informacje na temat składni języka SQL, należy sięgnąć do podręczników SQL.

Standaryzacja. W języku codziennym standaryzacja oznacza ujednolicenie, np. produkcji itp. (jest odpowiednikiem słowa normalizacja). Natomiast w statystyce termin ten oznacza ściśle określone przekształcenie danych polegające na odjęciu od oryginalnych danych pewnej wartości (zazwyczaj średniej z próby) i podzieleniu ich przez odchylenie standardowe (najczęściej również wyznaczone z próby). Ta ważna transformacja umożliwia porównywanie wartości wielu zmiennych (niezależnie od ich oryginalnego rozkładu i jednostek, w jakich je zmierzono). W wyniku standaryzacji przekształcone wartości mają rozkład o średniej 0 i odchyleniu standardowym 1. Przekształcenie to ma wiele zastosowań, albowiem umożliwia porównywanie rozkładu wartości dla wielu zmiennych i wielu grup. Ponadto standaryzacja danych wejściowych czyni wyniki analiz statystycznych całkowicie niezależnymi od jednostek pomiaru poszczególnych zmiennych (omówienie tego zagadnienia znajduje się m.in. w rozdziałach Podstawowe pojęcia, Statystyki podstawowe, Regresja wieloraka, Analiza czynnikowa).

Standaryzowana wartość resztowa. Jest to standaryzowana wartość resztowa (obserwowana minus przewidywana podzielona przez pierwiastek kwadratowy z średniego kwadratu reszt).

Patrz także, odległość Mahalanobisa, usunięta reszta i odległość Cooka.

Standaryzowane DFFITS. Jest to jeszcze jedna miara wpływu określonego przypadku na postać równania regresji. Wzór dla obliczania standaryzowanych DFFITS ma postać:

SDFITi = DFFITi/(si(i)1/2)

gdzie hi oznacza wskaźnik wpływu dla i-tego przypadku
a

i = 1/N + hi

Patrz także: DFFITS, studentyzowane reszty i studentyzowane usunięte reszty. Więcej informacji można uzyskać w pracach Hocking (1996) i Ryan (1997).

STATISTICA Data Miner. STATISTICA Data Miner firmy StatSoft oferuje wszechstronny wybór rozwiązań data mining, z opartym na ikonach, prostym w obsłudze interfejsem użytkownika (opcjonalnie przeglądarką internetową w przypadku wersji STATISTICA Enterprise Server). Ten w pełni zintegrowany i zautomatyzowany system jest gotowy do użycia "po wyjęciu z pudełka", lecz może też być łatwo dostosowany do konkretnych potrzeb i standardów analiz rynkowych, marketingowych i wielu innych. Jest również dostępna dedykowana wersja SPC (STATISTICA Process Optimization) służąca do zgłębiania/analizy dużych strumieni danych. Produktowi temu towarzyszy oferta wdrożenia i szkoleń u użytkownika. Bazą stosowanych tu rozwiązań są wydajne procedury zawarte w pięciu modułach, których można używać w sposób interakcyjny, jak również można z nich tworzyć, testować i wdrażać nowe rozwiązania:

Kostki, przekroje (opcjonalnie OLAP)
Klasyfikacja (drzewa i skupienia)
Modelowanie i eksploracja wielowymiarowa
Prognozowanie
Eksploracja za pomocą sieci neuronowych
i wiele, wiele innych ...

STATISTICA Neural Networks. Program STATISTICA Neural Networks firmy StatSoft zawiera największy wybór metod sieci neuronowych z automatycznymi projektantami sieci oraz automatycznymi kreatorami; jest również dostępny generator kodu C. Ponadto system oferuje:

Automatyczny projektant sieci
Automatyczne poszukiwanie najlepszej architektury sieci
Perceptrony wielowarstwowe (Multilayer Perceptrons)
Sieci o radialnych funkcjach bazowych (Radial Basis Function Networks)
Samoorganizujące się mapy cech Kohonena (Self-Organizing Feature Maps)
Algorytm wstecznej propagacji błędów
Gradienty sprzężone
Wiele rodzajów wykresów
Wielokrotne próbkowanie (Sprawdzian krzyżowy, Bootstrap)
Analiza wrażliwości, Krzywe ROC
Zespoły sieci
Interfejs programistyczny (API)
i wiele, wiele więcej...

Statystyczne sterowanie jakością procesów (SPC). Termin statystyczne sterowanie jakością procesów (SPC - Statistical Process Control) jest najczęściej używany w odniesieniu do procesów produkcyjnych (chociaż może być stosowany również w odniesieniu do usług i działalności innego typu). Odnosi się on do metod statystycznych wykorzystywanych do monitorowania i optymalizacji jakości. Dzięki zbieraniu informacji o różnych etapach procesu i ich statystycznej analizie możliwe jest podjęcie działań (często zapobiegawczych), dzięki którym cały proces będzie stabilny, a produkt będzie spełniał określone wymagania. SPC wymaga monitorowania procesów, identyfikacji przyczyn problemów, proponowania metod zmniejszania zmienności i sprawdzania czy metody te są skuteczne, optymalizacji procesów, oceny niezawodności i innych analiz. W SPC wykorzystywane są metody takie jak karty kontrolne Shewharta, analiza Pareto, analiza zdolności, analiza powtarzalności i odtwarzalności pomiarów oraz analiza niezawodności. Oprócz nich wykorzystywane są również zaawansowane metody statystyczne np. planowanie doświadczeń (DOE). Ważnymi elementami nowoczesnych systemów SPC jest bieżący dostęp do aktualnych danych, wydajna hurtownia danych dotyczących jakości procesów i narzędzia pracy grupowej umożliwiające inżynierom jakości wspólne korzystanie z danych i raportów (więcej informacji na ten temat znajduje się w rozdziale SPC w skali całego przedsiębiorstwa).

Patrz także, Karty kontrolne i Analiza procesu..

Więcej informacji o SPC można znaleźć w ASQC/AIAG's Fundamental statistical process control reference manual (1991).

Statystyka PRESS. Statystyka PRESS jest często wykorzystywana w analizie regresji w celu podsumowania dopasowania określonego modelu, na podstawie próby składającej się z obserwacji, które nie były wykorzystywane do estymacji parametrów modelu. Może ona być łatwo obliczana jako suma kwadratów przewidywanych reszt dla tych obserwacji.

Zob. Draper i Smith (1981). Statystyka PRESS jest obliczana, na przykład, w Modelach cząstkowych i najmniejszych kwadratów (GPLS) dla prób przeznaczonych do oceny krzyżowej (weryfikacji).

Statystyka punktowa. Statystyka ta jest wykorzystywana do oceny statystycznej istotności ocen parametrów obliczanych za pomocą metody największej wiarygodności. Niekiedy jest ona także nazywana efektywną statystyką punktową. Test opiera się na zachowaniu funkcji logarytmu wiarygodności w punkcie, w którym odpowiednia ocena parametru wynosi 0,0; mówiąc nieco bardziej szczegółowo wykorzystuje się pochodną (współczynnik kierunkowy) funkcji logarytmu wiarygodności w punkcie odpowiadającym hipotezie zerowej (parametr = 0,0). Obliczenie tego testu jest stosunkowo szybkie, ponieważ nie jest on tak dokładny jak statystyka wykorzystująca iloraz funkcji wiarygodności, która bazuje na ilorazie wiarygodności modelu zawierającego brany pod uwagę parametr przez wiarygodność modelu, który go nie zawiera. Dlatego też jest to metoda preferowana przy ocenie statystycznej istotności ocen parametrów w przypadku krokowej metody budowania modelu lub metody najlepszego podzbioru.

Statystyką alternatywna jest statystyka Walda.

Statystyka Q Boxa-Ljunga. W analizie szeregów czasowych możemy przesunąć szereg o dane opóźnienie k. Dla tego danego opóźnienia, statystykę Q Boxa-Ljunga definiuje się przez:

Qk = n*(n+2)*Sum(ri2/(n-1))
dla i = 1,...,k

Gdy liczba obserwacji jest duża, to statystyka Q ma rozkład Chi-kwadrat z k-p-q stopniami swobody, gdzie p i q są odpowiednio liczbami parametrów autoregresyjnych i średniej ruchomej

Statystyka Walda. Arkusz wyników zawierający oceny parametrów dla modelu regresji proporcjonalnego ryzyka Coxa zawiera tzw. statystykę Walda oraz poziom p dla tej statystyki. Statystyka ta jest podstawą testu istotności współczynnika regresji; bazuje ona na asymptotycznej normalności oceny największej wiarygodności i jest wyliczana wg wzoru:

W = * 1/Var() *

We wzorze tym oznacza oceny parametrów, a Var() oznacza asymptotyczną wariancję ocen. Statystyka Walda jest testowana w oparciu o rozkład chi-kwadrat.

Statystyki klasyfikacyjne (w sieciach neuronowych). Jednym z głównych zastosowań sieci neuronowych jest realizacja zadań z dziedziny klasyfikacji. Jak wiadomo w trakcie realizacji takich zadań każdy z analizowanych przypadków przypisywany jest do jednej z możliwych klas. Klasa ustalona dla danego przypadku określana jest za pomocą wyjściowej zmiennej nominalnej.

Dla każdej klasy podane są liczby przypadków:

Wszystkich. Liczba przypadków w danej klasie.

Poprawnie. Liczba przypadków, które należą do danej klasy i zostały poprawnie zaklasyfikowane.

Niepoprawnie. Liczba przypadków, które należą do danej klasy a zostały błędnie zaklasyfikowane do innych klas.

Nieznane. Liczba przypadków, które należą do danej klasy a nie zostały wcale zaklasyfikowane.

Poprawnie (%). Procent poprawnie zaklasyfikowanych przypadków.

Niepoprawnie (%). Procent niepoprawnie zaklasyfikowanych przypadków.

Nieznane (%). Procent niezaklasyfikowanych przypadków.

Statystyki regresyjne (w sieciach neuronowych). W problemach regresyjnych celem sieci neuronowej jest nabycie (drogą uczenia się) umiejętności odwzorowywania danych ze zmiennych wejściowych w ciągłą zmienną (lub zmienne) wyjściową.

Można stwierdzić, że zastosowanie sieci do rozwiązania zadania regresyjnego zakończyło się sukcesem, jeśli uzyskane prognozy są trafniejsze niż proste oszacowanie nieznanej wartości wyjściowej.

Najprostszym sposobem konstrukcji takiego oszacowania jest wyznaczenie wartości średniej z wartości wyjściowych zawartych w zbiorze uczącym, i wykorzystanie wyznaczonej średniej jako wartości prognozy dla wszystkich nie prezentowanych wcześniej przypadków.

Oczekiwany średni błąd prognozy przy zastosowaniu tej procedury, jest równy odchyleniu standardowemu obliczonemu dla wartości wyjściowej w zbiorze uczącym. Dlatego też celem tworzenia zaawansowanego modelu rozważanego zjawiska między innymi przy zastosowaniu sieci regresyjnej - jest wyznaczenie takiego oszacowania, które posiada znacząco niższe odchylenie standardowe

Statystyki regresyjne to::

Średnia. Średnia wartość zmiennej wyjściowej.

Odchylenie standardowe. Odchylenie standardowe obliczone dla zmiennej wyjściowej.

Średni błąd. Średni błąd zmiennej wyjściowej (różnica pomiędzy wartością zadaną i wartością uzyskaną na wyjściu modelu).

Średni błąd bezwzględny. Średni błąd zmiennej wyjściowej (rozumiany jako moduł różnicy pomiędzy wartością zadaną i wartością uzyskaną na wyjściu).

Odchylenie standardowe błędu. Odchylenie standardowe błędów dla zmiennej wyjściowej.

Iloraz odchyleń standardowych. Iloraz odchyleń standardowych dla błędów i dla danych.

Korelacja. Standardowy współczynnik korelacji R Pearsona dla wartości rzeczywistych i wartości uzyskanych na wyjściu modelu.

Wymagany stopień dokładności predykcji jest różny w różnych zastosowaniach. Jednak orientacyjnie można przyjąć, że iloraz równy 0,1 (lub mniej) świadczy o dobrej realizacji regresji przez sieć, zaś iloraz powyżej 0,7 dyskwalifikuje stworzony przez sieć model.

Sterowanie jakością. We wszystkich procesach produkcyjnych należy monitorować stopień w jakim produkty spełniają zadane specyfikacje. Mówiąc najogólniej istnieją dwie główne "przeszkody" w procesie zapewniania jakości produktu: (1) odchylenia od specyfikacji docelowych oraz (2) zbyt duża zmienność wokół wartości docelowych. W początkowych etapach rozwijania procesu produkcyjnego, do optymalizacji tych dwóch charakterystyk jakości wykorzystywane są metody planowania doświadczeń (zob. Planowanie doświadczeń); metody omawiane w części Karty kontrolne to procedury sterowania jakością działające w czasie rzeczywistym przeznaczone do bieżącego monitorowania procesu produkcji.

Ogólne podejście do sterowania jakością w czasie rzeczywistym jest stosunkowo proste. Z procesu produkcyjnego pobiera się próbki o ustalonej liczebności. Następnie tworzy się karty kontrolne przedstawiające zmienność tych próbek i bada w jakim stopniu są one zgodne ze specyfikacją docelową. Jeśli w wykreślonej sekwencji próbek pojawia się trend albo wystąpią próbki leżące poza liniami kontrolnymi, wówczas proces uważa się za rozregulowany i przystępuje się do poszukiwania przyczyn tego zjawiska. Karty tego typu nazywane są również kartami Shewharta (od nazwiska W. A. Shewharta, prekursora tych metod, patrz Shewhart, 1931).

Więcej informacji na temat sterowania jakością można znaleźć w części Karty kontrolne.

Stopa hazardu. W analizie przeżycia stopę hazardu definiuje się jako prawdopodobieństwo na jednostkę czasu, że przypadek, który przeżył do początku określonego przedziału, ulegnie w tym przedziale awarii. W szczególności oblicza się ją jako liczbę awarii na jednostki czasu w danym przedziale podzieloną przez średnią liczbę przypadków przeżywających w punkcie środkowym tego przedziału.

Stopnie swobody. Pojęcie mające różne znaczenia w statystyce, pierwszy raz wprowadzone przez Fishera, w oparciu o pojęcie stopni swobody używane w układach dynamicznych (np. ilość niezależnych współrzędnych potrzebnych do zdeterminowania go). Stopnie swobody zbioru obserwacji są liczbą wartości, które można dowolnie zmienić wewnątrz określonego układu. Na przykład w próbce o liczności n pogrupowanej w k przedziałów, mamy k-1 stopni swobody, ponieważ jeśli określimy k-1 częstości, to ostatnią można wyliczyć z nich i wartości n. W ten sposób, w tabeli wielodzielczej (tabeli kontyngencji) p na q z ustalonymi licznościami brzegowymi mamy (p-1)(q-1) stopni swobody. W pewnych okolicznościach pojęcie stopni swobody jest używane do oznaczenia liczby niezależnych porównań, które są wykonywane między obiektami w próbce.

Stopniowa (narastająca) zmiana. W analizie szeregów czasowych schemat stopniowej (narastającej) zmiany zakłada, że wzrost lub spadek wynikający z interwencji jest stopniowy i że ostateczny trwały wpływ staje się widoczny dopiero po pewnym czasie. Ten typ interwencji może być ujęty wyrażeniem:

Wpływ t = * Wpływ t-1 +
(dla wszystkich t moment zmiany, pozostałe = 0).

Zauważmy, że ten schemat zmiany jest zdefiniowany przez dwa parametry (delta) i (omega). Jeśli jest bliska 0 (zera), to ostateczna trwała wielkość zmiany stanie się widoczna już po kilku obserwacjach; jeśli jest bliskie 1, to ostateczna trwała wielkość zmiany stanie się widoczna po znacznie większej liczbie obserwacji. Jeżeli parametr jest większy od 0 a mniejszy od 1 (granice stabilności systemu), zmiana będzie stopniowa i wywoła asymptotyczną zmianę (przesunięcie) ogólnej średniej o wielkość:

Asymptotyczna zmiana = /(1-).

Strzałka w SEPATH. Element diagramu ścieżkowego stosowany do wskazania przepływu przyczynowego od jednej zmiennej do innej lub, w węższym rozumieniu, do przedstawienia, która z dwóch zmiennych w równaniu liniowym jest zmienną niezależną, a która jest zmienną zależną.

Studentyzowane usunięte reszty. Oprócz obliczania standaryzowanych reszt dostępnych jest kilka innych metod (w tym studentyzowane reszty, studentyzowane usunięte reszty, DFFITS oraz standaryzowane DFFITS) służących do wykrywania odstających wartości (obserwacji o ekstremalnych wartościach występujących w zbiorze predyktorów lub zmiennej zależnej). Studentyzowane usunięte reszty są wyliczane według wzoru:

SDRESIDi = DRESIDi/ s(i)

dla

DRESID = ei/(1-i )

i gdzie

s(i) = 1/(C-p-1)1/2 * ((C-p)s2/1-hi) - DRESIDi2)1/2

ei    oznacza błąd dla i-tego przypadku,
hi    oznacza wskaźnik wpływu dla i-tego przypadku,
p     oznacza liczbę współczynników występujących w modelu,

a

i = 1/N + hi

Więcej informacji można znaleźć w pracach Hocking (1996) i Ryan (1997).

Sumy kwadratów typu I, II, III (IV, V). Gdy w kompletnym układzie czynnikowym ANOVA występują podklasy o brakujących danych, wówczas mamy do czynienia z niejasnością odnoszącą się do szczegółowych porównań pomiędzy średnimi podklas (średnimi brzegowymi populacyjnymi lub oczekiwanymi średnimi brzegowymi), które tworzą, będące przedmiotem zainteresowania, efekty główne i efekty interakcji. Rozdział Ogólne modele liniowe (GLM) zawiera szeroki opis wykorzystywanych metod, określanych powszechnie jako sumy kwadratów, mianowicie Sumy kwadratów typu I, typu II, III, oraz IV, a także metody testowania efektów w przypadku układów niekompletnych, które są szeroko wykorzystywane w innych obszarach (i tradycjach) badawczych.

Sumy kwadratów typu V. W szczególności proponujemy termin sumy kwadratów typu V dla oznaczenia podejścia szeroko wykorzystywanego w doświadczalnictwie przemysłowym do analizowania planów (układów) czynnikowych frakcyjnych. Te typy planów eksperymentalnych zostały szczegółowo omówione w części Plany frakcyjne dwuwartościowe 2(k-p) zawartej w rozdziale Planowanie doświadczeń. W rezultacie dla wszystkich efektów, dla których są przeprowadzane testy, wszystkie populacyjne średnie brzegowe (oczekiwane średnie brzegowe) są estymowalne.

Sumy kwadratów typu VI. Po drugie, proponujemy termin sumy kwadratów typu VI dla oznaczenia podejścia, które jest często stosowane w programach wykorzystujących tylko model z sigma-ograniczeniami (natomiast moduł GLM w programie STATISTICA oferuje użytkownikowi wybór pomiędzy modelem z sigma-ograniczeniami a modelem przeparametryzowanym). Podejście to jest identyczne do podejścia, które zostało opisane przez Hockinga (1996) jako metoda hipotez efektywnych.

Dodatkowe informacje można znaleźć w części Sześć typów sum kwadratów w rozdziale Ogólne modele liniowe (GLM).

Support Vector Machine (SVM) Grupa nowoczesnych metod analizy danych.

Systemy zintegrowane. Systemy zintegrowane umożliwiają szerokiej grupie pracowników, w zakresie całego przedsiębiorstwa, współdzielenie informacji, dostęp do danych i procedur analitycznych (jak np. aplikacji monitorujących jakość, realizujących predykcje). Systemy te są skalowalne, oferują bogatą funkcjonalność wspomagającą pracę grupową. StatSoft ma w ofercie różnorodne rozwiązania z tej dziedziny. Od względnie niedrogich aplikacji, jak centralnie zarządzane wersje sieciowe STATISTICA (bazujące na licencjonowaniu współbieżnym, umożliwiającym dostęp do danych i oprogramowania z każdego komputera w sieci), do największych systemów klient-serwer, o pełnych możliwościach intra-internetowych, a zbudowanych w architekturze przetwarzania rozproszonego. Rozwiązania internetowe StatSoft, przeznaczone dla różnych dziedzin i zastosowań, łączą się bezproblemowo z systemami wielu baz danych, w których mogą przetwarzać dane "in-place". Mają tu zastosowanie zintegrowane rozwiązania hurtowni danych StatSoft, zarządzania dokumentami i wiele innych. W zakresie tych rozwiązań są narzędzia interaktywnego projektowania portali przeznaczonych dla różnego typu użytkowników, a udostępniających im konkretny zakres informacji i funkcjonalności analitycznej, w zależności od konkretnych uprawnień i potrzeb grupowych.

Zob. także hurtownie danych.

Szereg stacjonarny (w szeregach czasowych). W analizie szeregów czasowych szereg stacjonarny ma stałe w czasie: średnią, wariancję i autokorelację (np. składnik sezonowy został z niego usunięty przez różnicowanie).

Szeregi czasowe (w sieciach neuronowych). Wiele ważnych praktycznych problemów można zaliczyć do klasy zagadnień związanych z analizą szeregów czasowych. Celem jest tu predykcja wartości pewnej (zwykle ciągłej) zmiennej, na podstawie jej wcześniejszych wartości lub wartości innych zmiennych (Bishop, 1995).

Szeregi czasowe. Szereg czasowy to ciąg pomiarów, zwykle wykonanych w równych odstępach czasu. W skład analizy szeregów czasowych wchodzi szeroka gama metod eksploracji i testowania hipotez, które mają dwa zasadnicze cele: (a) wykrywanie natury zjawiska reprezentowanego przez sekwencję obserwacji i (b) prognozowanie (przewidywanie przyszłych wartości szeregu czasowego). Oba te cele wymagają zidentyfikowania i opisania, w sposób mniej lub bardziej formalny, elementów szeregu czasowego. Raz ustalony wzorzec może zostać zastosowany do innych danych (tzn. wykorzystany w teorii badanego zjawiska, np. sezonowych cen towarów). Niezależnie od trafności teoretycznego uzasadnienia postaci modelu, zawsze możemy przewidywać przyszłe wartości szeregu czasowego na drodze ekstrapolacji.

Więcej informacji można znaleźć w rozdziale Analiza szeregów czasowych.

Sześć Sigma (Six Sigma), DMAIC. Sześć Sigma to precyzyjnie zorganizowana, bazująca na realnych danych metodologia eliminacji defektów, strat i wszelkich problemów z jakością, we wszystkich dziedzinach produkcji, usług, zarządzania i w innej działalności biznesowej. Podstawą metodologii Sześć Sigma jest połączenie znanych technik statystycznego sterowania jakością z innymi, zarówno prostymi jak i zaawansowanymi metodami statystycznymi oraz z systematycznym szkoleniem całego personelu, z każdego szczebla organizacji, włączonego w procesy i działania objęte metodą Sześć Sigma.

Metodyka i strategia zarządzania Sześć Sigma stanowi podstawę organizacji działań na rzecz udoskonalenia jakości w całym przedsiębiorstwie. Podejście to zyskało wielką popularność, gdyż wykazano jej skuteczność w wielu amerykańskich i międzynarodowych organizacjach. Przegląd strategii Sześć Sigma znajduje się w pracach Harry, Schroeder (2000) i Pyzdek (2001).

Są one zorganizowane w pięć grup odpowiadających pięciu fazom strategii Sześć sigma: Definiowanie (D), Pomiar (M), Analiza (A), Udoskonalenie (I), Kontrola (C); w skrócie DMAIC.

Definiowanie. Ta faza obejmuje określenie celu i zakresu projektu oraz identyfikację problemów, których rozwiązanie jest wymagane do osiągnięcia wyższego poziomu sigma.

Pomiar. Celem tego etapu metodyki Sześć Sigma jest zebranie informacji o aktualnej sytuacji, uzyskanie wstępnych danych o wydajności procesów i identyfikacja problemów.

Analiza. Celem etapu Analiza jest rozpoznanie przyczyn problemów z jakością i potwierdzenie ich wpływu za pomocą analizy danych.

Udoskonalenie. Na tym etapie strategii Sześć Sigma wdrażane są rozwiązania problemów (przyczyn głównych) zidentyfikowanych na etapie Analizy.

Kontrola. Celem tego etapu jest ocena i monitorowanie wyników poprzedniej fazy (Udoskonalenie).

Szum nakładany na wartości wejściowe w trakcie uczenia sieci neuronowej. Metoda postępowania mająca na celu zapobieganie przeuczeniu sieci jednokierunkowych (może być stosowana między innymi w algorytmie wstecznej propagacji błędów. Polega na wprowadzaniu w trakcie uczenia niewielkich zaburzeń losowych do danych wejściowych (prowadzi to do "rozmycia" pozycji punktów uczących).

Dodatkowe informacje można znaleźć w sekcji Sieci neuronowe.

Szybka propagacja (w sieciach neuronowych). Pomimo swojej nazwy, algorytm szybkiej propagacji (Fahlman, 1988; Patterson, 1996) niekoniecznie (nie zawsze) jest szybszy od zwykłej wstecznej propagacji błędów, chociaż może okazać się istotnie szybszy dla pewnych zastosowań.

Wydaje się, że czasami metoda szybkiej propagacji ma większą skłonność do utraty stabilności i do zatrzymywania się w minimach lokalnych niż zwykła wsteczna propagacja; tendencje te mogą czasem decydować o tym, czy istotnie dla danego problemu zastosowanie szybkiej propagacji jest właściwsze niż propagacji wstecznej.

Algorytm szybkiej propagacji działa w sposób skumulowany: podczas gdy zwykła wsteczna propagacja modyfikuje wagi po każdym pokazanym sieci przypadku, szybka propagacja wyznacza średni gradient dla powierzchni błędu na podstawie całego zbioru uczącego i dokonuje jednorazowej modyfikacji wag na końcu każdej epoki.

Z tego powodu w przypadku szybkiej propagacji nie jest dostępna opcja umożliwiająca mieszanie przypadków, gdyż nie spełniałaby ona żadnej przydatnej funkcji.

Metoda szybkiej propagacji działa w oparciu o założenie (zwykle nie mające podstaw) głoszące, że powierzchnia błędu jest lokalnie kwadratowa. Jeśli jest to prawda, to minimum funkcji błędu może zostać znalezione już po kilku epokach. Ponieważ jednak założenie to nie jest w ogólnym przypadku spełnione, algorytm musi wykonać znacznie więcej kroków, niż by to wynikało z teorii. Jednak z doświadczenia wynika, że nawet jeśli to założenie jest chociażby tylko bliskie prawdy (niekoniecznie dokładnie spełnione), to algorytm jest zbieżny do minimum bardzo szybko.

Opierając się na przytoczonym założeniu, algorytm szybkiej propagacji pracuje następująco:

W trakcie pierwszej epoki wagi są modyfikowane w taki sam sposób jak w metodzie wstecznej propagacji błędów, to znaczy w oparciu o lokalny gradient i współczynnik uczenia (określany przez użytkownika).

W kolejnych epokach wykorzystywane jest założenie dotyczące kwadratowej postaci funkcji błędu w celu bezpośredniego przejścia do minimum.

Podczas realizacji podstawowej wersji formuły szybkiej propagacji pojawić się może szereg problemów numerycznych. Po pierwsze, jeśli rzeczywista powierzchnia błędu tak dalece odbiega od założonej formy kwadratowej, że nawet nie jest wklęsła, to algorytm może w rzeczywistości działać w zupełnie niewłaściwy sposób. Z kolei przy niewielkiej zmianie gradientu, lub przy braku zmian gradientu, wyliczana z formuły algorytmu zmiana wag może być bardzo duża, lub wręcz nieskończona! W końcu, jeśli wartość gradientu wyniesie zero, to proces zmiany wag zostaje w algorytmie szybkiej propagacji na stałe zatrzymany, co może "uwięzić" proces uczenia w minimum lokalnym albo w obszarze płaskiej części funkcji błędu (tzw. plateau). Jak wiadomo zwykła wsteczna propagacja potrafi pokonywać takie przeszkody dzięki działaniu czynnika bezwładności (momentum).

Szczegóły techniczne. Algorytm szybkiej propagacji pracuje w sposób skumulowany; wyznacza on gradient błędu jako sumę gradientów błędu dla każdego przypadku uczącego.

W trakcie pierwszej epoki algorytm szybkiej propagacji modyfikuje wagi w taki sam sposób, jak w metodzie wstecznej propagacji.

Następnie zmiany wag są przeprowadzane przy użyciu formuły szybkiej propagacji:

Jeśli s(t) jest bardzo bliskie, równe lub większe niż s(t-1), to podana wyżej formuła charakteryzuje się brakiem stabilności numerycznej. Ponieważ s(t) zostaje wyznaczone po dokonaniu przesunięcia wzdłuż kierunku gradientu, powyższe warunki mogą się pojawić, jeśli nachylenie zbocza jest stałe lub się zwiększyło (to oznacza, że funkcja błędu nie jest wklęsła).

W takich przypadkach formuła modyfikująca wagi przyjmuje postać:

a - współczynnik określający maksymalne tempo zmian.

Wyzerowanie się gradientu funkcji błędu pociąga za sobą w opisywanej tu metodzie uczenia zerowy przyrost wag. Tak jest zawsze w metodach opartych na strategii maksymalnego spadku. Jednak wada opisywanego tu algorytmu jest poważniejsza, ponieważ po napotkaniu płaskiego obszaru funkcji błędu podana wyżej formuła zeruje się na stałe, co oznacza, że algorytm nie podejmie pracy nawet jeśli wartość gradientu się zmieni. Standardowy sposób rozwiązania tego problemu polega na dodaniu małej wartości do wyznaczonej powyżej zmiany wag. Jednakże podejście to może powodować brak stabilności numerycznej metody.

Zob. także Sieci neuronowe.

Szybkość uczenia (w sieciach neuronowych). Szybkość uczenia jest parametrem sterującym w niektórych algorytmach uczących sieci neuronowe, decydującym o wielkości kroku przy iteracyjnym modyfikowaniu wag.

Więcej informacji można znaleźć w sekcji Sieci neuronowe.

Średnia - Odchylenie standardowe. Algorytm (używany w sieciach neuronowych) do wyznaczenia wag zestawu wartości liczbowych. Jest to takie skalowanie liniowe, że skonwertowane wartości mają średnią taką jak podana w polu Min. śred. (domyślnie 0), a odchylenie standardowe takie jak w polu Maks, SD (domyślnie 1). Metodę tę można wybrać zamiast bardzo podobnej Minimax.

Zob. Sieci neuronowe.

Średnia geometryczna. Średnia geometryczna jest jedną z miar tendencji centralnej. Jest ona stosowana do np. przy badaniu średniego tempa zmian wielkości w czasie i gdy skala pomiarowa nie jest skala liniową. Średnia geometryczna jest wyliczana ze wzoru:

G = (x1*x2*...*xn)1/n

gdzie
n     oznacza liczebność próby.

Średnia harmoniczna. Średnia harmoniczna jest jedną ze statystyk podsumowujących rozkład wykorzystywaną w analizie danych dotyczących częstości. Jest obliczana ze wzoru:

H = n * 1/(1/xi)

gdzie
n     oznacza liczebność próby.

Średnia. Średnia jest miarą "tendencji centralnej" danej zmiennej, która niesie szczególnie dużo informacji, jeśli jest podawana wraz ze swoim przedziałem ufności. Statystykami, takimi jak średnia z próby interesujemy się gdyż charakteryzują one populację. Czym większa jest liczność próby tym bardziej niezawodna jest średnia. Z kolei wraz ze wzrostem wariancji danych średnia staje się mniej pewna (patrz także Podstawowe pojęcia).

Średnia = (xi)/n,

gdzie
n      oznacza liczność próby.

Dodatkowe informacje można znaleźć w rozdziale Podstawowe pojęcia statystyki oraz w części Statystyki opisowe rozdziału Statystyki podstawowe.

Średnie nieważone. Jeśli liczebności podklas w układzie wieloczynnikowej ANOVA różnią się między sobą, wówczas obliczane są nieważone średnie (dla poziomów czynnika) na podstawie średnich w podgrupach, tzn. bez poprawek na różnice pomiędzy licznościami podgrup.

Średnie obcięte. Dla niektórych wykresów (np. wykresu ramka-wąsy 2W, wykresu słupkowego 3W, skategoryzowanego wykresu ramka-wąsy 2W), dostępna jest opcja służąca do obcinania (tzn. usuwania) wartości ekstremalnych z rozkładu wartości zmiennej. Na przykład, możemy obciąć (tzn. usunąć) 5% najmniejszych i 5% największych wartości w obrębie rozkładu. Średnia takiego obciętego rozkładu wartości jest nazywana "średnią obciętą" (termin ten został po raz pierwszy użyty przez Tukeya, 1962).

Średnie skorygowane. Są to średnie, które otrzymalibyśmy po usunięciu wszystkich różnic wyjaśnianych przez zmienne towarzyszące w układzie analizy wariancji (zob. ANOVA).

Średnie skorygowane wyliczane są z następującego wzoru (zob. Kerlinger i Pedhazur, 1973, str. 272):

Y-śrj(adj) = Y-śrj - b(X-śrj - X-śr)

gdzie
Y-śrj(adj)  średnia skorygowana grupy j;
Y-śrj        średnia grupy j przed korektą;
b              wspólny współczynnik regresji;
X-śrj        średnia zmiennej towarzyszącej w grupie j;
X-śr       średnia ogólna zmiennej towarzyszącej.

Więcej informacji można znaleźć pod hasłem predyktor jakościowy (skategoryzowany), uogólniona macierz odwrotna; a także Ogólny model liniowy (GLM) lub ANOVA/MANOVA.






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.