W ekonomii możemy badać "przeżycie" nowych firm lub czasy "przeżycia" takich produktów, jak np. samochody. W kontroli jakości studiuje się "przeżycie" części poddanych trudnym warunkom.
Zbiory danych zawierające obserwacje ucięte można analizować przez analizę przeżycia lub analizę Weibulla niezawodności/czasu uszkodzeń.
Patrz także: ucinanie typu I i II, ucinanie pojedyncze i wielokrotne oraz ucinanie lewostronne i prawostronne.
Ucinanie jednokrotne i wielokrotne. Zdarzają się sytuacje, w których ucinanie może występować w różnych momentach czasowych (ucinanie wielokrotne) lub tylko w jednym określonym momencie czasu (ucinanie jednokrotne). Rozważmy eksperyment, w którym rozpoczynamy od 100 żarówek i przerywamy go po upływie pewnego czasu. Jeśli eksperyment zostanie zakończony w jednym określonym momencie czasu, wówczas mamy do czynienia z pojedynczym punktem ucinania, a zbiór danych jest określany jako jednokrotnie ucinany. Jednakże w medycynie często występuje ucinanie wielokrotne, np. w sytuacji, gdy pacjenci są wypisywania ze szpitala po zabiegach i badacz wie, że pacjent przeżył za każdym razem do tej określonej (dla każdego pacjenta innej) chwili, w której nastąpiło ucięcie obserwowania.
Zbiory danych, w których występują obserwacje ucięte, mogą być analizowane za pomocą metod analizy przeżycia lub procedury analiza Weibulla niezawodności/czasu uszkodzeń. Patrz także ucinanie typu I i II i ucinanie lewostronne i prawostronne.
Ucinanie lewostronne i prawostronne. Przy analizie obserwacji uciętych należy rozróżniać "stronę" przedziału czasowego, z której wystąpiło ucięcie. Rozważmy eksperyment, w którym rozpoczynamy od włączenia 100 żarówek i przerywamy go po upływie pewnego czasu. W tym eksperymencie obserwacje zawsze są ucinane z prawej strony (ucinanie prawostronne), ponieważ badacz dokładnie wie kiedy eksperyment został rozpoczęty, a obserwację przerywamy w pewnym momencie i nie mamy informacji, jak długo jeszcze pracowałyby żarówki, które nie uległy przepaleniu w trakcie eksperymentu. Można sobie również wyobrazić sytuację, w której ucinanie pojawia się z lewej strony przedziału czasowego (ucinanie lewostronne). Na przykład w badaniach medycznych badacz może wiedzieć, że pacjent został przyjęty do szpitala w określonym dniu i że przeżył następnie jakiś okres czasu, ale nie wie dokładnie kiedy po raz pierwszy pojawiły się lub zostały wykryte symptomy choroby.
Zbiory danych zawierające obserwacje ucięte mogą być analizowane za pomocą analizy przeżycia lub analizy Weibulla niezawodności/czasu uszkodzeń.Dodatkowe informacje na temat różnych rodzajów ucinania można także znaleźć po hasłami ucinanie typu I i II i ucinanie pojedyncze i wielokrotne.
Ucinanie typu I i II. Tak zwane ucinanie typu I dotyczy sytuacji kiedy kończymy test w określonej chwili czasu i tym samym o pozostałych obiektach wiemy tylko tyle, że nie uległy awarii do tej chwili (np. zaczynamy z setką żarówek i kończymy eksperyment po upływie określonego czasu). W takim wypadku czas ucięcia jest z reguły określony, a liczba wyrobów uszkodzonych jest zmienną losową. W przypadku ucinania typu II eksperyment jest prowadzony aż do chwili, kiedy określona frakcja (lub liczba) wyrobów ulegnie uszkodzeniu. (np. kończymy doświadczenie kiedy przepaleniu ulegnie 50 żarówek). W takim przypadku liczba uszkodzeń jest określona a czas jest zmienną losową.
Zbiory danych zawierające obserwacje ucięte można analizować w ramach analizy przeżycia lub analizy Weibulla niezawodności/czasu uszkodzeń.
W opisie tych analiz można znaleźć dodatkowe informacje o różnych rodzajach ucinania. Zob. także: ucinanie jednokrotne i wielokrotne oraz ucinanie lewostronne i prawostronne.
Uczenie Kohonena. Algorytm określający centra skupień dla warstwy radialnej sieci neuronowej. W trakcie jego działania, sieci neuronowej wielokrotnie prezentowane są wzorce wejściowe i modyfikowane są wagi neuronu zwycięskiego (czyli neuronu o wagach najbardziej zbliżonych do wprowadzonego wzorca) oraz neuronów sąsiadujących ze zwycięzcą. Przeprowadzana modyfikacja ma na celu upodobnienie modyfikowanych wag do wektora wartości wejściowych (Kohonen, 1982; Fausett, 1994; Haykin, 1994; Patterson, 1996).
Zob. Sieci neuronowe.
Uczenie maszyn (machine learning). Termin uczenie maszyn jest często stosowany w data mining, jako ogólne określenie algorytmów dopasowywania modeli (klasyfikacyjnych, regresyjnych jak również w metodach uczenia bez nauczyciela). W odróżnieniu od tradycyjnej statystycznej analizy danych, w której szacujemy parametry populacji metodami statystycznymi, w uczeniu maszyn (i data mining) nacisk położony jest na dokładność i użyteczność przewidywań (w regresji i klasyfikacji) lub opisu danych, a możliwość interpretacji i zrozumienia zjawiska jest sprawą drugorzędną. Dobrym przykładem takiej techniki są sieci neuronowe lub algorytmy metauczenia. W uczeniu maszyn stosujemy zazwyczaj skomplikowane modele, w przypadku których nie ma teoretycznego uzasadnienia, że będą one dobrze opisywać badane zjawisko. Jednak można sprawdzić czy modele dają dobre przewidywania dla cech zjawiska badając ich zachowanie dla prób do oceny krzyżowej.
Uczenie nienadzorowane sieci neuronowych. Uczenie nienadzorowane (bez nauczyciela) algorytmy uczące realizują na podstawie uczącego zbioru danych zawierającego jedynie zmienne wejściowe. Algorytmy te poszukują skupień w zbiorze danych.
Uczenie z nauczycielem i bez nauczyciela. Ważnym rozróżnieniem w uczeniu maszyn, dającym się zastosować również do data miningu, jest podział na algorytmy z nauczycielem i bez nauczyciela. Termin "uczenie z nauczycielem" jest zazwyczaj stosowany w przypadku klasyfikacji, gdy wartość zmiennej zależnej jest zaobserwowana i zapisana w próbie uczącej i pozwala budować model do predykcji (na nowej próbie testowej). Na przykład, można wykorzystać zbiór danych dotyczących kampanii reklamowej i dodać zmienną określającą czy dany klient odpowiedział na ofertę czy nie. Celem klasyfikacji będzie zbudowanie modelu, który pozwoli przewidzieć czy dany klient (z innej nowej listy potencjalnych klientów) odpowie na ofertę w przyszłości.
Metody te są omówione w rozdziałach Ogólne drzewa klasyfikacyjne i
regresyjne(GC&RT), Ogólne modele CHAID (GCHAID), Analiza dyskryminacyjna oraz Ogólne modele analizy
dyskryminacyjnej (GDA), MARSplines (Multivariate Adaptive Regression Splines),
a także w rozdziale Sieci neuronowe. Opisane są tam techniki, których można użyć do
budowy i dopasowania modelu do danych, w których zmienna zależna została zaobserwowana (np. czy klient odpowiedział na
ofertę czy nie odpowiedział). Metody te nazywane są algorytmami uczenia "z nauczycielem" ponieważ uczenie
(dopasowywanie modelu) opiera się na (jest "nadzorowane" przez) zaobserwowanej klasyfikacji zapisanej w
pliku danych.
W uczeniu bez "nauczyciela" sytuacja jest inna. W tym przypadku zmienna zależna, której wartość jest wynikiem
analizy, nie jest (i nie może być) bezpośrednio zaobserwowana. Chcemy wykryć strukturę lub skupienia w danych, których
nie widać w prosty sposób. Na przykład możemy wykorzystać dane z różnymi wskaźnikami demograficznymi i zmiennymi
potencjalnie istotnymi dla przyszłych zachowań rynkowych. Naszym celem będzie utworzenie segmentacji rynku, tj. grup
kilentów, którzy są do siebie w miarę podobni na podstawie pewnych zmiennych. Identyfikując uzyskane skupienia można
tak dobrać strategię dostarczania dóbr i świadczenia usług, aby dostosowana była ona do potrzeb jednostek w pewnym
skupieniu. Ten typ zadania wymaga algorytmu uczenia "bez nauczyciela", ponieważ uczenie (dopasowywanie modelu)
w tym przypadku nie może być nadzorowane i sprawdzane przez uprzednio znaną klasyfikację. Dopiero po zidentyfikowaniu
pewnego skupienia możemy zacząć przypisywać etykiety (np. po zidentyfikowaniu jednej grupy klientów jako "młodzi
podejmujący ryzyko").
Istnieje kilka metod określanych jako uczenie "bez nauczyciela", między innymi analiza składowych głównych i klasyfikacja, analiza czynnikowa, skalowanie wielowymiarowe, analiza korespondencji, sieci neuronowe,
Samoorganizujące się mapy cech (SOFM - Self-organized feature map), sieci Kohonena. Szczególnie silnymi algorytmami do
rozpoznawania wzorców i skupień są algorytm EM i algorytm k-średnich.
Ujemnie wykładnicze (wygładzanie wykresu 2W). Do danych w układzie współrzędnych XY zostaje dopasowana krzywa zgodnie z procedurą wygładzania za pomocą funkcji wykładniczej o ujemnym wykładniku (wpływ pojedynczych punktów zmniejsza się wykładniczo wraz z ich poziomą odległością od odpowiednich punktów krzywej).
Ujemnie wykładnicze (wygładzanie wykresu 3W). Do danych w układzie współrzędnych XYZ zostaje dopasowana powierzchnia zgodnie z procedurą wygładzania ujemnie (odwrotnie) wykładniczego ważenia (wpływ pojedynczych punktów zmniejsza się wykładniczo wraz z poziomą odległością od odpowiednich punktów powierzchni).
Układ zrównoważony ANOVA. Układ ANOVA jest układem zrównoważonym ANOVA jeśli wszystkie komórki mają jednakową liczność N, nie ma brakujących podklas, a jeśli występuje zagnieżdżanie, to jest to zagnieżdżenie zrównoważone, czyli w obrębie poszczególnych poziomów czynnika(ów), w którym występuje zagnieżdżanie, są te same ilości poziomów czynników zagnieżdżanych. Większość układów międzygrupowych ANOVA można analizować bardziej efektywnie jeśli są zrównoważonymi układami ANOVA.
Uogólniona macierz odwrotna. Uogólniona macierz odwrotna (oznaczana indeksem górnym -) to dowolna macierz A spełniająca warunek:
AA-A=A
Jeżeli A nie jest macierzą osobliwą to istnieje tylko jedna uogólniona macierz odwrotna i jest ona równa macierzy odwrotnej.
Informacje uzupełniające przedstawiono w omówieniu macierzy osobliwej oraz macierzy odwrotnej.
Uogólnione modele addytywne (Generalized Additive Models). Uogólnione modele addytywne są rozwinięciem i rozszerzeniem uogólnionych modeli liniowych. W przypadku uogólnionych modeli liniowych wartości przekształconej zmiennej zależnej przewidywane są na podstawie liniowej kombinacji zmiennych niezależnych (predyktorów). Przekształcenie jest określone przez funkcję wiążąca; ponadto w modelu możemy przyjąć różne rozkłady zmiennej zależnej. Przykładem uogólnionego modelu liniowego jest regresja logistyczna, w której zmienna zależna ma rozkład dwumianowy, a funkcją wiążącą jest przekształcenie logit. W przypadku uogólnionych modeli addytywnych zamiast kombinacji liniowej predyktorów, stosujemy nieparametryczną funkcję uzyskaną przez zastosowanie wygładzania do wykresu rozrzutu reszt cząstkowych (dla przekształconych wartości zmiennej zależnej).
Więcej informacji można znaleźć w pracach: Hastie i Tibshirani, 1990 oraz Schimek, 2000.
Uogólniony model liniowy. Uogólniony model liniowy stanowi rozszerzenie modelu regresji liniowej umożliwiające testowanie efektów (1) zarówno nieliniowych jak i liniowych (2) dla predyktorów jakościowych jak również ciągłych w przypadku (3) zmiennej zależnej, której rozkład jest jednym z kilku specjalnych rozkładów należących do rodziny rozkładów wykładniczych (np. gamma, Poissona, dwumianowym itp.) lub jest rozkładem normalnym.
Omówienie zagadnienia uogólnionego modelu liniowego można znaleźć we wprowadzeniu do Uogólnione modele liniowe (GLZ).
Usunięta reszta. Usuniętą wartością resztową jest reszta dla danej obserwacji, obliczana wg regresji otrzymanej z wyłączeniem z danych tego przypadku. Jeśli usunięta reszta różni się znacznie od zwykłej reszty standaryzowanej, wówczas można sądzić, że dany przypadek jest przypadkiem odstającym, ponieważ jego usunięcie znacznie zmieniło równanie regresji.
Patrz też, standaryzowana reszta, odległość Mahalanobisa i odległość Cooka.
Usuwanie brakujących danych parami a zastępowanie średnią. Aby uniknąć utraty danych, która występuje przy stosowaniu metody usuwania przypadkami, możemy zastosować jedną z dwóch innych metod. Są to (1) tzw. zastępowanie brakujących danych średnią (zastępujemy wszystkie brakujące dane w obrębie danej zmiennej jej średnią) oraz (2) usuwanie brakujących danych parami. Te metody operowania brakującymi danymi są dostępne w wielu modułach; możemy również wykorzystywać te metody do stałego "usuwania" brakujących danych z naszego zbioru danych. Metoda zastępowania średnią posiada zarówno pewne zalety jak i wady w porównaniu do metody usuwania przypadkami. Główna zaleta polega na tym, że metoda ta tworzy "wewnętrznie zgodne" zbiory rezultatów ("prawdziwe" macierze korelacji). Główne wady to:
Dodatkowe informacje można znaleźć pod hasłami usuwanie brakujących danych parami a zastępowanie średnią oraz usuwanie brakujących danych przypadkami lub parami.
Usuwanie brakujących danych przypadkami. Jeśli wybierzemy usuwanie brakujących danych przypadkami, wówczas tylko przypadki, które nie zawierają żadnych brakujących danych, dla żadnej ze zmiennych wybranych do analizy, zostaną uwzględnione w analizie. W przypadku korelacji, wszystkie współczynniki korelacji są obliczane po wykluczeniu przypadków, które wykazują brakujące dane dla którejkolwiek ze zmiennych (wszystkie korelacje są oparte na tym samym zbiorze danych).
Patrz także: usuwanie brakujących danych przypadkami lub parami.
V-krotna ocena krzyżowa. Metoda ta polega na v-krotnym (np. trzykrotnym) powtórzeniu procedury wylosowania z danych próbki do analizy i zbudowaniu na jej podstawie modelu. Tak więc otrzymuje się v zestawów ocen jakości modelu, co pozwala analitykowi wyrobić sobie opinię o funkcjonowaniu danego modelu lub metody predykcji. Metody tej używa się w odniesieniu do drzew klasyfikacyjnych i regresji.
Walidacja (w sieciach neuronowych). To samo, co sprawdzian krzyżowy. W kontekście sieci neuronowych oznacza korzystanie z dodatkowego zbioru danych (zbioru walidacyjnego) w czasie iteracyjnego uczenia sieci. Zbiór testowy służy do korekty wag sieci, a zbiór walidacyjny do niezależnego sprawdzianu, czy polepsza się zdolność generalizacji sieci neuronowej.
Wariancja. Wariancja (termin po raz pierwszy użyty przez Fishera w 1918 r.) w populacji jest obliczana ze wzoru:
2 =
(xi-µ)2/N
gdzie
µ oznacza średnią w populacji
N oznacza liczebność populacji.
Nieobciążony estymator wariancji z próby jest obliczany jako:
s2 =
(xi-xśr)2/n-1
gdzie
xśr oznacza średnią z próby
n oznacza liczebność próby.
Patrz także, Statystyki opisowe.
Warstwicowy/Obszary. Wykresy trójkątne - Skategoryzowane wykresy warstwicowe (powierzchnie)W przypadku tego typu wykresu trójkątnego, trójwymiarowa powierzchnia (dopasowana do danych o czterech współrzędnych) jest rzutowana na dwuwymiarową płaszczyznę w postaci warstwic, dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych). Dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych) wykreślany jest wykres składowy, a wszystkie wykresy składowe są rozmieszczane na jednym obrazie, umożliwiając przeprowadzanie porównań pomiędzy podzbiorami (kategoriami) danych. Informacje uzupełniające można znaleźć w sekcjach Wykresy trójkątne i Funkcje dopasowywane na wykresach trójkątnych.

Szczegółowe omówienie wykresów skategoryzowanych znajduje się w sekcji Wykresy skategoryzowane, a informacje uzupełniające można znaleźć w tematach Data Mining oraz Wybrane techniki analizy graficznej.
Warstwy ukryte sieci neuronowej. Do warstw ukrytych zalicza się wszystkie warstwy sieci neuronowej poza warstwą wejściową i wyjściową. Warstwy ukryte umożliwiają uwzględnienie zależności nieliniowych.
Wartości ekstremalne (wykresy ramka-wąsy). Wartości "znacznie" oddalone od środka rozkładu nazywane są odstającymi lub ekstremalnymi, jeżeli spełniają pewne warunki.

Na wykresach typu ramka-wąsy wartości danych uważane są za ekstremalne, jeżeli spełniony jest warunek:
wartość punktu danych > RG + 2*WO*(RG - RD)
lub
wartość punktu danych < RD - 2*WO*(RG - RD)
gdzie
RG jest górną wartością ramki (np. średnia + błąd standardowy lub
percentyl 75%).
RD jest dolną wartością ramki (np. średnia - błąd standardowy lub
percentyl 25%).
WO jest współczynnikiem dla obserwacji odstających (domyślnie jest to wartość 1,5; wtedy wartością ekstremalną jest wartość leżąca powyżej lub
poniżej granicy wyznaczonej przez 3 razy odłożoną długość ramki (RG-RD)).
Poniżej zilustrowane są zakresy wartości odstających i ekstremalnych na przykładzie "klasycznego" wykresu ramka-wąsy, gdzie górna wartość ramki (RG) oznacza percentyl 75-ty, dolna wartość ramki (RD) oznacza percentyl 25-ty, a współczynnik dla obserwacji odstających wynosi 1,5. (więcej informacji zob. Tukey, 1977)

Wartości własne. Wartości własne obliczne są podczas wyodrębnianiu pierwiastków kanonicznych. Można je interpretować jako proporcje wariancji wyjaśnianej przez korelacje między odpowiednimi zmiennymi kanonicznymi. Zauważmy, że proporcję tę oblicza się w stosunku do wariancji zmiennych kanonicznych, to znaczy ważonych sum dwóch zbiorów zmiennych; wartości własne nie mówią nam, jak duża zmienność jest wyjaśniania w którymś ze zbiorów zmiennych. Obliczanych jest tyle wartości własnych, ile jest pierwiastków kanonicznych, to znaczy tyle, ile zmiennych ma mniejszy zbiór.
Wartość charakterystyczna przeżycia.
W analizie Weibulla niezawodności/czasu uszkodzeń (patrz Analiza procesu)
wartość charakterystyczna jest definiowana jako czas, do którego 63,2% populacji uległo awarii. Jest to wartość
odpowiedniego parametru skali b, w dwuparametrowym rozkładzie Weibulla
(przy
= 0, w przeciwnym wypadku jest równy b+
).
Wartość progowa. Wartość krytyczna (czasami ustalana arbitralnie) pozwalająca ocenić, czy został spełniony określony warunek lub też wartość graniczna, stanowiąca punkt rozdzielający dwa warunki. W przypadku sieci neuronowych, przez wartość progową w neuronach liniowych rozumie się wielkość odejmowaną od sumy ważonych wejść (czyli taką, która w funkcji PSP wyznacza wartość pobudzenia neuronu). W neuronach radialnych wartość progowa pełni funkcję odchylenia.
Warunki zatrzymania (w sieciach neuronowych). Algorytmy korzystające z wartości gradientu (wstecznej propagacji błędów, Quasi-Newtona, gradientów sprzężonych, Levenberga-Marquardta, szybkiej propagacji, Delta-bar-Delta, Kohonena), dokonują w każdej epoce próby zmniejszania wartości błędu uczenia.
Uczenie mogłoby się zatrzymać po zrealizowaniu pewnej liczby epok. Wyspecyfikowanie liczby epok jest najczęściej stosowanym warunkiem zatrzymania procedury uczącej. Jednak zdefiniować można też inne warunki określające moment zatrzymania realizacji algorytmu uczenia.
Uczenie może zostać zakończone gdy:
błąd obniży się do wskazanego poziomu;
wartość błędu nie polepsza się o określoną wartość przez określoną liczbę epok.
Warunki rozpatrywane są w sposób łączny; to znaczy, że jeśli określono kilka warunków zatrzymania, to uczenie zostanie zatrzymane, jeśli dowolny jeden z nich zostanie spełniony. W szczególności, maksymalna liczba epok musi być zawsze określona, co zabezpiecza przed "zapętleniem się" programu.
Warunki zatrzymania bazujące na wartości błędu mogą być również określane niezależnie w odniesieniu do błędu dla zbioru uczącego i błędu dla zbioru walidacyjnego (jeśli taki istnieje).
Docelowy błąd. Zadeklarować można docelowy dopuszczalny błąd uczący, jak i walidacyjny. Jeśli błąd RMS dla przypadków uczących przyjmie wartość niższą od określonego przez użytkownika poziomu, to uczenie zostanie przerwane.
Minimalna poprawa błędu. Zdefiniować można wymaganie, o ile przynajmniej powinna zmniejszyć się wartość błędu RMS dla zbioru uczącego i niezależnie walidacyjnego w ciągu jednej epoki. W przypadku, kiedy uczenie nie przyniesie wymaganej poprawy jakości działania sieci zgodnie z tym kryterium zostanie zatrzymane (o ile parametr Okno nie wynosi zero).
Czasami spadek błędu może w pewnym okresie uczenia zmaleć (postęp uczenia jest powolny) lub nawet błąd może czasowo się zwiększyć (szczególnie jeśli użyto opcji mieszania przypadków w algorytmie wstecznej propagacji, lub gdy dodawany jest szum, ponieważ oba te mechanizmy wprowadzają składnik losowy do procesu uczenia i mogą powodować efekt chwilowego pogorszenia wyniku uczenia mimo jego globalnie poprawnego przebiegu).
Chcąc się zabezpieczyć przed przedwczesnym zatrzymaniem przebiegu, określamy szerokość Okna jako większą od jeden. Oznaczać to będzie wymaganie, by uczenie było przerywane dopiero wtedy, gdy przez dłuższy czas nie przynosi pożądanych rezultatów.
Technika zatrzymywania uczenia w przypadku stwierdzenia braku postępu w procesie polepszania działania sieci kontrolowanej zbiorem walidacyjnym jest szczególnie zalecana jako zabezpieczająca przed przeuczeniem sieci.
Określenie ujemnej wartości "polepszenia" umożliwia zatrzymanie algorytmu tylko w przypadku stwierdzenia istotnego pogorszenia się działania sieci. Algorytm zatrzyma się, gdy w trakcie określonej liczby epok błąd przez cały czas będzie gorszy (o wyspecyfikowaną wartość) od osiągniętego uprzednio przez sieć najlepszego poziomu.
Okno. Parametr ten określa "okno czasowe", przez które rozumie się tu pewną liczbę epok, w trakcie których sprawdza się poziom błędu. Jeśli w trakcie realizacji podanej liczby epok wartość błędu nie zmniejszyła się o żądaną wartość, to przyjmuje się, że skuteczność uczenia jest już zbyt mała i realizowany algorytm uczenia jest zatrzymywany.
Domyślnie parametr Okno wynosi zero, co oznacza, że warunek zatrzymania oparty na wymaganym polepszeniu po prostu nie jest stosowany.
Warunki zatrzymania. Zestaw warunków, których spełnienie powoduje zatrzymanie wykonywanego iteracyjnie procesu (dopasowywania, poszukiwania, uczenia). W przypadku sieci neuronowych warunki zatrzymania obejmują maksymalną liczbę epok, dopuszczalny poziom błędu, wymagane minimalne zmniejszenie błędu uzyskane w określonym okresie uczenia.
Ważone najmniejsze kwadraty (w regresji). W niektórych przypadkach, w analizie regresji wskazane jest przypisanie obserwacjom różnych wag, czyli obliczenie ważonych najmniejszych kwadratów. Postępujemy w ten sposób najczęściej gdy wariancja reszt nie jest stała w całym zakresie wartości zmiennych niezależnych. W takim przypadku jako wagi można wykorzystać odwrotności wariancji reszt i wykonać estymację metodą ważonych najmniejszych kwadratów. (W praktyce zwykle nie znamy tych wariancji, ale najczęściej są one proporcjonalne do wartości zmiennej zależnej, co można wykorzystać do obliczenia wag). Neter, Wasserman i Kutner (1985) przedstawiają przykład takiej analizy.
Wdrażanie. Wdrożenie predykcyjnego data mining to stosowanie otrzymanego modelu predykcyjnego czy klasyfikacyjnego dla nowych danych. Po otrzymaniu (nauczeniu) modelu lub zestawu modeli dla jakiegoś zastosowania, chcemy użyć tego modelu z nowymi danymi, do predykcji wielkości, których wartości nie znamy a chcielibyśmy znać. Bank, na przykład, chciałby mieć model (sieć neuronową, narzędzie metauczenia) pozwalający wskazać podejrzane operacje na karcie kredytowej, na podstawie posiadanych danych o tej operacji.
STATISTICA Enterprise Server. STATISTICA Enterprise Server jest jedynym systemem korporacyjnym dającym tak duże, niekończące się pole nowych możliwości wykorzystania całej linii oprogramowania STATISTICA, analizy danych, data mining i sterowania jakością. STATISTICA Enterprise Server dodaje do STATISTICA pełne możliwości internetowe, włączając w to możliwość interakcyjnego jak i wsadowego uruchamiania STATISTICA z przeglądarki internetowej, z jakiegokolwiek komputera (z Linux, UNIX). Używając STATISTICA Enterprise Server, przerzucić można czasochłonne zadania obliczeniowe na serwery (przetwarzanie rozproszone), korzystać z wielowarstwowej architektury klient-serwer, zarządzać projektami w sieci WWW, współpracować w ramach biura jak i całego globu i wiele więcej.Wektor wsparcia. Zbiór punktów w przestrzeni czynników wyznaczający granicę pomiędzy obiektami różnych klas.
Wersja korporacyjna STATISTICA (SEWSS - STATISTICA Enterprise-wide
SPC System).
STATISTICA Enterprise-wide SPC System (SEWSS) firmy StatSoft jest programem statystycznym dla zespołów
współpracujących osób, bazującym na najnowszej, aktualnej technologii wymiany informacji. SEWSS służy lokalnym
i globalnym, korporacyjnym zadaniom sterowania jakością i poprawy procesów przy zastosowaniu metodyki Sześć Sigma. Umożliwia monitorowanie w czasie rzeczywistym, rejestrację
rozregulowań na hali produkcyjnej, inżynierom daje do dyspozycji komplet narzędzi analitycznych a kierownictwu
perfekcyjnej jakości raporty i wiele, wiele więcej. Ponadto, SEWSS oferuje:
Internetowo zorientowany interfejs użytkownika i narzędzia raportowania
Prosty interfejs operatora do wprowadzania i monitorowania danych
Narzędzia do analizy w czasie rzeczywistym
Wspieranie pracy grupowej, dzielenie zapytań do baz danych, aplikacji itd.
Narzędzia do administrowania systemem oparte na kreatorach
Łatwy dostęp do analiz i raportów
Wbudowany system zabezpieczeń
Nieograniczone możliwości reagowania na alarmy, rejestracja przyczyn rozregulowań i działań naprawczych
Narzędzia interaktywnego tworzenia zapytań do baz danych
Integrację z zewnętrznymi aplikacjami (MicroSoft Word, MicroSoft Excel, przeglądarki)
Nieograniczone możliwości rozwoju i dopasowywania
i wiele, wiele więcej....
Wiarygodność. Wiarygodność (dawniej wiarogodność) to prawdopodobieństwo zdarzenia oceniane na podstawie aktualnych obserwacji
Wielokrotne dychotomie. Jednym z możliwych schematów kodowania, który może zostać użyty w przypadku, gdy na dane pytanie można udzielić więcej niż jednej odpowiedzi jest zakodowanie odpowiedzi za pomocą wielokrotnych dychotomii. Przypuśćmy, że częścią sondażu jest pytanie o trzy ulubione napoje. Odpowiedni fragment kwestionariusza mógł wyglądać następująco:
Podaj nazwy Twoich trzech ulubionych napojów:
1:__________ 2:__________ 3:__________
| COKE | PEPSI | SPRITE | . . . . | |
|---|---|---|---|---|
| Przypadek 1 Przypadek 2 Przypadek 3 . . . | 1 . . . | 1 1 . . . | 1 . . . |
Dodatkowe informacje o wielokrotnych dychotomiach można znaleźć w części Tabele wielokrotnych odpowiedzi w sekcji Statystyki podstawowe.
Wielokrotne osie wykresu. Taką nazwą określamy układ osi na wykresie, w którym dwie lub więcej osi rysowanych jest równolegle do siebie. Osi wielokrotnych używamy do:

W drugim przypadku wymagane jest zastosowanie odpowiedniej legendy dla osi, tak jak na powyższym rysunku.
Wielokrotne próbkowanie (w sieciach neuronowych). Główny problem z sieciami neuronowymi polega na zdarzającym się przeuczaniu sieci, czyli niedostatecznym generalizowaniu wiedzy zawartej w dostępnych danych. Towarzyszą temu trudności ze skwantyfikowaniem jakości sieci dla nowych danych.
Jeżeli użyliśmy "bezpiecznego" modelu liniowego, to może się okazać, że zabezpieczenie takie drogo kosztuje, gdyż nasza "optymalna" sieć bardzo źle opisuje zależność, która okazuje się być nieliniowa.
Jeżeli, dla odmiany używamy modeli nieliniowych, to mamy do wyboru mnóstwo parametrów i w sumie bardzo dużo różnych modeli. Modele te trzeba sprawdzić na niezależnych danych i umieć wybrać najlepszy.
Większość prac dotyczących oceny jakości sieci skupia się na próbkowaniu. Sieć optymalizujemy na bazie uczącego zbioru przypadków. Niezależny zbór przypadków - zbiór walidacyjny pozwala zatrzymać proces uczenia w niebezpiecznym momencie gdy sieć zaczyna zbyt dokładnie uczyć się przypadków uczących. Zbiór walidacyjny pozwala też wybrać najlepsze sieci spośród sieci uczonych różnymi algorytmami. W takiej sytuacji potrzebny jest trzeci, niezależny podzbiór przypadków (testowy) aby można było w rzetelny sposób ocenić jakość sieci oczekiwaną w przyszłości, dla nowych danych.
Chociaż ocena jakości sieci otrzymana na podstawie zastosowania jej do zbioru testowego jest nieobciążona, to jednak będzie miała raczej dużą wariancję. Najlepiej byłoby powtórzyć wielokrotnie cały proces uczenia sieci, za każdym razem używając nowych danych (zarówno przypadków uczących, walidacyjnych jak i testowych) pochodzących z tej samej populacji. Na końcu można by obliczyć średnią jakość otrzymując pewniejszą ocenę zdolności generalizacyjnych sieci.
W rzeczywistym świecie jednak rzadko dysponujemy nadmiarem danych. Tym bardziej niepokojąca jest myśl, że do uczenia sieci nie używamy wszystkich przypadków (bo część musi zostać do walidacji i testowania). Czy można by znaleźć sposób wykorzystania wszystkich przypadków do uczenia, a może i do walidacji i testowania?
Rozpatrzmy technikę próbkowania (wielokrotnego) typu sprawdzianu krzyżowego. Podzielmy posiadany zbiór przypadków np. na dziesięć części. Jedną z części zostawmy do testowania a pozostałe dziewięć "zużyjmy" do uczenia i walidacji. I tak postąpić możemy dziesięć razy, za każdym razem mając nowy podzbiór testowy. Na końcu obliczamy średnią z dziesięciu współczynników jakości.
Sprawdzian krzyżowy ma oczywiste zalety. Ucząc jedną sieć zwykle zostawiamy 25% przypadków do jej testowania. W technice sprawdzianu krzyżowego możemy znacznie zredukować zbiór testowy, nawet do jednego przypadku. Eksperyment z uczeniem sieci powtarzamy wtedy tyle razy ile w ogóle mamy przypadków w naszym zbiorze danych. W każdym eksperymencie jeden (zawsze inny) przypadek tworzy podzbiór testowy a pozostałe uczący i walidacyjny. Oczywiście, przy stosunkowo dużym zbiorze danych może to wymagać sporo czasu obliczeniowego, ale zyskujemy bardzo dobrą ocenę zdolności generalizacyjnej sieci.
Co dokładnie mówi nam wynik sprawdzianu krzyżowego? Każdy eksperyment prowadzony był przy tych samych parametrach (ten sam algorytm uczący, liczba epok, współczynnik uczenia, itd.). W takiej sytuacji, otrzymana średnia jakość jest oceną jakości oczekiwanej przy nowych danych (pochodzących z tej samej populacji) dla pojedynczej sieci otrzymanej wg tego samego algorytmu (nie wykluczając sieci już otrzymanych).
Możemy więc losowo wybrać jedną z sieci (po walidacji) i używać jej (traktując jej jakość obliczona na zbiorze walidacyjnym jako oczekiwana jakość dla nowych danych). Jednak, intuicyjnie wygląda to na pewne marnotrawstwo - mamy tyle gotowych sieci, dlaczego nie używać ich wszystkich? Utwórzmy z nich zespół i jako wynik predykcji bierzmy średnią z wyników wszystkich sieci, albo przy klasyfikacji wybierajmy klasę wskazana przez większość sieci (głosowanie). Takie zespoły mogłyby nawet zawierać sieci o różnych architekturach, uczone różnymi algorytmami.
Czy jeśli tworzymy zespół z sieci po walidacji to średnia z ich jakości testowych jest rzeczywiście nieobciążoną oceną zdolności generalizacyjnej zespołu?
Nie, nie jest. Oczekiwana jakość zespołu sieci nie jest taka jak średnia jakość jej sieci składowych; jest lepsza. Ściśle mówiąc jest co najmniej tak dobra, a przeważnie lepsza. Można więc używać zespołu wiedząc, że jego jakość nie jest gorsza niż obliczona średnia jakość sieci składowych.
Poza sprawdzianem krzyżowym są jeszcze inne techniki próbkowania:
Próbkowanie losowe (Monte Carlo) - podzbiory są losowane, każdy przypadek losowo jest przypisywany do jednego z trzech podzbiorów.
Bootstrap - jest to technika (Efron, 1979) losowania ze zwracaniem, każdy przypadek może być wiele razy wylosowany do zbioru bootstrapowego. Losowanie można prowadzić w nieskończoność otrzymując (coraz wolniej) coraz lepszą dokładność. W porównaniu ze zwykłym losowym pobieraniem próbek (Monte Carlo) unikamy tu problemów z generalizacją wynikających ze skończoności rozmiaru zbioru. Breiman (1996) sugeruje próbkowanie bootstrap do uczenia wielokrotnych modeli dla uśrednienia zespołów (robił to dla drzew decyzyjnych, ale jego wnioski mają wartość ogólną), technikę tę nazywa bagging.
y = b0 + b1x + b2x2 + b3x3 + ... + bnxn
gdzie n jest stopniem wielomianu.
Dopasowanie modeli wielomianów wycentrowanych za pomocą regresji wielorakiej. Dopasowanie wielomianów wyższych stopni, zmiennej niezależnej o średniej różnej od zera, może powodować trudne do rozwiązania problemy numeryczne. W szczególności współczynniki wielomianu będą mocno skorelowane z powodu niezerowej średniej oryginalnej zmiennej niezależnej. W przypadku dużych liczb (np. dat wyrażanych jako liczba dni od roku 1900) problem ten może być bardzo poważny, a w przypadku jeśli nie zostaną zastosowane poprawne zabezpieczenia, może prowadzić do błędnych rezultatów! Rozwiązanie tego problemu polega na "wycentrowaniu" zmiennej niezależnej (niekiedy procedura ta jest określana jako "wycentrowane wielomiany"), tzn. odjęciu średniej a następnie obliczeniu współczynników. Szczegółowe omówienie tego zagadnienia (oraz analizy modeli wielomianowych) można znaleźć w podręczniku Netera, Wassermana i Kutnera (1985, rozdział 9).
Wielorakie R. Współczynnik korelacji wielorakiej (wielorakie R) jest to dodatni pierwiastek kwadratowy z R-kwadrat (współczynnika wielorakiej determinacji, zob. wariancja resztowa i R kwadrat). Statystyka ta jest użyteczna w regresji wielorakiej (tzn. z wieloma zmiennymi niezależnymi), gdy chcemy opisać zależność między zmiennymi.
Wolny parametr. Wartość liczbowa w modelu strukturalnym (zob. Modelowanie równań strukturalnych), będącą częścią modelu, jednak nie ustalona przez hipotezę modelu. Wolne parametry oszacowywane są w programie metodą iteracyjną. W języku PATH1 oznaczane są one przy pomocy liczb całkowitych umieszczonych na lub nieznacznie ponad środkiem linii nici lub strzałki. Poniższe ścieżki, na przykład, obie mają wolny parametr 14.
(F1)-14->[X1]
(e1)-14-(e1)
Jeżeli dwa współczynniki mają ten sam numer wolnego parametru (jak w powyższym przykładzie), to obu przypisana będzie ta sama wartość liczbowa. Tak więc przypisanie tego samego numeru wolnego parametru narzuca warunek równości współczynników.
Wskaźniki możliwości procesu. Kiedy proces jest monitorowany poprzez karty kontrolne (np. karta X-średniego i R, zob. Karty kontrolne), oblicza się wskaźniki zdolności procesu. Szczególnie, kiedy zbiór danych składa się z wielu próbek, takich jak dane zebrane do kart kontrolnych, można obliczyć dwa różne wskaźniki zmienności danych. Jeden, to zwykłe odchylenie standardowe wszystkich obserwacji (pomija się wtedy fakt, że dane składają się z wielu próbek). Drugi jest estymacją wewnętrznej wariancji procesu na podstawie wewnętrznej zmienności próbki. Można wtedy, o ile jest wykreślana karta X-średniego i R wykorzystać zwykły estymator Rśr/d2 sigmy procesu (zob. Duncan, 1974; Montgomery, 1985, 1991). Należy jednak zauważyć, że ten estymator jest dopuszczalny, jeśli proces jest stabilny statystycznie. Szczegółowa dyskusja na temat różnicy pomiędzy ogólną a wewnętrzną wariancją procesu jest przedstawiona w podręczniku ASQC/AIAG (ASQC/AIAG, 1991, str. 80).
Kiedy w obliczeniach standardowej zdolności użyta jest ogólna zmienność procesu, wynikowe wskaźniki są zazwyczaj określane jako wskaźniki wykonania procesu (jako że opisują rzeczywiste wykonanie procesu, takimi wskaźnikami są Pp, Pr oraz Ppk), podczas gdy wskaźniki obliczone na podstawie wewnętrznej wariancji (sigma wewnątrz próbki) są określane jako wskaźniki zdolności (gdyż opisują one wewnętrzną zdolność procesu, są to np. Cp, Cr oraz Cpk).
Dodatkowe informacje można znaleźć w opisie wskaźników zdolności procesu, a szczegóły obliczeniowe we wprowadzeniu do Analizy zdolności procesu.
Wskaźniki wpływu. W zagadnieniach regresji termin ten odnosi się do elementów diagonalnych macierzy o postaci (X(X'X)-1X'). Dany element diagonalny (hii) reprezentuje odległość pomiędzy wartościami macierzy X dla i-tej obserwacji, a wartościami średnimi wszystkich wartości macierzy X. Wartości te wskazują na to czy wartości macierzy X dla danej obserwacji są odstające. Element diagonalny jest określany terminem wskaźnika wpływu. Duża wartość wskaźnika wpływu oznacza, że i-ta obserwacja jest odległa od środka obserwacji w macierzy X (Neter i inni, 1985).
Wskaźniki zdolności procesu. W przemysłowym sterowani jakością, w sytuacji gdy monitorowany proces jest uregulowany, obliczane są wskaźniki mierzące jakość produkowanych elementów (w ten sposób ocenia się zdolność procesu). Jakość ta wyraża się stopniem do jakiego produkowane elementy mieszczą się w obrębie dopuszczalnych norm technologicznych. Mając próbkę o określonym rozmiarze możemy oszacować odchylenie standardowe odpowiedniej charakterystyki jakości (np. średnicy pierścieni tłokowych). Możemy następnie wykreślić histogram rozkładu uwzględnianej charakterystyki (średnicy pierścieni tłokowych).

Jeżeli badana charakterystyka podlega rozkładowi normalnemu, wówczas możemy obliczyć frakcję elementów (pierścieni tłokowych), które mieszczą się w obrębie granic specyfikacji (dostępne są również metody dla rozkładów innych niż normalny, mianowicie tzw. metoda percentyli).
Powszechnie stosowane wskaźniki zdolności procesu to Cp, Cr oraz Cpk. Wszystkie te wskaźniki określają stosunek granic technologicznych (rozstęp procesu) do granic obejmujących przedział ±3 sigma wokół wartości zakładanych.
Szczegóły obliczeniowe można znaleźć w części Wskaźniki zdolności procesu oraz pod hasłem wskaźniki możliwości procesu.
Uwaga terminologiczna. W Polsce używane są zamiennie terminy "wskaźniki wydolności" i "wskaźniki zdolności" procesu.
Wsparcie (w analizie koszykowej). Wsparcie lub pokrycie (ang. support) jest jednym z wyników analizy koszykowej (analizy asocjacji), którą stosujemy w data i text mining. W przypadku reguły A ==> B (tzn. jeśli zaszło zdarzenie A to zaszło B) wsparcie oznacza prawdopodobieństwo jednoczesnego wystąpienia obu zdarzeń. Innymi słowy, jest to miara, jak często wspólnie wystąpiły oba zdarzenia. Przykładowo, jeśli wsparcie dla reguły: (samochód = Porsche i Wiek <20) ==> Podwyższona składkawynosi 1/100, to 1 na 100 ubezpieczonych posiada samochód marki Porsche, ma mniej niż 20 lat i przypisano mu podwyższoną składkę ubezpieczeniową.
Współczynnik B. Linia prosta w przestrzeni dwuwymiarowej (na płaszczyźnie) zdefiniowana jest przez równanie Y=a+b*X. Oznacza ono, że wartość zmiennej Y może być obliczona jako wyraz wolny (a) plus nachylenie (b) razy zmienna X. Wyraz wolny bywa nazywany rzędną początkową, a nachylenie nazywa się współczynnikiem regresji lub współczynnikiem B. Ogólniej, procedury regresji wielokrotnej pozwalają oszacować model liniowy o postaci:
Y = a + b1*X1 + b2*X2 + ... +bp*Xp
Zauważmy, że w równaniu tym współczynniki regresji (lub współczynniki B) określają niezależny wkład każdej ze zmiennych niezależnych przy prognozowaniu wartości zmiennej zależnej. Jednakże, ich wartości, dla poszczególnych zmiennych, mogą nie być porównywalne ponieważ zależą od jednostek miary lub rzędu wielkości odpowiednich zmiennych. Niektóre pakiety statystyczne podają zarówno surowe współczynniki regresji (współczynniki B) jak również współczynniki Beta, które są porównywalne dla różnych zmiennych.
Dodatkowe informacje można znaleźć w części Wprowadzenie do regresji wielorakiej.
Współczynnik determinacji. Jest to kwadrat współczynnika korelacji liniowej Pearsona pomiędzy dwiema zmiennymi. Wyraża on wielkość wariancji wspólnej dwóch zmiennych. Patrz też, Hays, 1988.
Współczynnik Gamma. Statystyka Gamma jest bardziej wskazana niż R Spearmana i tau Kendalla, gdy dane zawierają wiele obserwacji powiązanych (tj. mających taką samą wartość). Założenia dla współczynnika gamma są takie jak dla R Spearmana i tau Kendalla, natomiast pod względem interpretacji i obliczeń statystyka gamma jest bardziej podobna do tau Kendalla. Współczynnik gamma wyznacza się jako różnicę między prawdopodobieństwem, że uporządkowanie dwóch zmiennych jest zgodne, a prawdopodobieństwem, że jest niezgodne, podzieloną przez (1 - prawdopodobieństwo występowania obserwacji powiązanych). Jak widać współczynnik gamma jest podobny do tau Kendalla - jedyna różnica to jawne uwzględnienie powiązanych obserwacji. Szczegółowe omówienie tej statystyki można znaleźć w Goodman i Kruskal (1954, 1959, 1963, 1972), Siegel (1956), Siegel i Castellan (1988).
Współczynnik korelacji (w analizie koszykowej). Przy stosowaniu (w data lub text mining'u) algorytmów poszukiwania reguł asocjacyjnych typu If Body then Head (np. If (Car=Porsche and Age<20) then (Risk=High and Insurance=High)), wartość współczynnika korelacji obliczać można jako iloraz support value reguły i pierwiastka z iloczynu support values, osobno dla Body i Head.
Współczynnik korelacji liniowej Pearsona. Najszerzej wykorzystywanym współczynnikiem korelacji jest współczynnik r Pearsona (Pearson 1896), zwany także współczynnikiem korelacji liniowej lub momentu iloczynowego (termin korelacja został po raz pierwszy użyty przez Galtona, 1888). Współczynnik korelacji określa stopień w jakim dwie zmienne są "proporcjonalne" względem siebie. Wielkość korelacji (tzn. współczynnika korelacji) nie zależy od używanych jednostek miary; na przykład, korelacja pomiędzy wysokością i masą ciała będzie taka sama niezależnie od tego czy jako jednostki stosowano cale i funty, czy centymetry i kilogramy. Określenie proporcjonalne oznacza zależność liniową; to znaczy korelacja jest wysoka, jeśli można ją aproksymować przy pomocy linii prostej (nachylonej w górę lub w dół). Linia ta jest nazywana linią regresji lub linią najmniejszych kwadratów ponieważ jest tak określona że suma kwadratów odległości wszystkich punktów danych od tej linii jest najmniejsza z możliwych. Współczynnik korelacji Pearsona zakłada, że dane dwie zmienne zostały zmierzone przynajmniej na skalach przedziałowych. Współczynnik korelacji momentu iloczynowego Pearsona jest obliczany według wzoru:
r12 = [
(Yi1 -
Y-bar1)*(Yi2 - Y-bar2)] / [
(Yi1 - Y-bar1)2 *
(Yi2 - Y-bar2)2]1/2
Dodatkowe informacje można znaleźć w opisie korelacji w rozdziale Statystyki podstawowe.
Współczynnik korelacji wewnątrzklasowej. Wartość populacyjnego współczynnika korelacji wewnątrzklasowej jest miarą jednorodności obserwacji wewnątrz klas czynnika losowego w stosunku do zmienności tych obserwacji jaka występuje pomiędzy klasami. Wyniesie ona zero wtedy gdy oceniany wpływ czynnika losowego jest zerowy natomiast wartość 1 przyjmie tylko w sytuacji gdy oceniany wpływ błędu wyniesie 0, przy założeniu, że całkowita zmienność obserwacji jest większa od zera (patrz Hays, 1988, str. 485).Zauważmy, że populacyjny współczynnik korelacji wewnątrzklasowej można oszacować za pomocą metod estymacji komponentów wariancyjnych. Więcej informacji na ten temat można znaleźć w części Komponenty wariancyjne i model mieszany ANOVA/ANCOVA.
Współczynniki Beta. Współczynniki Beta są współczynnikami regresji otrzymywanymi w sytuacji, jeśli uprzednio przeprowadzono standaryzację wszystkich zmiennych (na zmienne o średniej równej 0 oraz odchyleniu standardowym równym 1). A zatem zaleta współczynników Beta (w porównaniu do wartości współczynników B, które nie są standaryzowane) polega na tym, że poziom współczynników Beta pozwala porównać względny wkład każdej ze zmiennych niezależnych przy prognozowaniu wartości zmiennej zależnej.
Patrz też: Wprowadzenie do regresji wielorakiej.
Współrzędne biegunowe.
Współrzędne biegunowe (r,
) przedstawiają położenie punktu
(w przestrzeni dwuwymiarowej) poprzez podanie ich odległości (r) od ustalonego punktu na ustalonej prostej (oś
biegunowa) oraz kąta (
, w radianach).
Wykresy biegunowe są wykorzystywane do graficznej prezentacji funkcji. Pozwalają też w intuicyjny sposób prezentować zależności pomiędzy zmiennymi, które określają kierunek.
Zob. także współrzędne kartezjańskie.
Współrzędne kartezjańskie. Współrzędne kartezjańskie lub prostokątne (x, y, albo x, y, z) określają odległość punktu od osi (w dwóch wymiarach) lub płaszczyzn (w trzech wymiarach).

Położenie danego punktu w przestrzeni jest określone przez odpowiednie współrzędne, wzdłuż osi X i Y (lub X, Y i Z).
Patrz także: współrzędne biegunowe.
Wsteczna propagacja błędów (w sieciach neuronowych). Algorytm wstecznej propagacji błędów należy do najlepiej znanych metod służących do uczenia sieci neuronowych. Zaliczyć go można również do grupy metod najbardziej przydatnych. Opracowany został niezależnie przez Rumelharta i in. (1986), Werbosa (1974) i Parkera (1985). Algorytm ten jest dokładnie opisany w większości książek z zakresu sieci neuronowych (na przykład: Patterson, 1996; Fausett, 1994; Haykin, 1994). Ma on mniejsze wymagania dotyczące pamięci niż większość innych algorytmów i zwykle szybko osiąga akceptowalny poziom błędu, chociaż precyzyjne osiągnięcie minimalnej wartości błędu może być w tym algorytmie bardzo czasochłonne. Może on być stosowany do uczenia większości typów sieci, ale warto pamiętać, że z zasady służy on przede wszystkim do uczenia perceptronów wielowarstwowych.
Algorytmu wstecznej propagacji błędów posiada następujące własności:
Zmienny w czasie współczynnik uczenia
Zmienny w czasie współczynnik bezwładności (momentum)
Losowa zmiana kolejności prezentacji przypadków uczących.
Stosowanie w trakcie uczenia addytywnie nałożonych szumów
Niezależne testowanie za pomocą zbioru walidacyjnego
Różnorodne warunki zatrzymania
Wykreślanie błędu RMS: wykres błędu
Wybieralne funkcje błędów
Ostatnie pięć wymienionych cech dostępnych jest również w niektórych innych algorytmach iteracyjnych zaimplementowanych w programie STATISTICA Sieci Neuronowe. Można z nich skorzystać w algorytmie gradientów sprzężonych, Quasi-Newtona, Levenberga-Marquardta, szybkiej propagacji, Delta-bar-Delta, oraz Kohonena (oprócz możliwości dodania szumu w algorytmie gradientów sprzężonych, algorytmie Kohonena i algorytmie Levenberga-Marquardta oraz oprócz wybieralnej funkcji błędu w algorytmie Levenberga-Marquardta).
Szczegóły techniczne.
Dostępna w programie STATISTICA Sieci Neuronowe wersja algorytmu wstecznej propagacji błędów wyznacza w trakcie uczenia
lokalną wartość gradientu względem każdej wagi dla każdego prezentowanego przypadku. Wagi są modyfikowane po
prezentacji każdego przypadku uczącego.
Modyfikacja odbywa się zgodnie z formułą:
![]()
Wartości progowe są traktowane podobnie jak wagi sygnałów wejściowych z oi = -1.
Sposób wyznaczania sygnału błędu jest uzależniony od położenia modyfikowanego neuronu. W inny sposób wartość ta jest obliczana dla neuronów warstwy wyjściowej, a w inny dla neuronów warstw ukrytych.
Wartość sygnału błędu w warstwie wyjściowej jest iloczynem pochodnej funkcji błędu sieci oraz pochodnej funkcji aktywacji neuronu.
Wartość sygnału błędu dla neuronów znajdujących się w warstwach ukrytych jest równa iloczynowi pochodnej funkcji aktywacji neuronu i ważonej sumie sygnałów błędu wyznaczonych dla neuronów warstwy następnej.
Wybór losowy prosty (Simple Random Sampling). Wybór losowy prosty (ang. simple random sampling, SRS) to metoda wyboru probabilistycznego, w której każda jednostka z populacji ma równe prawdopodobieństwo (frakcję losowania) trafienia do próby. Najczęściej zaczynamy od listy N obiektów stanowiących populację (np. osób uprawnionych do głosowania), z której wybieramy próbę losową. Następnie generujemy k liczb losowych (bez zwracania) z przedziału od 1 do N i wybieramy do próby przypadki o wylosowanych numerach (frakcja losowania w tym wypadku wyniesie k/N).
W pracy Kish (1965) znajduje się dokładne omówienie zalet i właściwości różnych metod wyboru probabilistycznego.
Wybór podziałów (dla drzew klasyfikacyjnych). Wybór podziału dla drzew klasyfikacyjnych dotyczy procesu wyboru podziałów w oparciu o zmienne predykcyjne, które są wykorzystane do przewidywania przynależności przypadków lub obiektów uwzględnionych w analizie do klas wyznaczonych przez zmienną zależną. Ze względu na hierarchiczną naturę drzew klasyfikacyjnych, podziały te są wybierane pojedynczo, począwszy od podziału w węźle źródłowym; dalej następują podziały wynikowych węzłów-potomków, aż dzielenie zostaje przerwane, a nie podzielone węzły stają się węzłami końcowymi.
Proces wyboru podziałów opisano w części Metody obliczeniowe wprowadzenia do drzew klasyfikacyjnych.
Wybór probabilistyczny (losowy). Przy wyborze probabilistycznym (losowym) prawdopodobieństwo wyboru konkretnej jednostki z populacji jest określone i znane. Jeśli wszystkie jednostki mają takie samo prawdopodobieństwo wyboru, to mówimy o losowaniu z jednakowym prawdopodobieństwem wyboru (EPSEM). Szczegółowe informacje można znaleźć w pracy Kish, 1965.
Próby wyłonione przez losowanie z jednakowymi prawdopodobieństwami wyboru, mają pewne pożądane właściwości, np. proste wzory na obliczenie średnich, odchyleń standardowych itd. w populacji.
Wygładzanie LOWESS. LOWESS to "odporna regresja lokalnie ważona". Jest to metoda wygładzania stosowana do danych na wykresach rozrzutu (do par x-y). W metodzie tej dla każdego punktu i punktów z jego otoczenia wykonywana jest regresja wielomianowa. Wygładzone wartości zazwyczaj dają czytelny obraz ogólnej zależności między dwiema zmiennymi. Więcej informacji - Cleveland (1979, 1985).Wygładzanie na wykresach rozrzutu. Na wykresach rozrzutu 2W możemy zastosować różne sposoby wygładzania, w celu narysowania krzywej przedstawiającej związek między zmiennymi.
Wygładzanie. Techniki wygładzania stosowane są w różnych sytuacjach i do różnych celów. W przypadku histogramów 3W dla dwóch zmiennych, do danych o częstości dopasowujemy powierzchnię, ujawniającą ogólne zależności między danymi i umożliwiającą rozpoznanie zależności dla celów budowy ilościowych modeli badanego zjawiska.

W analizie szeregów czasowych zasadniczym celem wygładzania jest wychwycenie głównego trendu i przebiegu szeregu poprzez usunięcie drobnych zmian (szumu losowego). W wyniku wygładzania na wykresie zobaczymy gładką krzywą, zamiast poszarpanej linii.

Patrz także, Techniki eksploracyjnej analizy danych i zgłębiania danych oraz Wygładzanie rozkładów dwuwymiarowych.
Wyjaśniana wariancja. Część zmienności danych wyjaśniana przez model (np. regresji wielorakiej, ANOVA, estymacji nieliniowej, sieci neuronowych).
Wykres kołowy. Wykres kołowy (Haskell, 1922) należy do najczęściej stosowanych rodzajów wykresów służących do prezentacji części (udziałów, procentu) pewnej całości. Sekwencja wartości zmiennej jest tu reprezentowana przez kolejne wycinki koła.
Wykres kołowy - Multi-pattern Bar. Wykres The multi-pattern bar plot służy do wyświetlania tego samego rodzaju danych, co wykres kołowy wartości (zob. Wykres kołowy wartości), w tym przypadku jednak kolejnym wartościom odpowiadają wysokości słupków (różnych kolorów i wzorów), a nie pola części wykresu kołowego.

Na takim wykresie, w porównaniu z wykresem kołowym, łatwiej porównywać wyświetlane wartości (np. trudno dostrzec niewielkie różnice wielkości części wykresu kołowego). Ten rodzaj wykresu może być też lepszy niż zwykły histogram (gdzie wszystkie słupki mają ten sam wzór i kolor), jeśli potrzebna jest szybka identyfikacja poszczególnych kolumn.
Zob. także wykres kołowy.
Wykres kołowy liczności. W odróżnieniu od prostego wykresu kołowego wartości ten typ wykresu kołowego interpretuje dane tak jak histogram. Wszystkie wartości wybranej zmiennej kategoryzowane są zgodnie z wybraną techniką, a następnie względne liczności w kategoriach ilustrowane są przez wielkość wycinków koła.

Zob. także wykres kołowy.
Wykres kołowy wartości. Sekwencja wartości zmiennej jest tu reprezentowana przez kolejne wycinki koła(Haskell, 1922). Wielkość każdego z wycinków jest proporcjonalna do odpowiedniej wartości zmiennej. Wartości powinny być większe od 0 (wartości ujemne nie mogą być tu przedstawiane). Ten prosty typ wykresu kołowego (nazywany czasem wykresem kołowym danych) interpretuje dane w najprostszy sposób: jeden przypadek to jeden wycinek.

Zob. także wykres kołowy.
Wykres odchyleń 3W. Na takim wykresie rozrzutu 3W, punkty danych przedstawiane są w przestrzeni trójwymiarowej jako "odchylenia" od określonego poziomu bazowego osi Z.

Wykresy odchyleń są podobne do wykresów przestrzennych. Jednak w porównaniu z wykresami przestrzennymi "płaszczyzna odchyleń" jest "niewidoczna" - osie X,Y nie są zaznaczone (pozostają w standardowej pozycji u dołu wykresu). Wykresy odchyleń umożliwiają eksplorację trójwymiarowych danych poprzez wyświetlanie ich w formie odchyleń od dowolonej (poziomej) płaszczyzny. Tego rodzaju metoda "ucinania" pozwala wykryć interakcje miedzy zmiennymi. Zob. także, Obracanie widoku danych (w przestrzeni 3W) w rozdziale Wybrane techniki analizy graficznej.
Wykres osypiska, test osypiska. Wartości własne, dla kolejnych czynników mogą być przedstawiane na prostym wykresie liniowym. Cattell (1966) proponuje zastosowanie takiego wykresu osypiska w charakterze graficznej metody określania optymalnej liczby czynników, które należy wyodrębnić.

Test osypiska polega na znalezieniu miejsca, na prawo od którego regularny spadek wartości własnych staje się wolniejszy. Na prawo od tego punktu, znajdziemy przypuszczalnie jedynie "osypisko czynnikowe". Zatem, nie powinno się wyodrębniać więcej czynników niż znajduje się po lewej stronie tego punktu.
Więcej informacji na temat określania optymalnej liczby czynników, które należy wyodrębnić, można znaleźć w rozdziałach Przegląd wyników analizy składowych głównych we wprowadzeniu do modułu Analiza czynnikowa oraz w części problem liczby wymiarów w opisie modułu Skalowanie wielowymiarowe.
Wykres powierzchniowy (z danych surowych). Na tym wykresie do danych dopasowywana jest powierzchnia (np. funkcja sklejana).
Wykres powierzchniowy sekwencyjny 3W. W przypadku tego wykresu sekwencyjnego, powierzchnia wygładzana funkcją sklejaną jest dopasowywana do każdego punktu danych. Przy dopasowaniu powierzchni, współrzędna X stanowi numer przypadku, a współrzędna Y numer kolejny zmiennej wśród zmiennych wybranych dla wykresu. Wykres odchyleń od normalności (wykres prawdopodobieństwa normalnego bez trendu). Ten rodzaj wykresu jest wykorzystywany do oceny normalności rozkładu zmiennej, tzn. czy i do jakiego stopnia rozkład danej zmiennej podlega rozkładowi normalnemu. Wybrana zmienna zostanie wykreślona na wykresie rozrzutu względem wartości "oczekiwanych dla rozkładu normalnego".Wykres prawdopodobieństwa normalnego bez trendu jest tworzony podobnie jak skategoryzowany wykres normalności z tą różnicą, że zanim wygenerujemy wykres usuwamy liniwy trend. Powoduje to, że pozostają na wykresie jedynie "porozrzucane" punkty, co ułatwia wykrycie odchyleń od normalności.
Wykres przestrzenny. Ten rodzaj wykresu jest charakterystyczną metodą przedstawiania wykresu rozrzutu 3W poprzez wykorzystanie oddzielnej płaszczyzny X-Y umieszczonej na określonym przez użytkownika poziomie pionowej osi Z (która "przechodzi" przez środek płaszczyzny).

Wykres przestrzenny może być pomocny przy badaniu szczególnych rodzajów danych trójwymiarowych. Zaleca się takie przypisanie zmiennych do do osi, aby ta zmienna, która najprawdopodobniej będzie się odróżniać od dwóch pozostałych, była przyporządkowana do osi Z.
Patrz także, Obracanie widoku danych (w przestrzeni 3W) w rozdziale Techniki analizy graficznej.
Wykres przyrostu (Lift Chart). Wykres przyrostu jest graficznym podsumowaniem użyteczności modeli do przewidywania wartości zmiennej zależnej, skategoryzowanej, przyjmującej dwie wartości. W przypadku, gdy modelowana zmienna przyjmuje więcej wartości, możemy tworzyć wykres przyrostu oddzielnie dla każdej z kategorii. Dokładniej rzecz biorąc, na wykresie przyrostu widzimy o ile częściej w stosunku do całego zbioru danych przypadki należące do badanej klasy występują w podzbiorach danych zawierających frakcje przypadków (10%, 20% itd.) o największym, wynikającym z modelu prawdopodobieństwie przynależności do tej klasy.

Wykresy przyrostu można stosować dla większości metod przewidujących przynależność obiektów do klas (zarówno w przypadku dwóch, jak i więcej klas). Wykres przyrostu jest podobny do wykresu zysków, a obie te techniki są powszechnie wykorzystywane w data mining, w zadaniach klasyfikacyjnych.
Przykład. Zrozumienie zasad tworzenia wykresu przyrostu ułatwi nam przykład. Załóżmy, że mamy listę adresową naszych klientów, którym chcemy zaoferować dodatkową usługę. Oferta będzie miała postać starannie wydanej (a więc drogiej!) broszury i dodatkowych materiałów przesłanych pocztą. Przy wcześniejszych, podobnych działaniach zebraliśmy informacje o klientach (historia zakupów i innych kontaktów, ogólne dane o kliencie typu płeć wiek itp.). Wykorzystując te dane możemy przewidywać, którzy klienci odpowiedzą na naszą ofertę i jaki produkt zakupią. W przypadku poprzedniej oferty 7% klientów pozytywnie odpowiedziało na propozycję (zakupiło towar).
Jeżeli po prostu wyślemy ofertę do wszystkich klientów, to przy prawdopodobieństwie odpowiedzi w całej zbiorowości (7%) i kosztach wysłania oferty, wynikiem naszej akcji będzie strata finansowa. Uzasadnia to użycie analizy danych, w celu zidentyfikowania klientów, dla których szansa odpowiedzenia na naszą ofertę jest największa. Załóżmy, że zbudujemy model predykcyjny oparty na danych z poprzedniej kampanii. Następnie spośród wszystkich klientów wybierzemy 10% tych, dla których model przewidział największe prawdopodobieństwo pozytywnej odpowiedzi na naszą ofertę. W grupie tej 14% osób pozytywnie odpowiedziało na naszą ofertę. W tym wypadku wartość przyrostu wyniosła 14%/7% = 2. Innymi słowy zastosowanie modelu dwukrotnie zwiększa prawdopodobieństwo pozytywnej odpowiedzi w stosunku do losowego wyboru.
Analogicznie możemy obliczyć wartości przyrostu dla kolejnych percentyli całej zbiorowości (listy klientów), tzn. dla 20%, 30% itd. klientów z największym przewidywanym prawdopodobieństwem odpowiedzi na ofertę. Uzyskane w ten sposób punkty łączymy linią, która zazwyczaj wolno spada, aż do osiągnięcia wartości 1 przy wyborze wszystkich przypadków. Dodatkowo na wykres nanosimy prostą (linię odniesienia) podpowiadającą losowemu wyborowi 10%, 20% itp. procent klientów z listy. Linia odniesienia i linia dla modelu stykają się dla wyboru wszystkich klientów z listy.
Jeżeli stosujemy wiele modeli, to na jednym wykresie możemy narysować linie odpowiadające każdemu modelowi (tak jak na rysunku powyżej). Uzyskany w ten sposób wykres jest graficznym podsumowaniem użyteczności różnych modeli.
Wykres ramka-wąsy/mediana (wykresy bloku danych). Ten wykres bloku danych to zestaw wykresów ramka-wąsy z medianą (i wartością minimalną/maksymalną oraz 25-tym i 75-tym percentylem) dla kolumn lub wierszy bloku. Poszczególne ramki przedstawiają dane z kolejnych kolumn lub wierszy.
Na wykresie tego typu, mediana jest używana jako miara tendencji centralnej (reprezentuje ją znacznik punktu). Miarą zmienności są kwartyle (reprezentowane przez ramkę) oraz minimum i maksimum (reprezentowane przez wąsy).
Wykres ramka-wąsy/średnia (wykresy bloku danych). Ten wykres bloku danych to zestaw wykresów ramka-wąsy z wartością średnią (i błędem standardowym i odchyleniem standardowym) dla kolumn lub wierszy bloku. Poszczególne ramki przedstawiają dane z kolejnych kolumn lub wierszy.
Wykres rozrzutu 2W - Liczności. Wykresy rozrzutu liczności obrazują liczności pokrywających się punktów o współrzędnych określonych przez dwie zmienne, w celu unaocznienia różnej wagi punktów.

Patrz także: redukcja danych.
Wykres rozrzutu 2W - Voronoia. Ten specjalistyczny wykres rozrzutu jest bardziej techniką analityczną niż tylko metodą graficznej prezentacji danych. Rozwiązania, które oferuje, pomagają modelować różnorodne zjawiska w naukach przyrodniczych i społecznych (np. Coombs, 1964; Ripley, 1981). Program dzieli przestrzeń pomiędzy indywidualnymi punktami danych reprezentowanymi przez współrzędne XY w przestrzeni dwuwymiarowej. Podział polega na tym, że każdy z punktów danych jest otoczony granicami, które obejmują tylko obszar, który jest bliższy odpowiedniemu "centralnemu" punktowi danych niż jakiemukolwiek innemu punktowi.

Szczegółowe sposoby, według których wykorzystywana jest ta metoda, zależą w głównej mierze od specyficznych obszarów badawczych, jednakże w wielu z nich pomocnym jest dodanie następnych wymiarów do tego wykresu przez zastosowanie opcji kategoryzacji (jak pokazano na poniższym przykładzie).

Patrz także, redukcja danych.
Wykres rozrzutu 2W - Wielokrotny. W odróżnieniu od zwykłych wykresów rozrzutu, na których jedna zmienna jest reprezentowana przez oś poziomą a jedna przez oś pionową, wielokrotny wykres rozrzutu składa się z wielu wykresów i przedstawia wiele korelacji: jedna zmienna (X) jest reprezentowana na osi poziomej, a kilka zmiennych (Y-ków) jest wykreślanych wzdłuż osi pionowej. Dla każdej z wielu zmiennych Y jest stosowany inny znacznik punktu i kolor, dzięki czemu pojedyncze punkty reprezentujące różne zmienne mogą być rozróżniane na wykresie.

Wielokrotny wykres rozrzutu jest wykorzystywany do porównywania obrazów kilku korelacji poprzez naniesienie ich na pojedynczym wykresie, który wykorzystuje jeden wspólny zbiór skal (np. aby ujawnić ukrytą strukturę czynników lub wymiarów w analizie funkcji dyskryminacyjnej).
Patrz także: redukcja danych.
Wykres rozrzutu 2W - Zwykły. Zwykły wykres rozrzutu służy do wizualizacji relacji pomiędzy dwiema zmiennymi X i Y (np. masą i wysokością ciała). Indywidualne punkty danych są reprezentowane przez znaczniki punktów w dwuwymiarowej przestrzeni, gdzie osie reprezentują zmienne. Dwie współrzędne (X i Y), które determinują położenie każdego punktu korespondują z poszczególnymi wartościami dwóch zmiennych. Jeśli dwie zmienne są mocno powiązane, wówczas punkty danych tworzą regularny kształt (np. linię prostą lub wyraźną krzywą). Jeśli dane dwie zmienne nie są powiązane ze sobą, wówczas punkty na wykresie tworzą nieregularną "chmurę" (patrz na poniższy skategoryzowany wykres rozrzutu prezentujący oba typy zbiorów danych.

Dopasowanie funkcji do punktów wykresu rozrzutu pomaga określić typ zależności pomiędzy zmiennymi (patrz na poniższy przykład).

Więcej przykładów pokazujących jak wykres rozrzutu może pomóc identyfikować zależności między zmiennymi znajdziemy pod hasłami obserwacje odstające oraz wyróżnianie. Patrz także, redukcja danych.
Wykres skupień (w sieciach neuronowych). Wykres rozrzutu przedstawiający w dwóch wymiarach przypadki należące do różnych klas. Położenie przypadków zależy od aktywacji wyjściowych neuronów sieci neuronowej. Zob. także: Analiza skupień.
Wykres słupkowy 2W. Na wykresach słupkowych 2W (pojęcie pierwszy raz użyte przez Tukey'a, 1970), zakresy wartości wybranych zmiennych wykreślane są osobno dla grup przypadków określonych przez wartości zmiennej kategoryzującej (grupującej). Tendencja centralna (np. mediana czy średnia) oraz statystyki rozrzutu (np. kwartyle, błędy standardowe lub odchylenia standardowe) obliczane są dla każdej grupy przypadków i rysowane w wybrany przez użytkownika sposób. Obserwacje odstające mogą również być zaznaczone.
Wykres słupkowy i wielu wzorach pola. Wykresy słupkowe o różnych wzorach pola można wykorzystać do przedstawienie wartości poszczególnych wartości zmiennej X (podobnie jak w wykresach kołowych). Kolejne wartości zmiennej X reprezentują jednak wysokości kolejnych słupków, każdy o innym kolorze i wzorze pola (a nie różnej szerokości wycinków wykresu kołowego).
Wykres słupkowy poziomu odchylenia. Wykres "słupkowy odchylenia" jest podobny do wykresu słupkowego - punkty są przedstawione w postaci pionowych słupków, które łączą dany punkt z ustaloną prostą poziomą (linią odniesienia). Jeśli wartość odniesienia nie jest równa najmniejszej wartości dla osi Y tego wykresu, to słupki będą rysowane w dół bądź w górę od podanej wartości, tzn. w tę stronę, w którą jest "odchylenie" poszczególnych punktów od linii odniesienia.
Wykres słupkowy poziomy/Lewa.
Na tym wykresie słupki poziome łączą punkty danych (tzn. pary współrzędnych XY zob. przykład poniżej) z lewą
osią Y. Położenie słupka w pionie określa współrzędna Y, a jego długość wartość X.

Wykres słupkowy poziomy/Prawa.
Na tym wykresie słupki poziome łączą punkty danych (tzn. pary współrzędnych XY) z prawą osią Y. Położenie
słupka w pionie określa współrzędna Y, a jego długość wartość X.
Wykres słupkowy.
Na takim wykresie, dla każdego punktu danych (tzn. pary współrzędnych XY) rysowany jest słupek łączący ten punkt
z osią X.

Horyzontalne położenie słupka określa współrzędna X zaś jego wysokość wartość Y.
Wykres słupkowy/Góra. (Nazywany także wykresem "wiszące" słupki.) Na tym wykresie słupki pionowe łączą punkty danych (tzn. pary współrzędnych XY) z górną osią X. Położenie słupka w poziomie określa współrzędna X, a jego długość to wartość Y.
Wykres spektralny.
Wykresy tego typu pierwotnie stosowano w analizie spektralnej (widmowej), w celu
zbadania zachowania niestacjonarnego szeregu czasowego. Na jednej osi poziomej odkładamy częstotliwość, na drugiej
przedział czasu, a na osi pionowej gęstość widmową dla częstości i przedziału czasu (por. np. Shumway, 1988, str.
82).

Przewaga wykresu spektralnego nad zwykłym wykresem rozrzutu 3W ujawnia się wówczas, gdy chcemy zbadać jak zmienia się zależność pomiędzy dwoma zmiennymi pod względem trzeciej zmiennej, jak ukazano na poniższej ilustracji. Zależność jest bardzo dobrze widoczna, gdy porównamy dwa wykresy tego samego zbioru danych, jak pokazano poniżej.

Wykres spektralny pomaga zaobserwować, jak zależność pomiędzy Ciśnieniem a Ilością zmienia się od "odwróconego U" do "U".
Patrz także, Obracanie widoku danych (w przestrzeni 3W) w rozdziale Techniki analizy graficznej.
Wykres Voronoi. Wykres Voronoi (mozaikowy) polega na tym, że na zwykłym wykresie rozrzutu dzieli się przestrzeń pomiędzy punktami danych na takie obszary, że granice otaczające każdy punkt obejmują obszar położony najbliżej danego punktu.
Wykres warstwicowy 3W. Wykres warstwicowy stanowi rzutowanie powierzchni na dwuwymiarową płaszczyznę (powierzchnia ta jest dopasowywana do trójwymiarowych danych). Wartości dopasowanej powierzchni (odkładane na osi Z) reprezentowane są przez różnokolorowe linie o różnym wzorze (opcja Linie) albo przez obszary o różnym kolorze (opcja Obszary) na dwuwymiarowym wykresie rozrzutu. Wykresy dla poszczególnych grup rozmieszczane są na jednym obrazie dla umożliwienia porównań pomiędzy podzbiorami (kategoriami) danych.

Szczegółowe omówienie, patrz wykresy skategoryzowane oraz Wybrane techniki analizy graficznej;
Wykres warstwicowy 3W. Ten wykres ukazuje dwuwymiarową projekcję wygładzonej powierzchni dopasowanej do danych (patrz wykres powierzchniowy 3W). Kolejne wartości każdej serii wykreślane są na osi X, a kolejne serie na osi Y.
Wykres warstwicowy. Wykres warstwicowy jest obrazem trójwymiarowej powierzchni w rzutowaniu na dwuwymiarową płaszczyznę.

W porównaniu z wykresem powierzchniowym, może być mniej efektywny w szybkiej wizualizacji całościowego kształtu struktury trójwymiarowej.

Główną zaletą takiego wykresu jest to, że pozwala na precyzyjną ocenę i analizę kształtu powierzchni (wykresy warstwicowe przedstawiają szereg linii warstwic).
Wykres zysku (Gains Chart). Wykres zysku jest graficznym podsumowaniem użyteczności modeli do przewidywania wartości zmiennej zależnej skategoryzowanej przyjmującej dwie wartości. W przypadku, gdy modelowana zmienna przyjmuje więcej wartości, możemy tworzyć wykres zysków oddzielnie dla każdej z kategorii.
Dokładniej rzecz biorąc, na wykresie zysków widzimy użyteczność poszczególnych modeli predykcyjnych w porównaniu z linią odniesienia.

Wykresy zysku można stosować dla większości metod przewidujących przynależność obiektów do klas (zarówno w przypadku dwóch, jak i więcej klas). Wykres zysku jest podobny do wykresu przyrostu (lift chart), a obie te techniki są powszechnie wykorzystywane w data mining, w zadaniach klasyfikacyjnych, gdy modelowana zmienna przyjmuje dwie lub więcej wartości.
Przykład. Zrozumienie zasad tworzenia wykresu zysku ułatwi nam przykład. Załóżmy, że mamy listę adresową naszych klientów, którym chcemy zaoferować dodatkową usługę. Oferta będzie miała postać starannie wydanej (a więc drogiej!) broszury i dodatkowych materiałów przesłanych pocztą. Przy wcześniejszych, podobnych działaniach zebraliśmy informacje o klientach (historia zakupów i innych kontaktów, ogólne dane o kliencie typu płeć wiek itp.). Wykorzystując te dane możemy przewidywać, którzy klienci odpowiedzą na naszą ofertę i jaki produkt zakupią.
Jeżeli po prostu wyślemy ofertę do wszystkich klientów, to przy prawdopodobieństwie odpowiedzi w całej zbiorowości i kosztach wysłania oferty, wynikiem naszej akcji może być strata finansowa. Uzasadnia to użycie analizy danych, w celu zidentyfikowania klientów, dla których szansa odpowiedzenia na naszą ofertę jest największa. Załóżmy, że za pomocą modułu Ogólne modele drzew klasyfikacyjnych i regresyjnych (GC&RT) zbudujemy model dla danych z poprzedniej kampanii. Następnie spośród wszystkich klientów wybierzemy 10% tych, dla których model C&RT przewidział największe prawdopodobieństwo pozytywnej odpowiedzi na naszą ofertę. Na koniec obliczamy jaka część wszystkich pozytywnych odpowiedzi znalazła się w tak wybranym podzbiorze. Wybierając 10% klientów o największym przewidywanym prawdopodobieństwie odpowiedzi, identyfikujemy y procent osób, które w rzeczywistości odpowiedziały na ofertę (wartość y nazywamy zyskiem).
W analogiczny sposób obliczamy wartości zysku dla kolejnych percentyli całej zbiorowości (listy klientów), tzn. dla 20%,30% itd. klientów z największym przewidywanym prawdopodnieństwem odpowiedzi na ofertę. Uzyskane w ten sposób punkty łączymy linią, która zazwyczaj wolno rośnie, aż do osiągnięcia wartości 100% przy wyborze wszystkich przypadków. Dodatkowo na wykres nanosimy prostą (linię odniesienia) podpowiadającą losowemu wyborowi 10%, 20% itp. procent klientów z listy. Linia odniesienia i linia dla modelu stykają się dla wyboru wszystkich klientów z listy.
Jeżeli stosujemy wiele modeli, to na jednym wykresie możemy narysować linie odpowiadające każdemu modelowi (tak jak na rysunku powyżej). Uzyskany w ten sposób wykres jest graficznym podsumowaniem użyteczności różnych modeli.
Wykresy kwantyl-kwantyl. Przez badanie wykresu kwantyl-kwantyl (lub krótko K-K, nazywanego także wykresem kwantylowym) możemy sprawdzać dopasowanie teoretycznego rozkładu do zaobserwowanych danych.

Na wykresie tego typu zaobserwowane wartości zmiennej są wykreślane w funkcji kwantyli rozkładu teoretycznego. Wykres ten będzie wskazywał na dobre dopasowanie rozkładu teoretycznego do zaobserwowanych wartości w przypadku gdy wykreślane wartości będą tworzyły linię prostą. Aby utworzyć wykres K-K, program najpierw porządkuje n zaobserwowanych punktów danych w porządku rosnącym tak, że:
x1
x2
...
xn
Wartości te są wykreślane wzdłuż jednej osi wykresu, a wzdłuż drugiej osi wykres prezentuje funkcję:
F-1((i-rpop) / (n+npop))
gdzie i oznacza rangę odpowiedniej obserwacji, rpop oraz npop są czynnikami korygującymi
(
0.5) oraz F-1 oznacza odwrotność
dystrybuanty dla określonego rozkładu standaryzowanego. Powstały w efekcie wykres jest wykresem rozrzutu wartości
zaobserwowanych w funkcji wartości oczekiwanych (standaryzowanych), dla danego typu rozkładu. Zauważmy także, że
czynniki korygujące rpop oraz npop
gwarantują, że wartości p odwrotności całki funkcji prawdopodobieństwa przyjmują wartości z przedziału otwartego (0,1)
(patrz Chambers, Cleveland, Kleiner, Tukey 1983;
Wykresy liniowe 2W. Na wykresach liniowych, pojedyncze punkty danych są łączone linią.

Wykresy liniowe udostępniają prosty sposób graficznej prezentacji sekwencji wartości. Wykresy liniowe typu XY toru mogą być wykorzystywane do wyświetlania toru (zamiast sekwencji). Wykresy liniowe mogą być również wykorzystywane do wykreślania funkcji ciągłych, rozkładów teoretycznych itd.
Wykresy liniowe 2W - Podwójny Y. Wykres liniowy Podwójny Y może być traktowany jako połączenie dwóch oddzielnie wyskalowanych wielokrotnych wykresów liniowych. Dla każdej z wybranych zmiennych zostaje wykreślony oddzielny wzór linii z tym, że zmienne wybrane z listy Lewa Y zostaną wykreślone wzdłuż osi lewej Y, podczas gdy zmienne wybrane z listy Prawa Y zostaną wykreślone wzdłuż osi prawej Y. Nazwy wszystkich zmiennych zostaną oznaczone na legendzie za pomocą (P) dla zmiennych powiązanych z osią prawa Y oraz (L) dla zmiennych powiązanych z osią lewa Y.

Wykres liniowy Podwójny Y może zostać wykorzystany do porównania sekwencji wartości kilku zmiennych poprzez nałożenie odpowiednich reprezentacji linii na jednym wykresie. Jednakże, ze względu na niezależne skalowanie stosowane dla dwóch osi, może ułatwić porównania pomiędzy zmiennymi, które w przeciwnym razie byłyby "nieporównywalne" (np. zmiennych z wartościami należącymi do różnych zakresów).
Wykresy liniowe 2W - Profile przypadków. W odróżnieniu od standardowych wykresów liniowych, w przypadku których wartości jednej zmiennej są wykreślane w postaci pojedynczej linii (punkty danych są połączone linią), w wykresach liniowych profilów przypadków wartości wybranych zmiennych dotyczące danego przypadku (wiersza), są wykreślane jako jedna linia (tzn. dla każdego z wybranych przypadków zostanie wygenerowany jeden wykres liniowy). Wykresy liniowe profili przypadków udostępniają prosty sposób wizualnej prezentacji wartości w obrębie przypadków (np. wyniki testu w przypadku kilku testów).
Wykresy liniowe 2W - Toru XY. W przypadku wykresów toru, najpierw tworzony jest wykres rozrzutu, a następnie poszczególne punkty danych są łączone za pomocą linii (w takiej kolejności, w jakiej dane były czytane ze zbioru danych). W tym sensie, wykresy toru prezentują w sposób graficzny "tor" sekwencyjnego procesu (ruchu, zmiany zjawiska w czasie itp.).
Wykresy liniowe 2W - Wielokrotny. W odróżnieniu od zwykłych wykresów liniowych, na których prezentowane są sekwencje wartości jednej zmiennej, wielokrotne wykresy liniowe reprezentują wiele sekwencji wartości (zmiennych). Dla każdej ze zmiennych używany jest inny znacznik punktu i kolor.

Ten typ wykresu liniowego jest wykorzystywany do porównywania sekwencji wartości kilku zmiennych (lub funkcji) przez nałożenie ich na pojedynczym wykresie, który wykorzystuje jeden wspólny zbiór skal (np. porównania pomiędzy kilkoma jednoczesnymi procesami doświadczalnymi, zjawiskami socjologicznymi, zapasami lub ilościami towarów, kształtami krzywych operacyjno-charakterystycznych itp.)
Wykresy liniowe 2W - Zagregowane. Wykresy liniowe zagregowane prezentują sekwencję średnich dla kolejnych podzbiorów wybranej zmiennej.

Możemy podać liczbę kolejnych obserwacji, na podstawie których będzie obliczana średnia, a na żądanie zakres wartości w obrębie każdego podzbioru zostanie oznaczony za pomocą wąsów. Wykresy liniowe zagregowane są wykorzystywane do wyjaśniania i prezentacji sekwencji dużej liczby wartości.
Wykresy liniowe 2W - Zwykły . Zwykłe wykresy liniowe są wykorzystywane do badania i prezentacji sekwencji wartości (zazwyczaj w sytuacji, gdy kolejność zmiennych ma znaczenie).

Innym typowym zastosowaniem dla wykresów liniowych sekwencyjnych jest wykreślanie ciągłych funkcji, jak np. dopasowanych funkcji lub rozkładów teoretycznych. Zauważmy, że pusta komórka danych (tzn. brakująca dana) powoduje "przerwanie" linii.
Wykresy macierzowe. Wykresy macierzowe służą do zbiorczego przedstawiania współzależności pomiędzy wieloma zmiennymi w postaci macierzy zwykłych wykresów X-Y. Najczęściej używanym typem wykresu macierzowego jest macierz wykresów rozrzutu, która może być traktowana jako graficzny odpowiednik macierzy korelacji.
Wykresy macierzowe - Kolumnowe.
W przypadku tego typu wykresu macierzowego, tworzona jest macierz wykresów, w których kolumny to rzuty wartości
poszczególnych obserwacji na oś X (przedstawiając rozkłady największych wartości tej zmiennej, która jest na osi
Y). Histogramy przedstawiające rozkład zmiennej ułożone są wzdłuż przekątnej macierzy (w przypadku macierzy
kwadratowych, jak na przykładowym rysunku poniżej) lub wzdłuż krawędzi macierzy (w przypadku macierzy
prostokątnych).

Wykresy macierzowe - Liniowe. W przypadku tego typu wykresu macierzowego tworzona jest macierz wykresów liniowych (podobna do macierzy wykresów rozrzutu), na której indywidualne punkty są połączone linią według kolejności w jakiej pojawiają się w zbiorze danych. Wzdłuż przekątnej macierzy (w przypadku macierzy kwadratowej) lub wzdłuż krawędzi (w przypadku macierzy prostokątnej) wyświetlane są histogramy reprezentujące rozkład każdej zmiennej (jak na przykładzie poniżej).

Wykresy macierzowe - Wykres rozrzutu. W przypadku tego typu wykresu macierzowego tworzona jest tabela wykresów rozrzutu 2W (wartości zmiennej kolumnowej są wykorzystywane jako współrzędne X, wartości zmiennej wierszowej reprezentują współrzędne Y). Wzdłuż przekątnej macierzy (w przypadku macierzy kwadratowej) lub wzdłuż krawędzi (w przypadku macierzy prostokątnej) wyświetlane są histogramy reprezentujące rozkład każdej zmiennej.

Zob. także Redukcja danych w rozdziale Wybrane techniki analizy graficznej.
Wykresy normalności (Uwagi na temat obliczeń). Podane poniżej formuły zostały zastosowane do przekształcenia rang na wartości oczekiwane prawdopodobieństwa rozkładu normalnego, tzn. odpowiednie wartości z.
Wykresy normalności. Wartość prawdopodobieństwa normalnego zj dla j-tej wartości (rangi) zmiennej zawierającej N obserwacji jest wyliczana ze wzoru:
zj = F-1 [(3*j-1)/(3*N+1)]
gdzie F-1 jest odwrotnością dystrybuanty rozkładu normalnego (przekształcającą prawdopodobieństwo rozkładu normalnego p na wartość normalną z).
Wykres normalności połówkowej. Wartość prawdopodobieństwa zj dla j-tej wartości (rangi) zmiennej zawierającej N obserwacji jest wyliczana ze wzoru:
zj = F-1 [(3*N+3*j-1)/(6*N+1)]
gdzie F-1 jest odwrotnością dystrybuanty rozkładu normalnego.
Wykres odchyleń od normalności. W przypadku tego wykresu, każda wartość (xj) jest standaryzowana przez odjęcie średniej i podzielenie przez odpowiednie odchylenie standardowe (s). Wartość prawdopodobieństwa normalnego z eliminacją trendu zj dla j-tej wartości (rangi) zmiennej zawierającej N obserwacji jest wyliczana ze wzoru:
zj = F-1 [(3*j-1)/(3*N+1)] - (xj -średnia)/s
gdzie F-1 jest odwrotnością dystrybuanty rozkładu normalnego.
Wykresy normalności połówkowej. Ten rodzaj wykresu jest wykorzystywany do oceny normalności rozkładu zmiennej (najczęściej w analizie reszt), tzn. czy i do jakiego stopnia rozkład danej zmiennej podlega nieco zmodyfikowanemu rozkładowi normalnemu. Mianowicie wykres normalności połówkowej jest konstruowany w taki sam sposób jak standardowy wykres normalności, z tą różnicą, że tylko dodatnia połowa krzywej normalnej jest brana pod uwagę. W konsekwencji tego, tylko dodatnie normalne wartości będą wykreślane na osi Y. Wykres ten wykorzystywany jest, gdy nie interesuje nas znak reszt, a jedynie rozkład wartości bezwzględnych tych reszt.Wykresy normalności. Ten rodzaj wykresu jest wykorzystywany do oceny normalności rozkładu zmiennej, tzn. czy i do jakiego stopnia rozkład danej zmiennej podlega rozkładowi normalnemu. Wybrana zmienna zostanie wykreślona na wykresie rozrzutu względem wartości "oczekiwanych dla rozkładu normalnego".

Standardowy normalny wykres prawdopodobieństwa jest skonstruowany w następujący sposób. Najpierw rangowane są odchylenia od średniej (reszty); tzn. porządkujemy je rosnąco i przypisujemy im kolejne numery (tj. rangi). Na podstawie rang wyliczane są wartości z (tzn. standaryzowane są wartości rozkładu normalnego) w oparciu o założenie, że dane pochodzą z populacji o rozkładzie normalnym (zob. uwaga na temat obliczeń). Wartości z są wykreślane na wykresie wzdłuż osi Y. Jeśli obserwowane reszty (wykreślane na osi X) podlegają rozkładowi normalnemu, wtedy wszystkie wartości powinny układać się wzdłuż linii prostej. Jeśli reszty nie podlegają rozkładowi normalnemu, wówczas będą odchylać się od prostej. Odstające obserwacje również są widoczne na tym wykresie. Jeśli występuje generalny brak dopasowania i dane wydają się tworzyć wyraźny wzorzec (np. w kształcie litery S) wokół linii, wówczas może wystąpić potrzeba zastosowania pewnego przekształcenia (np. przekształcenia logarytmicznego aby "skrócić" obszary ogonowe rozkładu itp.).
Zob. Wykresy normalności (Uwagi na temat obliczeń)
Wykresy obrazkowe. Jedną z skutecznych technik eksploracyjnej analizy danych są wielowymiarowe wykresy obrazkowe. Podstawową ideą wykresów obrazkowych jest przedstawienie indywidualnych jednostek obserwacji za pomocą obiektów graficznych, których własności lub wymiary wartości zmiennych przypisano do zmiennych (zwykle jeden obiekt reprezentuje jeden przypadek). Przypisanie powoduje, że ogólny wygląd obiektu zmienia się w funkcji konfiguracji wartości. Tak więc, obiekty stanowią wizualne, unikalne dla każdej konfiguracji "reprezentacje", które mogą zostać rozpoznane przez obserwatora. Analiza takich obrazków może być pomocna przy odkrywaniu określonych grup zarówno prostych zależności, jak i interakcji pomiędzy zmiennymi.
Zob. Wybrane techniki analizy graficznej : Wykresy obrazkowe.
Wykresy obrazkowe - Gwiazdy. Na wykresie obrazkowym, dla każdego przypadku rysowany jest oddzielny obrazek o kształcie gwiazdy. Względne wartości wybranych zmiennych dla każdego przypadku reprezentowane są przez długości ramion gwiazdy (zgodnie z ruchem wskazówek zegara, począwszy od godziny 12:00). Końce ramion są połączone linią.

Zob. Wybrane techniki analizy graficznej : Wykresy obrazkowe.
Wykresy obrazkowe - Kolumny. Na wykresie obrazkowym tego typu, dla każdego przypadku wykreślany jest pojedynczy wykres kolumnowy; względne wartości wybranych zmiennych dla każdego przypadku reprezentowane są przez wysokość kolejnych kolumn.

Zob. Wybrane techniki analizy graficznej : Wykresy obrazkowe.
Wykresy obrazkowe - Koła. Na wykresie obrazkowym tego typu, dla każdego przypadku wykreślany jest wykres kołowy, przy czym wartościom kolejnych zmiennych odpowiada wielkość wycinka koła (zgodnie z ruchem wskazówek zegara, począwszy od godziny 12:00).

Zob. Wybrane techniki analizy graficznej : Wykresy obrazkowe.
Wykresy obrazkowe - Profile. Na wykresie obrazkowym tego typu, dla każdego przypadku wykreślany jest pojedynczy wykres powierzchniowy; względne wartości wybranych zmiennych dla każdego przypadku reprezentowane są przez wysokość kolejnych szczytów profilu powyżej linii bazowej.

Zob. Wybrane techniki analizy graficznej : Wykresy obrazkowe.
Wykresy obrazkowe - Promienie. Na wykresie obrazkowym tego typu, dla każdego przypadku wykreślany jest oddzielny obrazek złożony z promieni i linii łączących promienie (przy większej liczbie zmiennych obrazek ten przypomina gwiazdę lub słońce). Każdy promień odpowiada jednej z wybranych zmiennych (zgodnie z ruchem wskazówek zegara, począwszy od godziny 12:00), przy czym długość promienia reprezentuje rozstęp zmiennej. Wartości zmiennych dla każdego przypadku są połączone linią (poprzeczną), przy czym wartości minimalnej zmiennej odpowiada punkt, z którego wychodzą promienie, a maksymalnej koniec promienia.

Zob. Wybrane techniki analizy graficznej : Wykresy obrazkowe.
Wykresy obrazkowe - Twarze Chernoffa Wykres typu Twarze Chernoffa jest jednym z najbardziej wyrafinowanych wykresów obrazkowych. Dla każdego przypadku jest rysowany oddzielny obrazek "twarzy". Do kształtów i wielkości pojedynczych rysów twarzy (np. długości nosa, kąta brwi, szerokości twarzy) przypisywane są względne wartości wybranych zmiennych dla każdego przypadku.

Zob. Wybrane techniki analizy graficznej : Wykresy obrazkowe.
Wykresy obrazkowe - Wielokąty. Na wykresie obrazkowym tego typu, dla każdego przypadku wykreślany jest wykres kołowy, przy czym względnym wartościom kolejnych zmiennych odpowiada odległość od środka wielokąta do wierzchołka wielokąta (zgodnie z ruchem wskazówek zegara, począwszy od godziny 12:00).

Zob. Wybrane techniki analizy graficznej : Wykresy obrazkowe.
Wykresy obrazkowe- Linie. Na wykresie obrazkowym tego typu, dla każdego przypadku wykreślany jest pojedynczy wykres liniowy (łamana); względne wartości wybranych zmiennych dla każdego przypadku reprezentowane są przez wysokość kolejnych punktów załamania linii powyżej linii bazowej.

Zob. Wybrane techniki analizy graficznej : Wykresy obrazkowe.
Wykresy prawdopodobieństwo-prawdopodobieństwo. Poprzez analizę wykresu prawdopodobieństwo-prawdopodobieństwo (nazywanego także wykresem P-P) możemy w sposób wizualny oceniać dopasowanie rozkładu teoretycznego do rozkładu empirycznego danych. Na wykresach typu prawdopodobieństwo-prawdopodobieństwo (lub w skrócie P-P) dystrybuanta empiryczna jest wykreślana w funkcji dystrybuanty teoretycznej. Podobnie jak w przypadku wykresu kwantyl-kwantyl wartości odpowiedniej zmiennej najpierw są porządkowane w kolejności rosnącej. Obserwacja i-ta jest wykreślana wzdłuż jednej osi jako i/n (tzn. dystrybuanta empiryczna) i wzdłuż drugiej osi jako F(x(i)), gdzie F(x(i)) oznacza wartość teoretyczną dystrybuanty dla odpowiedniej obserwacji x(i). Jeśli teoretyczny rozkład dobrze przybliża rozkład empiryczny, wówczas wszystkie punkty na wykresie powinny znaleźć się na przekątnej.

Wykresy ramka-wąsy 2W - Kolumny. W przypadku tego typu wykresu ramka-wąsy, pionowe kolumny są wykorzystywane do przedstawiania punktu środkowego zmiennej (tzn. średniej lub mediany). Wąsy nałożone na każdą kolumnę oznaczają wybraną miarę zmienności (tzn. błąd standardowy, odchylenie standardowe, min-maks lub stałą).
Wykresy ramka-wąsy 2W - Ramka-wąsy. W przypadku tego typu wykresu ramka-wąsy, miara zmienności (błąd standardowy, odchylenie standardowe, min-maks lub stała) jest reprezentowana przez ramkę narysowaną wokół punktu środkowego (średniej lub mediany) oraz wąsów na zewnątrz ramki, które także reprezentują wybraną miarę zmienności (jak na rysunku poniżej).

Wykresy ramka-wąsy 2W - Ramki. W przypadku tego typu wykresu ramka-wąsy, miara zmienności (błąd standardowy, odchylenie standardowe, min-maks lub stała) jest reprezentowana przez ramkę narysowaną wokół punktu środkowego (średniej lub mediany).
Wykresy ramka-wąsy 2W - Słupki błędów. W przypadku wykresów ramka-wąsy tej postaci, zakresy lub słupki błędów są wyliczane na podstawie danych. Miary tendencji centralnej (np. mediana lub średnia) oraz miary zmienności (np. wartości min-maks, kwartyle, błędy standardowe lub odchylenia standardowe) są wyliczane dla każdej zmiennej, a wybrane wartości są przedstawiane jako słupki błędów.

Powyższy diagram przedstawia zakres obserwacji odstających i ekstremalnych na "klasycznym" wykresie ramka-wąsy(zob. Tukey,1977).
Wykresy ramka-wąsy 2W - Wąsy. W przypadku tego typu wykresu ramka-wąsy, miara zmienności (błąd standardowy, odchylenie standardowe, min-maks lub stała) jest reprezentowana przez "wąsy" (tzn. jako linia z poprzecznymi kreskami na obu końcach).

Wykresy rozrzutu 2W. Dwuwymiarowych wykresów rozrzutu używamy do wizualizacji zależności pomiędzy dwiema zmiennymi X i Y (np. wagą osoby i jej wzrostem). Przypadki reprezentowane są na płaszczyźnie wykresu przez punkty (znaczniki punktów).

Współrzędne X i Y odpowiadają dwóm analizowanym zmiennym i określają położenie punktu na płaszczyźnie
Patrz także: redukcja danych .
Wykresy rozrzutu 2W - Podwójny Y. Ten typ wykresu rozrzutu może być traktowany jako kombinacja dwóch wielokrotnych wykresów rozrzutu dla jednej zmiennej X i dwóch różnych zbiorów (list) zmiennych Y. Dla zmiennej X i każdej z wybranych zmiennych Y tworzony jest wykres rozrzutu. Zmienne Y wprowadzone na pierwszej liście (nazywanej Lewą Y) zostaną wykreślone względem lewej osi Y, podczas gdy zmienne wprowadzone na drugiej liście (zwanej Prawą Y) zostaną wykreślone względem prawej osi Y. Nazwy wszystkich zmiennych Y z obydwu list zostaną uwzględnione na legendzie za pomocą umieszczenia litery (L) lub (P), oznaczając odpowiednio lewą oś i prawą oś.

Wykres rozrzutu podwójny Y może zostać wykorzystany do porównania obrazów kilku korelacji poprzez nałożenie ich na jeden wykres. Jednakże, ze względu na niezależne skalowanie stosowane dla dwóch list zmiennych, może ułatwić porównania pomiędzy zmiennymi o wartościach z różnych zakresów.
Patrz także: redukcja danych.
Wykresy rozrzutu 3W. Wykresy rozrzutu 3W służą do wizualizacji współzależności pomiędzy trzema lub większą liczbą zmiennych, reprezentujących współrzędne X, Y oraz jedną lub więcej współrzędnych Z (pionowa) każdego punktu w trójwymiarowej przestrzeni (patrz na poniższy wykres).

Patrz także, wykresy trójkątne, redukcja danych oraz obracanie widoku danych (w przestrzeni 3W).
Wykresy rozrzutu 3W - Dane surowe. Możemy tworzyć wykresy rozrzutu 3W różnego rodzaju, w różny sposób pokazujące wartości trzech lub więcej zmiennych. Na zwykłym wykresie rozrzutu 3W rysowane są po prostu punkty w przestrzeni trójwymiarowej.
Patrz także: redukcja danych.
Wykresy rozrzutu 3W - Wykresy trójkątne. W przypadku tego typu wykresu trójkątnego, do wykreślania czterech (lub większej liczby) zmiennych (składowe X, Y i Z oraz reakcje V1, V2 itd.) w trzech wymiarach (wykresy rozrzutu lub powierzchniowe trójkątne 3W) wykorzystywane są układy trójkątne. Reakcje (V1, V2 itd.) powiązane z proporcjami zmiennych składowych (X, Y i Z) na wykresie trójkątnym wykreślane są jako wysokości punktów.
Patrz także: redukcja danych.
Wykresy sekwencyjne 3W danych surowych - Warstwicowy/dyskretny. Ten rodzaj wykresu sekwencyjnego 3W danych surowych może być traktowany jako wynik rzutowania wykresu wstęgowego 3W. Każdy z punktów danych na tym wykresie jest przedstawiany w postaci prostokątnego obszaru, wypełnionego różnymi kolorami i/lub wzorami odpowiadającymi wartościom lub zakresowi wartości punktów danych (zakresy są opisywane w legendzie). Wartości każdej serii danych są przedstawiane wzdłuż osi X, natomiast kolejne serie danych wzdłuż osi Y.

Wykresy sekwencyjne/nakładane. Te rodzaje wykresów są wykorzystywane do przedstawiania serii wartości wybranych zmiennych.

Wykresy sekwencyjne nakładane 2W - Kolumny. W przypadku tego typu wykresów sekwencyjnych nakładanych, sekwencje wartości każdej wybranej zmiennej będą reprezentowane przez kolejne segmenty pionowych kolumn nałożonych jedna na drugiej.
Wykresy sekwencyjne nakładane 2W - Liniowy mieszany. Na wykresach sekwencyjnych nakładanych tego typu, przedstawiane są sekwencje wartości dwóch grup zmiennych z zastosowaniem różnego stylu wykresu dla każdej grupy. Dla pierwszej grupy wykreślane są powierzchnie (wypełnione obszary), a dla drugiej linie bez wypełnienia. Najpierw rysowane są wykresy dla zmiennych z drugiej grupy (nałożone jeden na drugim), a potem dla zmiennych z pierwszej grupy (nałożone na wykreślone wcześniej wykresy z obu grup).
Wykresy sekwencyjne nakładane 2W - Liniowy. W przypadku tego typu wykresów sekwencyjnych nakładanych, sekwencje wartości każdej wybranej zmiennej będą reprezentowane przez kolejne linie nałożone jedna na drugiej.
Wykresy sekwencyjne nakładane 2W - Powierzchniowy. W przypadku tego typu wykresów sekwencyjnych nakładanych, sekwencje wartości każdej wybranej zmiennej będą reprezentowane przez kolejne warstwy (powierzchnie) nałożone jedna na drugiej.
Wykresy sekwencyjne nakładane 2W - Schodkowy mieszany. Na wykresach sekwencyjnych nakładanych tego typu, przedstawiane są sekwencje wartości dwóch grup zmiennych z zastosowaniem różnego stylu wykresu dla każdej grupy. Dla pierwszej grupy (Schodkowy) rysowane są schodki (linie bez wypełnienia), a dla drugiej (Obszar) wypełnione obszary. Najpierw rysowane są wykresy dla zmiennych z grupy Obszary (nałożone jeden na drugim), a potem dla zmiennych z grupy Schodkowy (nałożone na wykreślone wcześniej wykresy z obu grup).
Wykresy sekwencyjne nakładane 2W - Schodkowy powierzchniowy. W przypadku tego typu wykresów, sekwencje wartości każdej wybranej zmiennej będą reprezentowane przez kolejne warstwy schodkowe nałożone jedna na drugiej.
Wykresy sekwencyjne nakładane 2W - Schodkowy. W przypadku tego typu wykresów sekwencyjnych nakładanych, sekwencje wartości każdej wybranej zmiennej będą reprezentowane przez kolejne linie schodkowe nałożone jedna na drugiej.
Wykresy skategoryzowane Wykresy te umożliwiają kategoryzację wykresów 2W, 3W i nW poprzez określenie kategorii wybranej zmiennej. Dla każdego poziomu zmiennej grupującej (lub dla zdefiniowanego przez użytkownika podzbioru danych) tworzony jest jeden wykres składowy, przy czym wszystkie wykresy składowe umieszczane są na jednym rysunku, umożliwiając w ten sposób przeprowadzanie porównań pomiędzy podzbiorami (kategoriami) danych.
Szczegółowe omówienie, patrz wykresy skategoryzowane; patrz też Data Mining.
Wykresy słupkowe 3W. Na wykresach słupkowych 3W (pojęcie pierwszy raz użyte przez Tukey'a, 1970), zakresy wartości wybranych zmiennych wykreślane są osobno dla grup przypadków określonych przez wartości zmiennej kategoryzującej (grupującej). Tendencja centralna (np. mediana czy średnia) oraz statystyki rozrzutu (np. kwartyle, błędy standardowe lub odchylenia standardowe) obliczane są dla każdej grupy przypadków i rysowane w wybrany przez użytkownika sposób. Obserwacje odstające mogą również być zaznaczone.
Wykresy słupkowe 3W - Pływające bloki. W przypadku tego stylu wykresu słupkowego 3W, zakresy wartości wybranych zmiennych są wykreślane oddzielnie dla grup przypadków zdefiniowanych przy pomocy wartości zmiennej skategoryzowanej (grupującej). Dla każdej zmiennej i każdej grupy przypadków są obliczane miary tendencji centralnej (np. mediana lub średnia) i miary zmienności (np. kwartyle, błędy standardowe lub odchylenia standardowe), a wybrane wartości są przedstawione jako "pływające" bloki.

Wykresy zakresu 3W różnią się od wykresów słupkowych 3W tym, że zakresy są wartościami wybranych zmiennych (np. jedna zmienna zawiera wartości minimalne zakresu, a inna wartości maksymalne zakresu), podczas gdy w przypadku wykresów słupkowych 3W, zakresy są obliczane na podstawie wartości zmiennej (np. odchyleń standardowych, błędów standardowych lub minimum i maksimum zmiennej).

Wykresy słupkowe 3W - Pływające ramki. W przypadku tego stylu wykresu słupkowego 3W, zakresy wartości wybranych zmiennych są wykreślane oddzielnie dla grup przypadków zdefiniowanych przy pomocy wartości zmiennej skategoryzowanej (grupującej). Dla każdej zmiennej i każdej grupy przypadków są obliczane miary tendencji centralnej (np. mediana lub średnia) i miary zmienności (np. kwartyle, błędy standardowe lub odchylenia standardowe), a wybrane wartości są przedstawione jako "pływające" ramki. Wykres ten różni się tym od pływających bloków, iż ramki dla poszczególnych kategorii są oddzielone od siebie.

Wykresy zakresu 3W różnią się od wykresów słupkowych 3W tym, że zakresy są wartościami wybranych zmiennych (np. jedna zmienna zawiera wartości minimalne zakresu, a inna wartości maksymalne zakresu), podczas gdy w przypadku wykresów słupkowych 3W, zakresy są obliczane na podstawie wartości zmiennej (np. odchyleń standardowych, błędów standardowych lub minimum i maksimum zmiennej).

Wykresy słupkowe 3W - Punktowe zakresu. W przypadku tego stylu wykresu słupkowego 3W, zakresy wartości wybranych zmiennych są wykreślane oddzielnie dla grup przypadków zdefiniowanych przy pomocy wartości zmiennej skategoryzowanej (grupującej). Dla każdej zmiennej i każdej grupy przypadków są obliczane miary tendencji centralnej (np. mediana lub średnia) i miary zmienności (np. kwartyle, błędy standardowe lub odchylenia standardowe), a wybrane wartości są przedstawione jako znaczniki punktów połączone linią.

Wykresy zakresu 3W różnią się od wykresów słupkowych 3W tym, że zakresy są wartościami wybranych zmiennych (np. jedna zmienna zawiera wartości minimalne zakresu, a inna wartości maksymalne zakresu), podczas gdy w przypadku wykresów słupkowych 3W, zakresy są obliczane na podstawie wartości zmiennej (np. odchyleń standardowych, błędów standardowych lub minimum i maksimum zmiennej).

Wykresy słupkowe 3W - Zakresy krawędziowe. Na wykresach słupkowych 3W, zakresy wartości wybranych zmiennych wykreślane są osobno dla grup przypadków określonych przez wartości zmiennej kategoryzującej (grupującej). Tendencja centralna (np. mediana lub średnia) oraz statystyki rozrzutu (np. kwartyle, błędy standardowe lub odchylenia standardowe) obliczane są dla każdej grupy przypadków, a wybrane wartości są przedstawione jako punkty z "wąsami", zakresy zaznaczone przy pomocy "wąsów" są połączone liniami (tzn. krawędzie zakresu) oddzielnie dla każdej zmiennej.

Wykresy zakresu 3W różnią się od wykresów słupkowych 3W tym, że zakresy są wartościami wybranych zmiennych (np. jedna zmienna zawiera wartości minimalne zakresu, a inna wartości maksymalne zakresu), podczas gdy w przypadku wykresów słupkowych 3W, zakresy są obliczane na podstawie wartości zmiennej (np. odchyleń standardowych, błędów standardowych lub minimum i maksimum zmiennej).

Wykresy słupkowe 3W - Zakresy z dwiema wstęgami. W przypadku tego stylu wykresu słupkowego 3W, zakresy wartości wybranych zmiennych są wykreślane oddzielnie dla grup przypadków zdefiniowanych przy pomocy wartości zmiennej skategoryzowanej (grupującej). Dla każdej zmiennej i każdej grupy przypadków są obliczane miary zmienności (np. kwartyle, błędy standardowe lub odchylenia standardowe), a wybrane wartości są przedstawione jako dwie wstęgi.

Wykresy zakresu 3W różnią się od wykresów słupkowych 3W tym, że zakresy są wartościami wybranych zmiennych (np. jedna zmienna zawiera wartości minimalne zakresu, a inna wartości maksymalne zakresu), podczas gdy w przypadku wykresów słupkowych 3W, zakresy są obliczane na podstawie wartości zmiennej (np. odchyleń standardowych, błędów standardowych lub minimum i maksimum zmiennej).

Wykresy słupkowe 3W - Zakresy ze słupkami błędów. W przypadku tego stylu wykresu słupkowego 3W, zakresy wartości wybranych zmiennych są wykreślane oddzielnie dla grup przypadków zdefiniowanych przy pomocy wartości zmiennej skategoryzowanej (grupującej). Dla każdej zmiennej i każdej grupy przypadków są obliczane miary tendencji centralnej (np. mediana lub średnia) i miary zmienności (kwartyle, błędy standardowe lub odchylenia standardowe), a wybrane wartości są przedstawione jako słupki błędu.

Wykresy zakresu 3W różnią się od wykresów słupkowych 3W tym, że zakresy są wartościami wybranych zmiennych (np. jedna zmienna zawiera wartości minimalne zakresu, a inna wartości maksymalne zakresu), podczas gdy w przypadku wykresów słupkowych 3W, zakresy są obliczane na podstawie wartości zmiennej (np. odchyleń standardowych, błędów standardowych lub minimum i maksimum zmiennej).
Wykresy słupkowe/kolumnowe 2W. Wykresy słupkowe/kolumnowe prezentują sekwencje wartości. Każdemu przypadkowi odpowiada jeden słupek lub kolumna (dla poszczególnych zmiennych).Jeżeli przy tworzeniu wykresu wybierzemy wiele zmiennych, to może zostać utworzony wielokrotny lub zwykły wykres słupkowy. W przypadku wykresu wielokrotnego tworzony jest jeden obraz, a dla każdego przypadku rysowane jest tyle słupków, ile zmiennych ma prezentować wykres.

Wykresy toru 3W. Na wykresie rozrzutu 3W tego typu, punkty są rozmieszczane w przestrzeni 3W (zgodnie ze współrzędnymi zapisanymi w trzech zmiennych X, Y i Z) i łączone linią wg kolejności przypadków (obserwacji) w arkuszu danych. W ten sposób możemy wizualizować sekwencję punktów (np. tor ruchu w przestrzeni trójwymiarowej).

Tor ten może być traktowany jako trajektoria ruchu obiektu w trójwymiarowej przestrzeni.
Wykresy trójkątne - Przestrzenny.
W przypadku tego typu wykresu trójkątnego, dane (w postaci zmiennych X, Y, Z i V) są
prezentowane na wykresie rozrzutu o podstawie trójkąta. Oś pionowa (odpowiadająca zmiennej V) przechodzi przez
środek trójkąta stanowiącego podstawę wykresu, a płaszczyzna z osiami rysowana jest dla podanej przez użytkownika
wartości zmiennej V.
Poziom płaszczyzny X-Y-Z można dostosować w taki sposób, aby podzielić przestrzeń X-Y-Z-V na obszary
ułatwiające interpretację wyników (np. zależności między trzema zmiennymi).
Wykresy trójkątne - Skategoryzowane wykresy powierzchniowe. W przypadku tego typu trójwymiarowego wykresu trójkątnego, do danych o czterech współrzędnych dopasowywana zostaje powierzchnia. Dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych) wykreślany jest wykres składowy z odrębnym dopasowaniem powierzchni, a wszystkie wykresy składowe są rozmieszczane na jednym obrazie umożliwiając przeprowadzanie porównań pomiędzy podzbiorami (kategoriami) danych.

Wykresy trójkątne - Skategoryzowane wykresy
przestrzenne.
W przypadku tego typu wykresu trójkątnego, dane (w postaci zmiennych X, Y, Z i V) są
prezentowane na wykresie rozrzutu o podstawie trójkąta. Oś pionowa (odpowiadająca zmiennej V) przechodzi przez
środek trójkąta stanowiącego podstawę wykresu, a płaszczyzna z osiami rysowana jest dla podanej przez użytkownika
wartości zmiennej V. Dla każdej wartości zmiennej grupującej (lub
zdefiniowanego przez użytkownika podzbioru danych) rysowany jest odrębny wykres, a wszystkie te wykresy umieszczane są
na jednym obrazie.
Poziom płaszczyzny X-Y-Z można dostosować w taki sposób, aby podzielić przestrzeń X-Y-Z-V na obszary
ułatwiające interpretację wyników (np. zależności między trzema zmiennymi).
Wykresy trójkątne - Skategoryzowane wykresy rozrzutu 3W. Na wykresach tego typu, wartości zmiennej zależnej (odpowiedzi) powiązane z proporcjami składowych (zmiennych X, Y i Z) są wykreślane na trójwymiarowym obrazie, dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych). Dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych) wykreślany jest wykres składowy, a wszystkie wykresy składowe są rozmieszczane na jednym obrazie umożliwiając przeprowadzanie porównań pomiędzy podzbiorami (kategoriami) danych.
Zob. redukcja danych.
Wykresy trójkątne - Skategoryzowane wykresy toru. Za pomocą tego typu wykresu trójkątnego, możemy badać relacje pomiędzy czterema lub większą liczbą wymiarów (X, Y, Z oraz V1, V2 itd.) w postaci trójwymiarowego wykresu toru skategoryzowanego względem każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych). Dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych) wykreślany jest wykres składowy, a wszystkie wykresy składowe są rozmieszczane na jednym obrazie umożliwiając przeprowadzanie porównań pomiędzy podzbiorami (kategoriami) danych.
Wykresy trójkątne - Skategoryzowane wykresy toru. Za pomocą tego typu wykresu trójkątnego, możemy badać relacje pomiędzy czterema lub większą liczbą wymiarów (X, Y, Z oraz V1, V2 itd.) w postaci trójwymiarowego wykresu toru skategoryzowanego względem każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych). Dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych) wykreślany jest wykres składowy, a wszystkie wykresy składowe są rozmieszczane na jednym obrazie umożliwiając przeprowadzanie porównań pomiędzy podzbiorami (kategoriami) danych.
Wykresy trójkątne - Skategoryzowane wykresy warstwicowe (linie). W przypadku tego typu wykresu trójkątnego, trójwymiarowa powierzchnia (dopasowana do danych zapisanych w czterech wymiarach) jest rzutowana na dwuwymiarową płaszczyznę i prezentowana w postaci linii warstwic, dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych). Dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych) wykreślany jest wykres składowy, a wszystkie wykresy składowe są rozmieszczane na jednym obrazie umożliwiając przeprowadzanie porównań pomiędzy podzbiorami (kategoriami) danych.
Szczegółowe omówienie wykresów skategoryzowanych znajduje się w sekcji Wykresy skategoryzowane, a informacje uzupełniające można znaleźć w tematach Data Mining oraz Wybrane techniki analizy graficznej.
Wykresy trójkątne, 3W. Wykres trójkątny może być wykorzystywany do badania relacji pomiędzy czterema lub większą liczbą wymiarów, gdzie trzy z tych wymiarów reprezentują składniki mieszaniny (tzn. relacje pomiędzy nimi są ograniczone tak, że wartości trzech zmiennych dodają się do tej samej stałej). Jednym z typowych zastosowań tego wykresu jest sytuacja, kiedy mierzona reakcja(e) w trakcie eksperymentu zależy od wzajemnej relacji pomiędzy trzema składnikami (np. trzema różnymi substancjami chemicznymi), które są zmieniane w celu określenia optymalnej kombinacji tych składników (np. w przypadku planów dla mieszanin).

Wykresy trójkątne - Wykres odchyleń. Ten typ wykresu trójkątnego umożliwia badanie relacji pomiędzy czterema lub większą liczbą wymiarów (X, Y, Z, oraz V1, V2 itd.), w postaci "odchyleń" od określonego bazowego poziomu osi V, gdzie trzy z tych wymiarów (X, Y oraz Z) reprezentują składniki mieszaniny (ich suma jest stała i równa dla każdego przypadku). Na wykresie rysowane są punkty i linie rzutu idące do płaszczyzny umieszczonej na zadanym poziomie osi V.
Wykresy trójkątne - Wykres rozrzutu 2W. W przypadku tego typu wykresu trójkątnego, do wykreślania trzech (lub większej liczby) zmiennych (składowe X, Y i Z) w dwóch wymiarach wykorzystywane są układy trójkątne. Wykreślane są punkty reprezentujące proporcje zmiennych składowych (X, Y i Z).

Zob. redukcja danych.
Wykresy trójkątne - Wykresy warstwicowe (linie). W przypadku tego typu wykresu trójkątnego, trójwymiarowa powierzchnia (dopasowana do danych zapisanych w czterech zmiennych) jest rzutowana na dwuwymiarową płaszczyznę i prezentowana w postaci linii warstwic.

Wykresy trójkątne - Wykresy warstwicowe (powierzchnie). W przypadku tego typu wykresu trójkątnego, trójwymiarowa powierzchnia (dopasowana do danych o czterech współrzędnych) jest rzutowana na dwuwymiarową płaszczyznę w postaci warstwic.

Wykresy zakresu 2W - Kolumny. W przypadku tego stylu wykresów zakresu, kolumna reprezentuje punkt środkowy, a zakres jest reprezentowany przez wąsy naniesione na kolumnę.

Wykresy zakresu 2W - Ramki. W przypadku tego stylu wykresów zakresu, zakres jest reprezentowany przez "ramkę" (tzn. jako prostokąt, którego górna krawędź oznacza górną granicę, a dolna krawędź oznacza dolną granicę). Punkty środkowe są reprezentowane jako znaczniki punktu lub poziome linie "przecinające" ramkę.
Wykresy zakresu 2W - Wąsy. W przypadku tego stylu wykresów zakresu, zakres jest reprezentowany przez "wąsy" (tzn. linie z poprzecznymi kreskami na obu końcach). Wartości zmiennej wybranej jako punkt środkowy oznaczane są znacznikami punktów.
Wykresy zakresu 2W - Zakresy ze słupkami błędów. W przypadku tego stylu wykresów zakresu 2W, słupki błędów nie są wyznaczane na podstawie danych, lecz definiowane przez surowe wartości wybranych zmiennych. Punkt środkowy reprezentowany jest przez znacznik punktu. Dla każdego przypadku rysowany jest jeden słupek błędu. W najprostszym przypadku, do utworzenia wykresu potrzebne są trzy zmienne: z położeniem punktu środkowego, maksimum i minimum, tak jak na poniższym przykładowym wykresie:
Wykresy zakresu 3W - Zakresy ze słupkami błędów. W przypadku tego stylu wykresów zakresu 3W, słupki błędów nie są wyznaczane na podstawie danych, lecz definiowane przez surowe wartości wybranych zmiennych. Punkt środkowy reprezentowany jest przez znacznik punktu. Zmienne zakresu mogą być interpretowane jako wartości bezwzględne lub wartości reprezentujące odchylenia od punktu środkowego. Na wykresie mogą być przedstawiane pojedyncze zmienne lub wiele zmiennych.

Wykresy zakresu 3W różnią się od wykresów słupkowych 3W tym, że zakresy są wartościami wybranych zmiennych (np. jedna zmienna zawiera wartości minimalne zakresu, a inna wartości maksymalne zakresu), podczas gdy w przypadku wykresów słupkowych 3W, zakresy są obliczane na podstawie wartości zmiennej (np. odchyleń standardowych, błędów standardowych lub minimum i maksimum zmiennej).
Wymiatanie. Przekształcanie macierzy określane terminem "wymiatanie" używane jest dla efektywnego przeprowadzania regresji wielorakiej metodą krokową (patrz Dempster, 1969, Jennrich, 1977) lub w innych podobnych analizach. Zmodyfikowana wersja tego przekształcenia wykorzystywana jest również przy obliczaniu uogólnionej odwrotności typu g2. Przekształcenie typu wymiatania postępującego, dla danej kolumny k można opisać za pomocą poniższych czterech kroków (gdzie e oznacza elementy macierzy symetrycznej):
Wyniki X-11: A 1. Szereg pierwotny. Ta tabela X-11 pokazuje szereg pierwotny, przed jakąkolwiek wstępną korekcją zdefiniowaną przez użytkownika lub korekcją ze względu na liczbę dni handlowych. Zauważmy, że w przypadku szeregu kwartalnego nie można określić żadnych wstępnych czynników korekcji, a szereg pierwotny zostanie pokazany w tabeli B 1.
Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: A 2. Wstępne czynniki korekcji miesięcznej. W przypadku szeregu miesięcznego X-11, użytkownik może określić drugi szereg, który zawiera wstępne czynniki korekcji miesięcznej, na przykład, w celu korekcji ze względu na wyjątkowe święta itd. Czynniki określone tutaj zostaną odjęte od szeregu pierwotnego w przypadku modeli addytywnych lub zostaną użyte do podzielenia szeregu pierwotnego, jeśli zażądaliśmy multiplikatywnej korekcji sezonowej (zatem w tym przypadku wartości tego szeregu muszą być różne od zera).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: A 3. Szereg pierwotny skorygowany przez wstępne czynniki korekcji miesięcznej. W przypadku tego szeregu miesięcznego X-11, czynniki określone w A 2 zostaną odjęte od szeregu pierwotnego (korekcja addytywna) lub zostaną użyte do podzielenia wartości szeregu pierwotnego (korekcja multiplikatywna). W tej tabeli zostanie pokazany wynikowy szereg skorygowany.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: A 4. Wstępne czynniki korekcji ze względu na liczbę dni handlowych. Ta tabela X-11 jest dostępna (ma zastosowanie) tylko wtedy, gdy zostały określone wstępne czynniki korekcji ze względu na liczbę dni handlowych i model multiplikatywny. Użytkownik może dla każdego dnia (od poniedziałku do piątku) określić wagi; wagi te są następnie proporcjonalnie korygowane, tak by sumowały się do 7. Szereg (A 1 lub A 3) zostaje następnie podzielony przez czynniki kalendarza miesięcznego, które są obliczone na podstawie liczby odpowiednich dni w danym miesiącu. Zauważmy, że domyślnie, czynniki kalendarzowe są także korygowane ze względu na różne długości różnych miesięcy; różna długość miesięcy może być jednak uwzględniona w czynnikach kalendarzowych (w takim przypadku stosuje się stałą długość miesiąca równą 30,4375).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 1. Szereg skorygowany przez czynniki wstępne lub szereg pierwotny. Ta tabela X-11 pokazuje szereg pierwotny lub szereg skorygowany przez czynniki wstępne w zależności od tego, czy określono wstępne czynniki korekcji miesięcznej i/lub czynniki korekcji ze względu na liczbę dni handlowych (w przypadku kwartalnej X-11, B 1 jest zawsze szeregiem pierwotnym).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 2. Trend i składnik wahań długookresowych. Wstępną ocenę składnika trendu i wahań długookresowych oblicza się jako 12-elementową średnią ruchomą B 1.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 3. Niezmodyfikowane różnice lub ilorazy S-I. Wstępną ocenę połączonego składnika nieregularnego i sezonowego otrzymuje się przez odjęcie B 2 od B 1 (model addytywny) lub podzielenie B 1 przez B 2 (model multiplikatywny).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 4. Wartości zastępcze dla ekstremalnych różnic (ilorazów) S-I. Najpierw oblicza się wstępną ocenę składnika sezonowości X-11 przez zastosowanie ważonej 5-elementowej średniej ruchomej oddzielnie dla wartości B 3 dla każdego miesiąca. Następnie oblicza się 12-elementową średnią ruchomą wstępnych wskaźników dla całego szeregu, a wynikowe wartości koryguje się tak, aby sumowały się do zera (model addytywny) lub 12 (model multiplikatywny) w ramach każdego roku. Potem otrzymuje się wstępną ocenę składnika nieregularnego przez odjęcie od różnic S-I wstępnej oceny składnika sezonowego (model addytywny) lub przez podzielenie różnic S-I przez wstępną ocenę składnika sezonowego (model multiplikatywny). Dla wynikowej wstępnej oceny składnika nieregularnego oblicza się 5-letnie przesuwne odchylenie standardowe (s , sigma), a wartości ekstremalne roku środkowego, które są poza 2,5*s zostają usunięte. Następnie przelicza się 5-letnie s i powtarza ten proces; tym razem jednak wartościom nieregularnym poza 2,5*s przypisuje się wagi zerowe, wartościom w ramach 1,5*s przypisuje się pełne wagi, a wartościom między 1,5 a 2,5*s przypisuje się wagi liniowo stopniowane od 0 do 1. Wartości, które otrzymują wagi mniejsze niż pełne, są z kolei przeliczane jako średnia danej wartości razy jej waga i dwóch najbliższych wartości z pełnymi wagi przed i po tej wartości w danym miesiącu. Tabela B 4 pokazuje ostateczne zastąpione (przeliczone) wartości oraz przesuwne 5-letnie s.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 5. Wskaźniki sezonowe. Wartości ekstremalne w szeregu B 3 są zastępowanie wartościami pokazanymi w B 4. Z tego szeregu X-11 wyprowadzone są wstępne wskaźniki sezonowe przez zastosowanie 5-elementowej średniej ruchomej do każdego miesiąca oddzielnie; następnie dla całego szeregu oblicza się 12-elementową średnią ruchomą, a wynikowe wartości koryguje tak, by sumowały się do zera (model addytywny) lub 12 (model multiplikatywny) w ramach każdego roku.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 6. Szereg z wyeliminowanymi wahaniami sezonowymi. Szereg wstępnie skorygowany ze względu na wahania sezonowe otrzymuje się przez odjęcie od B 1 wskaźników sezonowych w B 5 (model addytywny) lub podzielenie B 1 przez wskaźniki sezonowe w B 5 (model multiplikatywny).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 7. Trend i składnik wahań długookresowych. Szereg X 11 skorygowany ze względu na wahania sezonowe (B 6) jest wyrównywany przez procedurę zmiennej średniej ruchomej (szczegóły, patrz Shiskin, Young i Musgrave, 1967). Opcjonalnie wartości ekstremalne mogą być usuwane z wyrównanego szeregu w sposób analogiczny do tego opisanego przy B 4. Ogólnie stosuje się tak zwaną nieliniową średnią ruchomą Hendersona, która jest ważoną średnią ruchomą, której wielkości wag odpowiadają krzywej dzwonowej (patrz na przykład Makridakis i Wheelwright, 1978 lub Shiskin, Young i Musgrave, 1967). Wybór odpowiedniej długości średniej ruchomej jest ważną kwestią dekompozycji sezonowej (tzn. obliczenie składnika trendu i wahań długookresowych). Ogólna zasada polega na tym, że wybiera się dłuższą średnią ruchomą, gdy w danych występuje dużo losowych wahań w stosunku do składnika trendu i wahań długookresowych, natomiast krótszą średnią ruchomą, gdy występuje względnie mało wahań losowych. Domyślnie program wybierze przekształcenie średniej ruchomej automatycznie. Najpierw oblicza wstępną 13-elementową (ważoną) średnią ruchomą Hendersona szeregu skorygowanego ze względu na wahania sezonowe (bez sięgania do końców szeregu). Potem oblicza wstępną ocenę składnika nieregularnego przez odjęcie tego szeregu od szeregu skorygowanego ze względu na wahania sezonowe (model addytywny) lub podzielenie go przez szereg skorygowany ze względu na wahania sezonowe (model multiplikatywny). Następnie oblicza się średnią różnicę z miesiąca na miesiąc (procentowa zmiana) bez uwzględnienia znaku zarówno dla szacowanego składnika nieregularnego, jak i składniku trendu i wahań długookresowych. Stosunek średnich różnic z miesiąca na miesiąc (zmian procentowych) tych dwóch szeregów odzwierciedla względne znaczenie wahań nieregularnych w stosunku do ruchów składnika trendu i wahań długookresowych. W zależności od wartości tego stosunku, wybierana jest 9-elementowa średnia ruchoma Hendersona (jeśli stosunek jest w granicach 0,0 i 0,99), 13-elementowa średnia ruchoma Hendersona (jeśli stosunek jest w granicach 1,0 i 3,49) lub 23-elementowa średnia ruchoma Hendersona (jeśli stosunek jest większy od 3,5).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 8. Niezmodyfikowane różnice (ilorazy) S-I. Ta tabela X-11 jest taka sama jak B 3, z wyjątkiem tego, że jest oparta na wartościach trendu i wahań długookresowych obliczonych w B 7.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 9. Wartości zastępcze dla ekstremalnych różnic (ilorazów) S-I. Ta tabela X-11 jest taka sama, jak B 4 z wyjątkiem tego, że wykorzystuje się różnice (ilorazy) w B 8, do których stosuje się średnią ruchomą 7-elementową (do oszacowania wskaźników sezonowych).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 10. Wskaźniki sezonowe. Po zastąpieniu wartości ekstremalnych odpowiednimi wartościami B 9, stosuje się 7-elementową średnią ruchomą do różnic (ilorazów) S-I w B 8. Wynikowa ocena wskaźników sezonowych jest następnie korygowana, tak że suma dla każdego roku równa się zero (model addytywny) lub 12 (model multiplikatywny).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 11. Szereg z wyeliminowanymi wahaniami sezonowymi. Ta tabela X-11 jest taka sama jak B 6, z wyjątkiem tego, że używa się wskaźników sezonowych w B 10.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 13. Szereg nieregularny. Oceny trendu i wahań długookresowych w B 7 są odejmowane od skorygowanego sezonowo szeregu w B 11 (model addytywny) lub wartości B 7 są stosowane do podzielenia szeregu w B 11 model multiplikatywny). Wynikowy szereg stanowi ulepszoną ocenę szeregu nieregularnego.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 14. Ekstremalne wartości nieregularne wyłączone z regresji szacującej wpływ zmienności liczby dni handlowych. Miesiące danego szeregu są sortowane na różne grupy, w zależności od określonego dnia, od którego zaczyna się miesiąc (miesiące 30-dniowe, 31-dniowe i luty są traktowane oddzielnie). Następnie, w dwustopniowej procedurze, w ramach każdego typu miesiąca, zostają zidentyfikowane wartości ekstremalne (poza 2,5 * s; można także określić inne wartości s). Ta tabela X-11 pokazuje ostateczne wartości ekstremalne, które zostaną wykluczone.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 15. Wstępna regresja ze względu na liczbę dni handlowych. Po usunięciu wartości ekstremalnych B 14 z B 13, obliczane są metodą najmniejszych kwadratów oceny dla siedmiu wag dziennych.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 16. Czynniki korekcji ze względu na liczbę dni handlowych wyprowadzone ze współczynników regresji. Na podstawie wag regresji szacującej wpływ zmienności liczby dni handlowych oblicza się czynniki korekcji miesięcznej w oparciu o liczbę określonych dni handlowych (tzn. poniedziałków, wtorków itd.) w danych miesiącach. Czynniki te są przedstawione w tej tabeli X-11; są one następnie używane do korekcji (tzn. są odejmowane od szeregu lub dzielone przez szereg) szeregu nieregularnego B 13 ze względu na zmienność liczby dni handlowych.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 17. Wstępne wagi dla składnika nieregularnego. Oceny składnika nieregularnego (w B 13 lub w szeregu skorygowanym przez B 16, w zależności od tego, czy została wykonana korekcja ze względu na liczbę dni handlowych) są dalej uściślane; oblicza się w tym celu stopniowane wagi dla wartości ekstremalnych, w zależności od ich względnej odległości od 0 (w kategoriach przesuwnego 5-letniego s). W szczególności, wykorzystuje się proces odwrotny do opisanego powyżej w przypadku B 4. Ta tabela X-11 (B17) zawiera wynikowe czynniki korekcji.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 18. Czynniki korekcji liczby dni handlowych wyprowadzone z połączonych wag dziennych. Ta tabela X-11 zawiera ostateczne czynniki korekcji ze względu na liczbę dni handlowych, obliczone z wag najmniejszych kwadratów dni handlowych w B 15 i/lub wstępnych wag dni handlowych w A 4.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: B 19. Szereg pierwotny skorygowany ze względu na liczbę dni handlowych i zmienność wstępną. Wartości w B 18 są wykorzystywane do korekcji pierwotnego (skorygowanego) szeregu (w A 1, A 3, lub B 1, w zależności od tego, czy określono wstępne czynniki korekcji). W szczególności, wartości B 18 odejmuje się (model addytywny) od pierwotnego szeregu lub dzieli przez (model multiplikatywny) szereg pierwotny.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 1. Szereg pierwotny zmodyfikowany przez wstępne wagi i skorygowany ze względu na liczbę dni handlowych i zmienność wstępną. Szereg w B 19 (lub B 1, jeśli nie wprowadzono korekcji ze względu na liczbę dni handlowych) jest korygowany ze względu na wartości ekstremalne przez wagi obliczone w B 17. Wynikowy zmodyfikowany szereg jest pokazany w tej tabeli X-11 (C 1).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 2. Trend i składnik wahań długookresowych. Ocena połączonego składnika trendu i wahań długookresowych jest obliczana z C 1 przez zastosowanie wycentrowanej 12-elementowej średniej ruchomej.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 4. Zmodyfikowane różnice (ilorazy) S-I. Aby otrzymać uściślone różnice (ilorazy) S-I, od zmodyfikowanego szeregu w C 1 odejmowane są wartości w C 2 lub wartości C 1 są dzielone przez C 2 (model multiplikatywny).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 5. Wskaźniki sezonowe. Te wartości są takie same jak w B 5, z wyjątkiem tego, że wykorzystuje się różnice (ilorazy) C 4.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 6. Szereg z wyeliminowanymi wahaniami sezonowymi. Wstępny szereg skorygowany sezonowo oblicza się przez odjęcie od C 1 wartości C 5, albo w przypadku modelu multiplikatywnego podzielenie C 1 przez C 5 (zauważmy, że wartości w tabeli C 5 przy modelu multiplikatywnym podawane są w %). Więcej informacji znajduje się w rozdziale II metoda korekcji sezonowej Census X-11.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 7. Trend i składnik wahań długookresowych. Szereg skorygowany ze względu na wahania sezonowe (C 6) jest wyrównywany przy pomocy procedury zmiennej średniej ruchomej (tę samą procedurę stosuje się dla B 7, patrz także Shiskin, Young i Musgrave, 1967) w celu wyprowadzenia wstępnej oceny składnika trendu i wahań długookresowych.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 9. Zmodyfikowane różnice (ilorazy) S-I. Zmodyfikowane różnice (ilorazy) S-I są obliczane przez odjęcie C 7 od szeregu C 1 (modele addytywne) albo w przypadku modelu multiplikatywnego podzielenie C 1 przez C 7.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 10. Wskaźniki sezonowe. Wskaźniki sezonowe oblicza się analogicznie do B 10, ale na podstawie różnic (ilorazów) C 9.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 11. Szereg z wyeliminowanymi wahaniami sezonowymi. Uściślony szereg skorygowany ze względu na wahania sezonowe oblicza się przez odjęcie od B 1 (model addytywny) lub podzielenie B 1 przez (model multiplikatywny) wartości w C 10.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 13. Szereg nieregularny. Uściślona ocena składnika nieregularnego (losowego) jest obliczana przez odjęcie od C 11 (model addytywny) lub podzielenie C 11 przez (model multiplikatywny) wartości w C 7.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 14. Ekstremalne wartości nieregularne wyłączone z regresji szacującej wpływ zmienności liczby dni handlowych. Tabela ta jest analogiczna do tabeli B 14 i pokazuje ekstremalne wartości nieregularne (zazwyczaj poza 2.5 * s) po powtórnym zastosowaniu procedury uwzględniającej liczbę dni handlowych (w oparciu o miesięczne czynniki dni handlowych przedstawione w B 16).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 15. Ostateczna regresja ze względu na liczbę dni handlowych. Ta tabela X-11 jest taka sama jak B 15, z wyjątkiem tego, że obliczenia są oparte na wartościach z tabeli C 13.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 16. Ostateczne czynniki korekcji ze względu na liczbę dni handlowych wyprowadzone ze współczynników regresji. Ta tabela X-11 jest analogiczna do B 16, z wyjątkiem tego, że czynniki są odejmowane od (przypadek addytywny) lub dzielone przez (przypadek multiplikatywny) wartości z tabeli C 13.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 17. Ostateczne wagi dla składnika nieregularnego. Ta tabela jest analogiczna do tabeli B 17, z wyjątkiem tego, że obliczenia są oparte na wartościach w C 16 (lub C 13 jeśli nie wprowadzono korekcji ze względu na liczbę dni handlowych).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 18. Ostateczne czynniki korekcji liczby dni handlowych wyprowadzone z połączonych wag dziennych. Ta tabela X-11 jest analogiczna do B 18, z wyjątkiem tego, że w obliczeniach stosuje się ostateczne wagi pokazane w C 15.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: C 19. Szereg pierwotny skorygowany ze względu na liczbę dni handlowych i zmienność wstępną. Wartości w C 18 są stosowane do korekcji pierwotnego (skorygowanego) szeregu (w A 3 lub B 1). W szczególności, wartości w C 18 są odejmowane (model addytywny) od szeregu pierwotnego lub dzielone (model multiplikatywny) przez szereg pierwotny.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: D 1. Szereg pierwotny zmodyfikowany przez ostateczne wagi i skorygowany ze względu na liczbę dni handlowych i zmienność wstępną. Ta tabela X-11 jest analogiczna do C 1, z tym wyjątkiem, że w obliczeniach wykorzystuje się wagi C 17 i szereg skorygowany C 19.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: D 2. Trend i składnik wahań długookresowych. Do oszacowania składnika trendu i wahań długookresowych oblicza się 12-elementową średnią ruchomą z D 1.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: D 4. Zmodyfikowane różnice (ilorazy) S-I. Zmodyfikowane różnice (ilorazy) S-I są obliczane przez odjęcie D 2 od (model addytywny) lub podzielenie przez D 2 wartości D 1.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: D 5. Wskaźniki sezonowe. Ta tabela X-11 jest obliczana analogicznie do B 5, z wyjątkiem tego, że obliczenia opierają się na wartościach w D 4.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: D 6. Szereg z wyeliminowanymi wahaniami sezonowymi. Wartości w tej tabeli są obliczane przez odjęcie D 5 od D 1 (model addytywny) lub podzielenie D 1 przez D5 (model multiplikatywny).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: D 7. Trend i składnik wahań długookresowych. Wartości w tej tabeli X-11 oblicza się analogicznie do tych w B 7, z wyjątkiem tego, że obliczenia opierają się na wartościach w D 6.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: D 8. Ostateczne niezmodyfikowane różnice (ilorazy) S-I. Wartości w szeregu D 7 odejmuje się od (model addytywny) lub dzieli przez (model multiplikatywny) wartości w C 19 (lub B 1, jeśli nie wprowadzono korekcji ze względu na różną liczbę dni handlowych). Następnie na szeregu przeprowadza się analizę wariancji względem miesiąca (lub kwartału) w celu przetestowania obecności stabilnej istotnej sezonowości.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: D 9. Ostateczne wartości zastępcze dla ekstremalnych różnic (ilorazów) S-I. Wartości w D 7 zostają odjęte od (model addytywny) lub podzielone przez (model multiplikatywny) D 1; następnie zostają podane wartości, które nie są identyczne do odpowiadających im wartości w D 8. Ponadto dla każdego miesiąca zostają obliczone różnice z roku na rok (model addytywny) lub procentowa zmiana (model multiplikatywny) ocen składników nieregularnego i sezonowego oraz ich stosunek (zwany MSR, moving seasonality ratio). MSR może być użyteczny do określenia wielkości ruchomej sezonowości obecnej w każdym miesiącu.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: D 10. Ostateczne wskaźniki sezonowe. Ta tabela X-11 jest obliczona analogicznie do B 10, z wyjątkiem tego, że oblicza się ją w oparciu o wartości podane w D 8 i D 9.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: D 11. Ostateczny szereg skorygowany sezonowo. Ostateczny szereg skorygowany sezonowo oblicza się przez odjęcie D 10 od C 19 (model addytywny) lub podzielenie C 19 przez D 10 (model multiplikatywny).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: D 12. Ostateczny trend i składnik długookresowy. Wartości te oblicza się przez odjęcie D 10 od D 1 (model addytywny) lub przez podzielenie D 1 przez D 10 (model multiplikatywny).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: D 13. Ostateczny składnik nieregularny. Wartości te oblicza się przez odjęcie D 12 od D 11 (model addytywny) lub podzielenie D 11 przez D 12 (model multiplikatywny).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: E 1. Zmodyfikowany szereg pierwotny. Wartości w tej tabeli X-11 oblicza się przez zastąpienie w szeregu pierwotnym wartości ekstremalnych (wyróżnionych przez zerowe wagi w C 17) przez wartości przewidywane na podstawie ostatecznych składników trendu i wahań długookresowych, sezonowości, dni handlowych (jeśli ma zastosowanie) i korekcji wstępnej (jeśli ma zastosowanie).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: E 2. Zmodyfikowany szereg z wyeliminowanymi wahaniami sezonowymi. Wartości te oblicza się przez zastąpienie w ostatecznym szeregu skorygowanym ze względu na wahania sezonowe (D 11) wartości ekstremalnych (wyróżnionych przez zerową wagę w C 17) ostatecznymi wartościami składnika trendu i wahań długookresowych D 12.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: E 3. Zmodyfikowany szereg nieregularny. Wartości w tej tabeli X-11 oblicza się przez zastąpienie wartości w D 13 przez zero (model addytywny) lub 1,0 (model multiplikatywny), jeśli zostaną one zidentyfikowane jako ekstremalne (tzn. mają przypisaną zerową wagę) w C 17.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: E 4. Różnice (ilorazy) rocznych wartości sumarycznych. Wartości te oblicza się jako różnice (model addytywny) lub ilorazy (model multiplikatywny) rocznych wartości sumarycznych (a) szeregu pierwotnego B 1 i ostatecznego szeregu skorygowanego ze względu na wahania sezonowe D 11, (b) zmodyfikowanego szeregu pierwotnego E 1 oraz zmodyfikowanego szeregu skorygowanego ze względu na wahania sezonowe E 2.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: E 5. Różnice (zmiany procentowe) w szeregu pierwotnym. Wartości w tej tabeli X-11 oblicza się jako różnice (model addytywny) lub zmiany procentowe (model multiplikatywny) z miesiąca na miesiąc (kwartału na kwartał) w B 1.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: E 6. Różnice (zmiany procentowe) w ostatecznym szeregu skorygowanym ze względu na wahania sezonowe. Wartości te są różnicami (model addytywny) lub zmianami procentowymi (model multiplikatywny) z miesiąca na miesiąc (kwartału na kwartał) w D 11.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: F 1. Średnia ruchoma MCD (QCD). Wartości w tym szeregu oblicza się przez zastosowanie nieważonej średniej ruchomej do ostatecznego szeregu skorygowanego ze względu na wahania sezonowe (D 11). Szerokość okna wyrównywania jest wyznaczona przez miesięczny (MCD) lub kwartalny (QCD) okres dominacji cyklicznej. MCD (QCD) oblicza się jako średnią rozpiętość, przy której zmiany składnika losowego są równe zmianom składnika trendu i wahań długookresowych.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: F 2. Miary opisowe. Jest tworzonych kilka ostatecznych tabel opisowych X-11:Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: G 1. Wykres Ten wykres liniowy pokazuje ostateczny szereg skorygowany ze względu na wahania sezonowe oraz ostateczne składniki trendu i wahań długookresowych (odpowiednio D 11 i D 12).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: G 2. Wykres. Ten wykres liniowy pokazuje ostateczne różnice (model addytywny) lub ilorazy (model multiplikatywny) S-I wraz z ekstremami, ostateczne różnice (ilorazy) S-I bez ekstremów oraz ostateczne wskaźniki sezonowości (tzn. odpowiednio D 8, D 9 i D 10), skategoryzowane przez miesiąc (miesięczna X-11) lub kwartał (kwartalna X-11).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: G 3. Wykres Wykres ten pokazuje te same wartości co G 2; w tym przypadku jednak są one pokazane w porządku chronologicznym.Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyniki X-11: G 4. Wykres Jest to wykres liniowy ostatecznego, nieregularnego i ostatecznego, zmodyfikowanego, nieregularnego szeregu (odpowiednio D 13 i E 3).Więcej informacji znajdziemy w rozdziale II metoda korekcji sezonowej Census X-11.
Wyodrębnianie czynników a dobór zmiennych. Wyodrębnianie czynników (ang. feature extraction) i dobór zmiennych (ang. feature selection) stosowane są w predykcyjnym data mining, kiedy staramy się zbudować dobry model zjawiska, a do dyspozycji mamy wiele predyktorów. Metody doboru zmiennych wykrywają najlepsze spośród potencjalnych predyktorów (których czasami mogą być tysiące). Natomiast celem wyodrębniania czynników jest połączenie (zagregowanie) zbioru predyktorów w celu wydobycia z nich informacji najbardziej użytecznej w modelowaniu zmiennej zależnej. Typowe metody ekstrakcji czynników to analiza czynnikowa i analiza składowych głównych, analiza korespondencji, skalowanie wielowymiarowe, PLS i dekompozycja wartości osobliwej (wykorzystywana np. w text mining).Wyróżnianie. Prawdopodobnie najbardziej znaną i najwcześniej szeroko wykorzystywaną techniką utożsamianą wprost z graficzną metodą eksploracyjnej analizy danych jest wyróżnianie. Jest to interakcyjna metoda umożliwiająca bezpośrednie wybieranie określonych punktów lub podzbiorów danych oraz określanie ich (np. wspólnych) charakterystyk lub badanie ich wpływów na zależności pomiędzy odpowiednimi zmiennymi (np. w przypadku macierzowych wykresów rozrzutu) lub do identyfikacji (np. etykietowania) odstających obserwacji.Patrz także Techniki eksploracyjnej analizy danych i zgłębiania danych: Wyróżnianie.
Wzmacnianie (boosting). Technikę wzmacniania stosuje się w predykcyjnym data mining, a polega ona na zbudowaniu wielu modeli dla danych (do predykcji lub klasyfikacji) i wyznaczeniu wag do zagregowania ich w jeden model zbiorczy (zob. agregacja modeli).
Prosty algorytm wzmacniania wygląda następująco: stosujemy metodę (np. drzewa klasyfikacyjne C&RT lub CHAID) dla próby uczącej, przy czym wszystkie obserwacje mają taką samą wagę. Wyznaczamy klasyfikacje przewidywane i każdej obserwacji przypisujemy wagę, tym większą im większy był błąd klasyfikacji dla tej obserwacji (lub dla klasy do której ona należy). Innymi słowy większe wagi przypisujemy tym obserwacjom, które są trudne do klasyfikacji (które zostały błędnie zaklasyfikowane przez dotychczasowy model). W przypadku metody C&RT możemy zastosować różne koszty błędnych klasyfikacji dla każdej klasy, tym większe im więcej było błędnych klasyfikacji dla tej klasy. Następnie dopasowujemy model do danych z wagami (lub stosujemy różne koszty błędnych klasyfikacji). Całą procedurę powtarzamy, aż do osiągnięcia odpowiednich wyników.
Wzmacnianie powoduje utworzenie sekwencji modeli, z których każdy jest "ekspertem" w przewidywaniu dla przypadków, z którymi nie radziły sobie poprzedzające go modele. Przy wdrażaniu modelu (do przewidywania wartości dla nowych przypadków) wyniki działania wszystkich modeli są łączone (np. poprzez głosowanie lub inną procedurą agregacji) w celu uzyskania najlepszej prognozy.
Zauważmy, że wzmacnianie możemy stosować dla metod, które nie pozwalają na korzystanie z wag lub różnych kosztów błędnych klasyfikacji. W tym przypadku, na każdym kroku, do budowy kolejnego modelu wykorzystujemy losowy podzbiór próby uczącej. Prawdopodobieństwo umieszczenia obserwacji w tym podzbiorze jest tym mniejsze im dokładniejsze prognozy uzyskano dla tej obserwacji w poprzednim kroku iteracji (procedury wzmacniania).
