f(z) = 1/[(2p)1/2] * exp{-z2/2}
gdzie
| z | jest liczbą rzeczywistą |
| exp | jest podstawą logarytmu naturalnego (o wartości 2,71...), czasami nazywaną e Eulera |
| p | jest stałą Pi (3,1415...). |
Jest to rozkład normalny o średniej równej 0 i wariancji 1. Rozkład Z jest powszechnie wykorzystywany do testowania hipotez przy dużych licznościach próby i w sytuacji, gdy znane jest odchylenie standardowe.
Zaburzenie wag. Operacja polegająca na dodaniu niewielkich wartości losowych do wag występujących w sieci neuronowej. Celem takiego postępowania jest próba wyjścia z minimum lokalnego .Zob. także Sieci neuronowe.
Zachowywanie najlepszej sieci. Narzędzie (dostępne w programie STATISTICA Neural Networks) pozwalające na automatyczne zachowywanie najlepszej sieci znalezionej w trakcie procesu uczenia. Po zakończeniu serii eksperymentów istnieje możliwość odczytania zachowanej wcześniej sieci.
Zobacz także, Sieci neuronowe.
Zagnieżdżona sekwencja modeli. W modelowaniu równań strukturalnych zbiór modeli M(1), M(2), ... M(k) tworzy sekwencję zagnieżdżoną, jeśli model M(i) jest szczególnym przypadkiem M(i+1) dla i=1 do k-1. Zatem każdy model w tej sekwencji staje się coraz bardziej ogólny, ale obejmuje wszystkie poprzednie modele jako przypadki szczególne. Jako przykład rozważmy modele jednoczynnikowy, dwuczynnikowy i trójczynnikowy dla 10 zmiennych. Model dwuczynnikowy obejmuje model jednoczynnikowy jako przypadek szczególny (po prostu niech wszystkie ładunki na drugim czynniku równają się 0). Podobnie, model trójczynnikowy zawiera modele dwuczynnikowy i jednoczynnikowy jako przypadki szczególne.
Zakres nieodstających obserwacji. Zakres nieodstających obserwacji jest zakresem wartości na wykresach ramka-wąsy 2W, wykresach sekwencyjnych 3W - słupkowych lub skategoryzowanych wykresach ramka-wąsy, który wypada poniżej górnej granicy odstających obserwacji (np. +1,5 * wysokość ramki) oraz powyżej dolnej granicy odstających obserwacji (np. -1,5 * wysokość ramki).
Zasób zmienności wspólnej. W analizie składowych głównych i analizie czynnikowej zasób zmienności wspólnej jest to proporcja wariancji, jaką dana wielkość dzieli z innymi wielkościami. Proporcja wariancji, która jest swoista dla danej wielkości równa się zatem różnicy całkowitej wariancji danej wielkości minus zasób zmienności wspólnej. Zazwyczaj punktem wyjścia do oszacowania zasobu zmienności wspólnej jest użycie kwadratu korelacji wielokrotnej danej wielkości z wszystkimi pozostałymi wielkościami. Niektórzy autorzy proponowali rozmaite iteracyjne udoskonalenia, po rozwiązaniu dla początkowej oceny zasobu zmienności wspólnej metodą regresji wielokrotnej; na przykład tak zwana metoda MINRES (metoda reszt minimalnych; Harman i Jones, 1966) polega na wypróbowaniu różnych modyfikacji ładunków czynnikowych w celu zminimalizowania resztowych (niewyjaśnionych) sum kwadratów.
Zastępowanie brakujących danych średnią. Kiedy wybierzemy metodę Zastępowania średnią, wówczas w trakcie analizy brakujące dane zostaną zastąpione średnimi odpowiednich zmiennych. Dodatkowe informacje można znaleźć w części Usuwanie brakujących danych parami a zastępowanie średnią w rozdziale Statystyki podstawowe.
Zbiory próbek na kartach kontrolnych sterowania jakością. Podczas monitorowania procesu często zachodzi potrzeba zmiany wartości linii centralnej i granic kontrolnych, w miarę jak te wartości ulegają zmianie w czasie. Użytkownik może również chcieć wyliczyć wartości linii centralnej i granic kontrolnych na podstawie próbek, o których wie, że były zebrane wówczas gdy proces był uregulowany. Otrzymane w ten sposób charakterystyki zastosować można do wszystkich kolejnych próbek. W ten sposób zbiór jest zdefiniowany jako podzbiór próbek obliczeniowych (tych dla których są obliczane różne statystyki np. średnie, sigma itp.) oraz podzbioru próbek zastosowania (do których odpowiednie statystyki mają być zastosowane). Oczywiście oba te podzbiory nie muszą być (i często nie są) takie same. Podsumowując, użytkownik może np. chcieć oszacować sigmę na podstawie zbioru próbek zebranych wówczas gdy proces był uregulowany (zbiór obliczeniowy) i użyć tej wartości do ustalenia granic kontrolnych wszystkich pozostałych i nowych próbek (zbiór zastosowania).
Zauważmy, że każda próbka musi być jednoznacznie przypisana do jednego zbioru zastosowania. Inaczej mówiąc, każda próbka posiada granice kontrolne oparte na statystykach (np. sigma) obliczonych dla jednego określonego zbioru. Przypisywanie próbek zastosowania do zbiorów przebiega w sposób hierarchiczny, tzn. każda próbka jest przypisywana do pierwszego "napotkanego" zbioru. Ten hierarchiczny sposób poszukiwania zawsze rozpoczyna się w obrębie ostatniego, podanego przez użytkownika zbioru, a nie od zbioru wszystkich próbek. Dlatego też, jeśli określone przez użytkownika zbiory zawierają w sobie wszystkie dopuszczalne próbki, wówczas domyślny zbiór wszystkich próbek stanie się zbiorem pustym (ponieważ wszystkie próbki zostaną przypisane do jednego ze zbiorów zdefiniowanych przez użytkownika).
Zdarzenia niezależne. Dwa zdarzenia są niezależne jeżeli wystąpienie lub niewystąpienie jednego z nich nic nam nie mówi o prawdopodobieństwie wystąpienia drugiego. Zdarzenia takie nie mają na siebie wpływu.
Zespoły sieci (w sieciach neuronowych). Sieci neuronowe składające się na zespół współpracują w generowaniu predykcji (wyjścia).
Zespoły typu Wyjście.Jest to bardzo ogólny typ zespołu sieci neuronowych. Zespół taki utworzyć można z dowolnego zestawu sieci. Jeśli sieci mają różne wyjścia to utworzony zespół będzie miał po prostu wiele wyjść. Tak więc zespół typu Wyjście może być modelem dającym wiele, tworzonych niezależnie predykcji wyjściowych.
Jeżeli jakieś sieci w takim zespole maja wspólne wyjście, to wartość na tym wyjściu jest pewnym złożeniem wyjść poszczególnych sieci. W przypadku klasyfikacji (nominalnego wyjścia) końcowa predykcja otrzymywana jest na zasadzie głosowania (zwycięzca bierze wszystko) - najliczniej reprezentowana wartość jest wartością wyjściową zespołu. W przypadku równowagi klasa jest określana jako "nieznana". W przypadku regresji (wyjścia liczbowego) wyjścia sieci są uśredniane. W obu przypadkach, głosowania i uśredniania, używane są wagi sieci w zespole (domyślnie wynoszą one 1,0).
Zespoły typu Aktywacja (Stopień pewności). W tym przypadku na sieci składowe nałożone są pewne ograniczenia. Predykcje "składane" są tu na poziomie neuronów wyjściowych. Tak więc kodowanie zmiennych wyjściowych musi być takie samo we wszystkich sieciach składowych. Zespoły te nie mają więc wielkiego zastosowania w regresji, wynik byłby taki sam jak w sieci typu Wyjście, tyle, że średnia obliczana byłaby przed skalowaniem. Sieci typu Aktywacja (Stopień pewności) przeznaczone są do rozwiązywania problemów klasyfikacyjnych.
Zaleta użycia do klasyfikacji zespołów aktywacyjnych jest taka, że otrzymujemy na wyjściu poziomy pewności przynależności przypadków do poszczególnych klas, a nie tylko końcowe przyporządkowanie klasy.
Dlaczego warto używać zespołów?
Jest kilka powodów:
Zespoły w wygodny sposób grupują sieci neuronowe, które dawały będą predykcję na podstawie wielu powiązanych zmiennych, bez konieczności umieszczania wszystkich tych zmiennych w jednej sieci. W przypadku pojedynczej sieci wielowyjściowej zdarza się, że interferencja pomiędzy neuronami ukrytymi zaburza predykcje. Za pomocą zespołu każde wyjście otrzymywać możemy z innej sieci.
Zespoły są ważnym narzędziem walki z przeuczaniem się sieci; poprawiają one możliwości generalizacyjne modelu. Uśrednianie predykcji otrzymywanych z sieci o różnej strukturze, inaczej uczonych, uczonych na bazie innych przypadków, zmniejsza rozrzut wyników. Jest to prosta droga poprawy zdolności ougólniających. Tak więc zespoły są szczególnie przydatne w kombinacji z wielokrotnym próbkowaniem. Z teorii wynika, że jakość zespołu jest lepsza lub co najmniej równa średniej jakości sieci składowych.
W zespołach podawana jest średnia jakość i średnie błędy sieci składowych. Po wykonaniu eksperymentów z próbkowaniem i zapisaniu wyników do zespołu, otrzymać można nieobciążoną ocenę jakości każdej sieci, jeżeli były tak samo uczone. Stosowanie próbkowania np. ze Sprawdzianem krzyżowym jest standardową technika oceny jakości sieci.
Zgrupowane (wieloźródłowe) karty kontrolne. Zgrupowane karty kontrolne (dokładny opis w rozdziale Karty kontrolne) tworzone są dla procesów o wielu oddzielnych strumieniach (seriach) jednostek (np. wytwarzanych przez różnych operatorów maszyny, linie produkcyjne), mogą to być karty przy ocenie liczbowej lub ocenie alternatywnej. Na jednej karcie jednocześnie monitorujemy wszystkie strumienie. Karty takie można tworzyć również dla krótkich serii produkcyjnych.
Dodatkowo, oprócz standardowych parametrów odpowiedzialnych za granice kontrolne i innych parametrów kart kontrolnych, kolejnych r punktów z tego samego źródła procesu (tj. "serii" o długości r) jest wyróżnianych na karcie.
Zgrupowane karty kontrolne. Zob. zgrupowane wieloźródłowe karty kontrolne.
Złączenie. Złączenie określa powiązania między rekordami dwóch tabel w bazie danych. Jeżeli rekordy w dwóch tabelach zawierają pola o wartościach spełniające pewien warunek (najczęściej jest to taka sama wartość), to w wynikowym zapytaniu zostaną one połączone. Rozważmy na przykład dwie tabele: jedna zawiera identyfikator i wagę produktu, a druga identyfikator i nazwę produktu. Po zdefiniowaniu zapytania ze złączeniem (identyfikator w jednej tabeli jest równy identyfikatorowi z drugiej) uzyskamy dane o wadze i nazwie produktu.
Zmienna egzogeniczna. Zmienna egzogeniczna to zmienna, która nigdy nie pojawia się jako zmienna zależna, w żadnym równaniu w modelu strukturalnym. Na diagramie ścieżkowym, zmienne egzogeniczne można rozpoznać po tym, że nie są wskazywane przez żadne strzałki.
Zmienna endogeniczna. Zmienna endogeniczna jest to zmienna, która pojawia się jako zmienna zależna w przynajmniej jednym równaniu w modelu strukturalnym. Na diagramie ścieżkowym zmienne endogeniczne można rozpoznać po tym, że wskazuje na nie co najmniej jedna strzałka.
Zmienna grupująca (lub kodująca). Zmienna grupująca (lub kodująca) jest wykorzystywana do wskazania przynależności poszczególnych przypadków ze zbioru danych do konkretnej grupy. Zazwyczaj zmienna grupująca jest zmienną skategoryzowaną, tzn. przyjmuje wartości dyskretne, np. 1, 2, 3, ...:
| Grupa | Ocena 1 | Ocena 2 |
|---|---|---|
| 1 3 2 2 | 383.5 726.4 843.7 729.9 | 4568.4 6752.3 5384.7 6216.9 |
| Grupa | Ocena 1 | Ocena 2 |
|---|---|---|
| MĘŻCZYZNA KOBIETA KOBIETA MĘŻCZYZNA | 383.5 726.4 843.7 729.9 | 4568.4 6752.3 5384.7 6216.9 |
Zmienna jawna. Zmienna jawna to taka zmienna, którą można bezpośrednio obserwować lub mierzyć. Na diagramach analizy ścieżkowej stosowanych w modelowaniu strukturalnym, zmienne jawne są zazwyczaj przedstawiane w postaci kwadratu lub prostokąta z nazwą zmiennej wewnątrz.
Zmienna tłumiąca. Zmienna tłumiąca (w regresji wielorakiej) ma zerową (lub bliską zeru) korelację ze zmienną zależną, ale jest skorelowana z jedną (lub wieloma) zmiennymi niezależnymi. Zmienna taka tłumi wariancje zmiennych niezależnych. Załóżmy, że próbujemy przewidzieć wyniki biegu na 40 m przez płotki, na postawie Wzrostu i Wagi biegaczy i że zmienne Waga i Wzrost są silnie skorelowane. Jeżeli Wzrost jest zmienną tłumiącą, to stłumi ona nieinteresująca wariancję, która dotyczy zmiennych niezależnych, a nie zmiennej przewidywanej. Spowoduje to zwiększenie korelacji cząstkowych. Można to uznać za usuwanie zakłóceń.
Niech t = Czas, h = Wzrost, w = Waga, rth = 0.0, rtw = 0.5, i rhw = 0.6.
Waga w tym przypadku odpowiada za 25% (Rtw2 = 0.522) zmienności Czasu. Jednak, jeżeli Wzrost włączymy do modelu, to dodatkowe 14% zmienności Czasu zostanie wyjaśnione przez zmienną Wzrost pomimo tego że nie jest on skorelowany ze zmienną Czas, porównaj wzór poniżej:
Rt.hw2 = 0.52/(1 - 0.62) = 0.39
Więcej informacji znajduje się w pracy Pedhazur, 1982.
Zmienna utajona. Zmienna utajona (ukryta) to wielkość, której nie można bezpośrednio mierzyć, ale zakłada się, że kryje się ona za zmiennymi obserwowanymi. Przykładem zmiennej utajonej jest czynnik w analizie czynnikowej. Zmienne utajone na diagramach ścieżkowych są zazwyczaj przedstawiane w postaci owalu lub koła z nazwą zmiennej wewnątrz.
Zmienne niezależne a zmienne zależne.
Terminy zmienna zależna i niezależna mają zastosowanie przede wszystkim w badaniach doświadczalnych,
gdzie niektóre wielkości (zmienne) są przez badacza ustawiane i w tym sensie są "niezależne" od reakcji
układu eksperymentalnego, podczas gdy inne, badane zmienne "zależą" od warunków doświadczenia.
Niezależnymi nazywamy te spośród zmiennych, których wartość możemy zmieniać, podczas gdy
zmienne zależne są jedynie mierzone lub rejestrowane.
Nieco w opozycji do natury tego rozróżnienia, terminy te bywają również używane w badaniach, gdzie nie ustala się wartości zmiennych niezależnych, lecz jedynie przypisuje obiekty do pewnych grup eksperymentalnych na podstawie posiadanych przez nie cech. Jeśli na przykład w pewnym eksperymencie mężczyźni porównywani są z kobietami pod względem liczby białych komórek krwi, to Płeć może być nazwana zmienną niezależną, a Liczba białych ciałek (LBC) zmienną zależną.
Więcej informacji można znaleźć w części Podstawowe pojęcia statystyki - Zmienne zależne a zmienne niezależne.
Zmienne nominalne. Zmienne przyjmujące wartości ze zbioru skończonego, np. Płeć = {Kobieta, Mężczyzna}. W sieciach neuronowych, wyjściowa zmienna nominalna wskazuje na zagadnienie klasyfikacyjne (w odróżnieniu od regresyjnego).
Dodatkowe informacje można znaleźć pod hasłem zmienna grupująca (lub kodująca) oraz w opisie skal pomiarowych.
Zmienne towarzyszące zależne od czasu. Zmienne towarzyszące zależne od czasu pojawiają się w sytuacji, kiedy wpływ zmiennej towarzyszącej na przeżywalność zależy od czynnika czasu (tzn. warunkowe ryzyko w każdym momencie czasu jest funkcją zmiennej towarzyszącej i czasu).
Zmienne wielokrotnych odpowiedzi. Kodowanie danych za pomocą zmiennych wielokrotnych odpowiedzi jest wymagane w sytuacji gdy na dane pytanie jest możliwych wiele różnych odpowiedzi. Przypuśćmy, że częścią sondażu jest pytanie o trzy ulubione napoje. Odpowiedni fragment kwestionariusza mógł wyglądać następująco:
Podaj nazwy Twoich trzech ulubionych napojów:
1:__________ 2:__________ 3:__________
| Odpowiedź 1 | Odpowiedź 2 | Odpowiedź 3 | |
|---|---|---|---|
| Przypadek 1 Przypadek 2 Przypadek 3 . . . | COKE SPRITE PERRIER . . . | PEPSI SNAPPLE GATORADE . . . | JOLT DR. PEPPER MOUNTAIN DEW . . . |
