Przeszukaj Internetowy Podręcznik Statystyki



Ppk, Pp, Pr. Zob. wskaźniki możliwości procesu oraz Cpk, Cp, Cr. Szczegóły obliczeniowe można znaleźć w części Analiza zdolności procesu w rozdziale Analiza procesu.

Parametr gładkości (przy dopasowaniu). Parametr gładkości określa funkcję sterującą wagami. Tak więc, parametr gładkości określa stopień, do którego dopasowana krzywa zależy od lokalnych konfiguracji analizowanych wartości.

Czym mniejszy współczynnik, tym mocniejszy wpływ na kształt krzywej wywierają pojedyncze punkty danych (tzn. krzywa bardziej się "wygina" przystosowując się do pojedynczych wartości i podzbiorów wartości).

Zakres wartości parametru gładkości wynosi 0 < s < 1. Duże wartości parametru powodują tworzenie bardziej wygładzonych krzywych, które adekwatnie reprezentują ogólny układ zbioru danych kosztem lokalnych szczegółów.

Dodatkowe informacje można znaleźć w pracy McLain, 1974.

Percentyle. Percentyl (termin ten został po raz pierwszy użyty przez Galtona, 1885 r.) rozkładu wartości jest liczbą xp o takiej własności, że odsetek p wartości populacji jest mniejszy lub równy wartości xp.
Np. 25-ty percentyl (określany również jako 0,25-ty percentyl, kwantyl rzędu 0,25 lub dolny kwartyl) wartości zmiennej jest taką wartością (xp), że 25% (p) wartości zmiennej jest mniejsze od tej wartości.

Podobnie 75-ty percentyl (określany również jako kwantyl rzędu 0,75 lub górny kwartyl) jest wartością zmiennej, poniżej której znajduje się 75% wartości.

Perceptrony wielowarstwowe. Perceptrony wielowarstwowe są to jednokierunkowe sieci neuronowe z liniowymi funkcjami potencjału postsynaptycznego i (zwykle) nieliniowymi funkcjami aktywacji.

Perceptrony. Perceptrony są prostymi formami skrajnie nieliniowych (wykorzystujących funkcje progowe) sieci neuronowych. Nie posiadają one żadnych warstw ukrytych, więc mogą tylko realizować zadania klasyfikacji liniowej. Ich twórcą jest Rosenblatt, który zbudował i uruchomił pierwszy perceptron w 1958 roku. W latach 60. perceptrony były utożsamiane ze wszystkimi znanymi wówczas sieciami neuronowymi, w związku z tym gdy ich (oczywiste dzisiaj) ograniczenia i niedogodności poddali miażdżącej krytyce Minsky i Papert w słynnej książce The Perceptrons (1969), publikacja ta doprowadziła w prawie całym świecie do blisko dziesięcioletniego zaniku zainteresowania zagadnieniami sieci neuronowych. Fausett (1994) zamieszcza szereg informacji historycznych dotyczących pierwszych osiągnięć w dziedzinie sieci neuronowych.

Klasyczny perceptron można zamodelować tworząc dwuwarstwową sieć liniową lub tyleż warstw liczącą sieć MLP, a następnie zmieniając funkcję aktywacji w warstwie wyjściowej na funkcję progową.

Algorytm uczenia klasycznego perceptronu był dość specyficzny (warto zauważyć, że przez stosunkowo długi okres był to jedyny znany algorytm uczenia sieci). Ten klasyczny "perceptronowy" algorytm uczenia może być modelowany przez użycie metody wstecznej propagacji błędów ze Współczynnikiem bezwładności 0,0 oraz z wyłączoną opcją Mieszania przypadków.

Pierwiastek kwadratowy ilorazu sygnału do szumu (f). Pierwiastek kwadratowy ilorazu sygnału do szumu (f) to standardowa miara efektu stosowana w ANOVA do opisania ogólnego poziomu efektu w populacji. Miara ta jest bardzo podobna do RMSSE. Wartość f jest równa pierwiastkowi kwadratowemu z sumy kwadratów efektów standaryzowanych podzielonych przez liczbę efektów. Przykładowo dla jednoczynnikowej ANOVA z J czynnikami wzór na f jest następujący:

Więcej informacji znajdziemy w rozdziale Analiza mocy testów.

Planowanie doświadczeń (DOE - Design of Experiment) w zastosowaniach przemysłowych. W zastosowaniach przemysłowych, w procesie udoskonalania produktu za pomocą technik Planowania doświadczeń wykorzystuje się zasady analizy wariancji. Zasadniczym celem jest tu zdobycie informacji o wpływie różnych czynników na proces produkcji, przy jak najmniejszej liczbie pomiarów (czyli minimalnych kosztach badań). W zastosowaniach przemysłowych złożone interakcje pomiędzy czynnikami, które mają wpływ na produkt są często traktowane jako "zakłócenia" (nie są przedmiotem zainteresowania i utrudniają identyfikację istotnych czynników, a w przypadku doświadczeń z wieloma czynnikami nie jest nawet możliwa ani praktycznie użyteczna ich identyfikacja). Stąd też, przeglądając prace dotyczące problematyki planowania i analizy doświadczeń w przemyśle (Box, Hunter i Hunter, 1978; Box i Draper, 1987; Mason, Gunst i Hess, 1989; Taguchi, 1987) stwierdzamy, że zasadniczo omawiają one plany z dużą liczbą czynników (np. 16 lub 32), kiedy to nie można oszacować efektów interakcji, a głównym celem dyskusji jest pokazanie sposobu uzyskiwania nieobciążonych ocen efektu głównego (oraz ewentualnie dwuczynnikowej interakcji) przy minimalnej liczbie obserwacji.

Szczegółowe omówienie można znaleźć w rozdziale Wprowadzenie do Planowania doświadczeń.

PMML (Predictive Model Markup Language). Zob. Predictive Model Markup Language (PMML).

PNG (Portable Network Graphics). PNG (Portable Network Graphics) to format plików graficznych zaprojektowany do zapisu obrazów w postaci map bitowych (tzn. grafiki rastrowej, w odróżnieniu od wektorowej). Format ten wprowadzony został w celu zastąpienia opatentowanego formatu GIF (głównie ze względu na ograniczenia prawne związane z patentem). Obraz PNG może mieć różną ilość kolorów (w tym również kolor przezroczysty). Rozmiar pliku dla ustalonego obrazu graficznego zależy od ilości użytych kolorów. W celu zmniejszenia rozmiaru pliku, przy zapisie stosowany jest algorytm kompresji. Algorytm ten daje duże oszczędności zwłaszcza dla obrazów, w których występują większe powierzchnie tego samego koloru (np. wykresy lub szkice), w przypadku fotografii bardziej efektywny jest format JPEG.

Podejście heurystyczne. W odróżnieniu od podejścia algorytmicznego (które zawiera kompletnie zdefiniowany ciąg kroków prowadzących do uzyskania konkretnych wyników), podejście heurystyczne stanowi rodzaj ogólnych sugestii lub wskazówek opierający się na podejściu statystycznym (np. "rzuć palenie, aby przedłużyć swoje życie", "mężczyźni z wykształceniem wyższym prawdopodobnie częściej reagują na ten rodzaj reklamy niż..." ) lub rozumowaniu teoretycznym (np. "mechanizm syntezy witaminy X, jeśli go dobrze poznaliśmy powoduje, że spożywanie Y zmniejsza deficyt witaminy X"). Aby uzyskać więcej informacji na temat podejścia heurystycznego należy sięgnąć do pozycji: Kahneman, Slovic i Tversky, 1982.

Dodatkowe informacje można znaleźć w sekcjach Techniki zgłębiania danych (data mining), Sieci neuronowe oraz pod hasłem algorytm.

Poprawka Bonferroniego. Poprawka Bonferroniego jest stosowana w celu "utrudnienia" uznania za statystycznie istotny wyniku pojedynczego testu, przy wielokrotnym przeprowadzaniu testów w oparciu o te same dane. Na przykład, przy przeglądaniu wielu współczynników korelacji tworzących macierz korelacji, akceptowanie i interpretacja istotności współczynników korelacji na konwencjonalnym poziomie 0,05 może nie być poprawna, biorąc pod uwagę przeprowadzanie wielu testów. W szczególności może się okazać, że poziom prawdopodobieństwa związany z błędnym przyjęciem zaobserwowanej wartości współczynnika korelacji jako nieistotnie różniącej się od zera (podczas gdy w rzeczywistości, tzn. w populacji jego wartość wynosi zero), może w tym przypadku znacznie przekraczać 0,05.

Poprawka Bonferroniego jest zwykle dokonywana przez podzielenie poziomu istotności alfa (przyjmowanego zazwyczaj na poziomie 0,05, 0,01, itd.) przez liczbę przeprowadzanych testów. Przypuśćmy na przykład, że przeprowadzamy jednocześnie wiele testów dotyczących wartości pojedynczych współczynników korelacji pochodzących z tej samej macierzy korelacji. Skorygowany za pomocą poprawki Bonferroniego poziom istotności wyniósłby:

0,05 / 5 = 0,01

Każdy test charakteryzujący się poziomem prawdopodobieństwa testowego (p) niższym od 0,01 byłby przyjmowany za statystycznie istotny. Współczynniki korelacji, dla których odpowiedni poziom prawdopodobieństwa testowego przekroczyłby 0,01 (w tym wartości leżące w przedziale od 0,01 do 0,05) zostałyby uznane za nieistotnie różne od zera.

Porównania post hoc. Po uzyskaniu statystycznie istotnej wartości testu testu F, chcemy zazwyczaj wiedzieć, które średnie wnoszą swój wkład w dany efekt, tzn. które grupy różnią się od siebie. Moglibyśmy oczywiście przeprowadzić serie prostych testów t, aby porównać wszystkie możliwe pary średnich. Jednakże procedura tego typu byłaby niepoprawna. Podawane poziomy prawdopodobieństwa w rzeczywistości przeszacowują poziom istotności statystycznej różnic średnich. Załóżmy na przykład, że pobraliśmy 20 prób, z których każda zawiera po 10 liczb losowych i obliczyliśmy 20 średnich. Następnie pobierzmy grupę (próbę) z najwyższą średnią i porównajmy ją z grupą o najniższej średniej. Test t dla prób niezależnych będzie sprawdzał czy te dwie średnie różnią się istotnie, pod warunkiem, że były to jedyne brane pod uwagę próby. Natomiast techniki porównań post-hoc w szczególności biorą pod uwagę fakt, że pobrano więcej niż dwie próby. Są one wykorzystywane w charakterze metod służących do testowania hipotez lub jako metody eksploracyjnej analizy danych.

Więcej informacji można znaleźć w części ANOVA/MANOVA.

Powierzchnia odpowiedzi. Powierzchnia wykreślana w przestrzeni trójwymiarowej, wyznaczająca odpowiedź jednej lub wielu zmiennych (lub sieci neuronowej) w przypadku zmian dwóch zmiennych wejściowych, przy ustalonych wartościach pozostałych zmiennych.

Dodatkowe informacje można znaleźć w rozdziałach Planowanie doświadczeń i Sieci neuronowe.

Poziom ufności (w analizie koszykowej). Przy stosowaniu (w data lub text mining'u) algorytmów poszukiwania reguł asocjacyjnych typu If Body then Head (np. If (Car=Porsche and Age<20) then (Risk=High and Insurance=High)), poziom ufności w regule asocjacji określa warunkowe prawdopodobieństwo, że Head, pod warunkiem, że Body.

Prawdopodobieństwo a posteriori. Prawdopodobieństwo wg twierdzenia Bayesa obliczone na podstawie prawdopodobieństwa a priori i wiarygodności zdarzenia.


Prawdopodobieństwo a priori. Prawdopodobieństwo, w twierdzeniu Bayesa, zajścia zdarzenia, oceniane przed uzyskaniem dodatkowej informacji.
Stosowane, między innymi, w procesie uczenia probabilistycznych sieci neuronowych, gdzie podstawowe podejście zakłada, że udział przedstawicieli poszczególnych klas w zbiorze uczącym jest zgodny z rzeczywistym odsetkiem przypadków zaliczanych do tej klasy w modelowanej populacji (są to tak zwane prawdopodobieństwa a priori). W przypadku występowania różnic stosuje się korektę wag, prowadzącą do wyrównania istniejących różnic. Zob. także Sieci neuronowe oraz analiza funkcji dyskryminacyjnej.

Prawdopodobieństwo warunkowe. W różnych sytuacjach miewamy dodatkowe informacje na temat warunków zajścia jakiegoś zdarzenia. Prawdopodobieństwo, że zajdzie zdarzenie A, pod warunkiem, że zaszło zdarzenie B nazywamy prawdopodobieństwem warunkowym i oznaczamy przez p(A|B).

Prawdopodobieństwo. Liczba wskazująca stopień pewności zajścia konkretnego zdarzenia. Zero oznacza, że zdarzenie na pewno nie zajdzie, 1 oznacza, że zajdzie z pewnością, wartość 0,5 wskazuje, że wystąpienie lub nie wystąpienie danego zdarzenia jest jednakowo prawdopodobne.

Predictive Model Markup Language (PMML). PMML (Predictive Model Markup Language) to bazujący na XML język służący do opisu modeli predykcyjnych oraz efektywnego przenoszenia nauczonych modeli pomiędzy różnymi aplikacjami. Dokument PMML zawiera zazwyczaj wszelkie niezbędne informacje opisujące w pełni model nauczony lub model analityczny sparametryzowany, tak by można było go wdrożyć (zastosować do nowych przypadków) w innej aplikacji.

Predykcyjny data mining (Predictive Data Mining). Termin ten oznacza analizy, których celem jest uzyskanie modelu (statystycznego lub sieci neuronowych) przeznaczonego do przewidywania wartości pewnych cech. Przykładowo celem projektu data mining może być zbudowanie modelu (lub zestawu modeli - zob. metauczenie) wykrywającego podejrzane transakcje dokonywane kartą kredytową. Inne, niepredykcyjne projekty data mining, mają charakter eksploracyjny (np. identyfikacja segmentów klientów) i wykorzystują metody eksploracyjne np. drążenie danych i statystyki opisowe. Innym celem data mining może być redukcja danych (tzn. przekształcenie wielkiego zbioru w postać nadającą się do percepcji).

Predyktor jakościowy. Predyktor jakościowy to zmienna mierzona na skali nominalnej, której kategorie określają przynależność do klasy lub grupy. Predyktory jakościowe są wykorzystywane przy przewidywaniu wartości zmiennych zależnych. Przykładem predyktora jakościowego może być zmienna Płeć przyjmująca dwie wartości: kobieta i mężczyzna.

Patrz także: skala nominalna.

Predyktory. Predyktory (nazywane też zmiennymi niezależnymi, zmiennymi objaśniającymi i wielkościami wejściowymi) są to wielkości wykorzystywane do przewidywania lub wyjaśniania zmienności jednej lub wielu zmiennych zależnych (objaśnianych, odpowiedzi, wielkości wyjściowych).

Probabilistyczne sieci neuronowe (sieci PNN - Probabilistic Neural Network). Typ sieci neuronowej stosowany przy rozwiązywaniu problemów klasyfikacyjnych. Sieci te wykorzystują technikę aproksymacji jądrowej do estymacji funkcji gęstości prawdopodobieństwa dla klas. Sieci PNN zaliczane są do tak zwanych sieci bayesowskich (Speckt, 1990; Patterson, 1996; Bishop, 1995).

Dodatkowe informacje można znaleźć w części Sieci neuronowe.

Problem wymiarowości. Hasło to (wyrażane nawet czasami jako "przekleństwo" wymiarowości - Bellman, 1961, Bishop, 1995) dotyczy trudności wynikających z dużej liczby wymiarów danych, czyli z dużej liczby zmiennych i odnosi się najczęściej do techniki sieci neuronowych. Ze wzrostem liczby wymiarów przestrzeni danych (liczby zmiennych wejściowych, predyktorów), wykładniczo rośnie nakład obliczeń na poszukiwanie optimum w przestrzeni parametrów budowanego modelu. Sieć neuronowa staję się nadmiernie złożona, w praktyce, gdy liczba wejść wyraża się w setkach, a czasem i przy mniejszych liczbach, zależnie od wybranej architektury sieci. Warto więc przejrzeć wstępnie zmienne i wyselekcjonować te, które rzeczywiście mogą być przydatne w predykcji zmiennej zależnej.

Uzupełniające informacje dobór cech.

Proces Sześć Sigma. W przypadku procesu sześć sigma (six sigma) oczekiwana liczba wad wynosi 3,4 na milion możliwości. Pojęcie to jest ważne w programach udoskonalania jakości Sześć Sigma. Ideę tą najlepiej ilustruje poniższy rysunek:

Źródłem nazwy Sześć Sigma jest to, że celem tej metodyki jest osiągnięcie takiej zmienności procesu, że w granicach specyfikacji produktu "mieści się" średnia ±6 * sigma (ocena odchylenia standardowego w populacji). W takim przypadku nawet, jeśli wystąpi przesunięcie średniej o 1,5 * sigma w którąkolwiek stronę (np. +1,5 sigma w kierunku górnej granicy specyfikacji), liczba wad nadal będzie mieścić się w wymaganym zakresie.

Jeśli na przykład liczbę produktów powyżej górnej granicy specyfikacji określimy dla miliona możliwości wystąpienia wady, to proces 6 * sigma przesunięty do góry o 1,5 * sigma będzie produkował 3,4 elementów wadliwych (tzn. wykraczających ponad górną granicę specyfikacji) na milion potencjalnych możliwości wystąpienia niezgodności.

Czynnik przesunięcia. Biegnący w czasie, wycentrowany proces najprawdopodobniej z upływem czasu ulegnie przesunięciu (tzn. zmieni się jego średnia). Motorola podczas swojego wdrożenia Sześć Sigma stwierdziła, że rozsądnie jest założyć wystąpienie przesunięcia procesu o 1,5 * sigma (por. Harry Schroeder, 2000). Standardowe obliczenia miar Sześć Sigma uwzględniają to przesunięcie.

Granice jedno- i dwustronne. Na ilustracji powyżej zwracaliśmy uwagę tylko na przypadki, gdy przekraczaliśmy górną granicę specyfikacji (USL). Oczywiście często przekroczenie granic specyfikacji w górę i w dół jest równie szkodliwe. W takim przypadku należy rozważyć również lewą część przesuniętego rozkładu normalnego. Niemniej jednak, w praktyce zazwyczaj pomija się część rozkładu dla niskich wartości ponieważ (1) często procesy "naturalnie" mają specyfikacje jednostronne (np. bardzo krótkie opóźnienie tak na prawdę nie jest defektem, tylko długie opóźnienia stanowią problem itp.) (2) po osiągnięciu procesu 6 * sigma powierzchnia pod krzywą poniżej dolnej granicy specyfikacji jest pomijalna.

Wydajność. W powyższym przykładzie skupiliśmy się na liczbie wad. Liczba poprawnych elementów nazywana jest wydajnością procesu (ang. yield). Kalkulator Sześć Sigma oblicza liczbę wad na milion możliwości (DPMO) i wydajność wyrażoną jako procent rozkładu mieszczący się w granicach specyfikacji.

Profile aproksymacji. Podczas analizy doświadczenia, do obserwowanych odpowiedzi wielkości wyjściowych można dopasować oddzielne równanie (zawierające różne współczynniki, ale te same składniki). Po wyznaczeniu równań możemy wyliczać wartości aproksymowane wielkości wyjściowych dla dowolnych kombinacji wartości wielkości wejściowych. Profil aproksymacji wielkości wyjściowej składa się z serii wykresów aproksymowanych wartości wielkości wyjściowej względem kolejnych wielkości wejściowych, po jednym wykresie dla każdej wielkości wejściowej. Wartości pozostałych wielkości wejściowych pozostają ustalone i noszą nazwę wartości bieżących. Po wybraniu odpowiednich wartości bieżących wielkości wejściowych można sprawdzając profil aproksymacji ujrzeć, które wartości wielkości wejściowych dają w efekcie najbardziej pożądaną aproksymowaną odpowiedź wielkości wyjściowej.

Dokładne informacje o profilach aproksymacji i profilach użyteczności można znaleźć w części Profil aproksymowanej odpowiedzi i użyteczność odpowiedzi w rozdziale Planowanie doświadczeń (DOE).

Profile użyteczności. Funkcja użyteczności określa względną użyteczność różnych wartości wielkości wyjściowej. W celu wyznaczenia profilu użyteczności najpierw określamy funkcje użyteczności dla każdej wielkości wyjściowej (zmiennej zależnej) przypisując wartościom przewidywanym oceny od 0 (wartość nieużyteczna) do 1 (wartość bardzo użyteczna). Całkowita użyteczność jest obliczana jako średnia geometryczna poszczególnych użyteczności dla przewidywanych wartości wielkości wyjściowej. Profile użyteczności składają się z ciągu wykresów (jednego dla każdej wielkości wyjściowej) całkowitej użyteczności dla różnych wartości jednej wielkości wejściowej (zmiennej niezależnej), przy ustalonych wartościach pozostałych wielkości wejściowych. Analizując profile odpowiedzi można stwierdzić, które wartości wielkości wejściowych prowadzą do pożądanych odpowiedzi wielkości wyjściowych.

Szczegółowy opis profili użyteczności, patrz profil aproksymowanej odpowiedzi i użyteczność odpowiedzi.

Progi klasyfikacji (w sieciach neuronowych). Sieć neuronowa, która ma klasyfikować przypadki musi "przetłumaczyć" poziom aktywacji neuronu wyjściowego na wartość wyjściowej zmiennej nominalnej. Taką klasyfikację realizuje się na dwa różne sposoby.

Jeden z nich polega na tym, że określa się neuron (radialny), który zwyciężył pod względem rozpoznania nowego przypadku. Zwycięski neuron etykietuje nowy przypadek nazwą klasy, do której sam należy (patrz klasyfikacja wg przykładowych przypadków). Tak podchodzi się do klasyfikacji w sieciach Kohonena i w sieciach grupujących.

Tu omówiony jest alternatywny sposób, gdzie klasę określa poziom aktywacji neuronu (nie radialnego). Sposób ten wykorzystywany jest we wszystkich pozostałych typach sieci neuronowych.

Na wstępie odróżnić trzeba dwa przypadki: sieci z pojedynczym neuronem wyjściowym i z wieloma neuronami wejściowymi.

Pojedynczy neuron wyjściowy stosowany jest tam gdzie przyporządkowujemy przypadkom jedną z dwóch klas. Wysoki poziom aktywacji oznacza jedną klasę, niski drugą. Takie podejście, wykorzystujące dwustanową funkcję przejścia stosowane jest dla problemów dwuklasowych (TAK/NIE).

Jeżeli mamy trzy lub więcej klas, to stosujemy sieć z taką liczbą neuronów na wyjściu ile mamy klas. Klasę określa wtedy neuron o najwyższej aktywacji. Poziomy aktywacji neuronów interpretujemy zwykle jako prawdopodobieństwa przynależności przypadku do danej klasy. Stosuje się tu konwersję jeden-z-N. Perceptron wielowarstwowy można, opcjonalnie tak skonfigurować by mieć dwa neurony wyjściowe dostosowane do dwuwartościowej, nominalnej zmiennej wyjściowej za pomocą konwersji typu jeden-z-N.

Pojedynczy neuron wyjściowy. Są dwa progi: akceptacji i odrzucenia. Jeżeli poziom aktywacji pojedynczego neuronu wyjściowego jest poniżej progu odrzucenia to mamy klasę pierwszą, a jeżeli jest powyżej progu akceptacji ta mamy klasę drugą. Jeżeli aktywacja jest pomiędzy progami to klasa jest "nieokreślona" (dopuszczona jest opcja "wątpliwości"). Jeżeli progi są sobie równe, to nie ma wątpliwości. Najczęściej wtedy progi ustawione są na 0,5. Próg akceptacji równy 0,95 a odrzucenia 0,05 oznaczają standardowe klasyfikowanie na poziomie ufności 95% (z dopuszczeniem braku klasyfikacji). W obu tych przypadkach zakłada się standardową, logistyczną funkcję aktywacji neuronu wyjściowego, która zapewnia zawieranie się poziomu aktywacji w przedziale (0,1); jeżeli stosowalibyśmy np. tangens hiperboliczny, to aktywacja zmieniałaby się w przedziale od -1 do 1, co trzeba by uwzględnić przy definiowaniu progów.

Alternatywą do samodzielnego wybrania progów klasyfikacji jest ustalenie względnego kosztu błędnej klasyfikacji dla każdej z dwóch klas. Współczynnik straty wynoszący 1 oznacza, że obie klasy są jednakowo ważne. Współczynnik straty większy od 1 wskazuje, że ważniejsze jest dla nas poprawne rozpoznanie przypadków należących do drugiej klasy, nawet kosztem zwiększonej liczby pomyłek dotyczących przypadków z pierwszej klasy. Mając współczynnik straty można dobrać wspólną wartość progów za pomocą krzywej ROC, znajdując na niej punkt gdzie iloraz liczb błędów klasyfikacji równy jest współczynnikowi straty. Otrzymujemy wtedy równe ważone straty w każdej klasie, niezależnie od liczby przypadków w klasach (tzn. przy współczynniku straty równym 1 proporcja błędnych klasyfikacji będzie taka sama w obu klasach, nie liczba błędnych klasyfikacji).

Wiele neuronów wyjściowych. W wypadku wielu neuronów progi nie są konieczne, ale można ich używać. Jeżeli nie chcemy używać progów, to sieć zastosuje algorytm "zwycięzca bierze wszystko"; co oznacza, że klasę określi neuron o najwyższym poziomie aktywacji. Nie ma tu opcji z "wątpliwościami".

Jeżeli zdefiniujemy progi, to w dalszym ciągu klasę określał będzie zwycięski neuron, ale mogą pojawić się wątpliwości. Mianowicie poziom aktywacji neuronu o najwyższej aktywacji musi być większy od poziomu progu akceptacji a wszystkie pozostałe neurony muszą mieć aktywacje poniżej progu odrzucenia. Jeżeli te warunki nie są spełnione to klasa jest "nieznana".

Jeżeli nasza klasyfikująca sieć z wieloma neuronami wyjściowymi ma funkcję aktywacji softmax, to zapewnione jest, że aktywacje neuronów wyjściowych sumować się będą do 1. W takim wypadku aktywacje interpretować można jako prawdopodobieństwa przynależności do klas. W przypadku innych funkcji aktywacji większy poziom aktywacji również oznacza proporcjonalnie większe prawdopodobieństwo przynależności do klasy, ale relacja nie jest już tak bezpośrednia.

Klasyfikacja porządkowa. Jeżeli mamy dużo klas, to kodowanie typu jeden-z-N nie jest najlepsze ze względu na rosnącą liczbę neuronów. Możemy wtedy, alternatywnie zastosować klasyfikację porządkową. Na wyjściu sieci mamy jeden neuron, a klasy reprezentowane są przez kolejne liczby naturalne 1, 2, 3, itd. Pewną niedogodnością jest, że wymuszone jest tu pewne uporządkowanie klas (np. klasa 1 jest bliższa klasie 2 niż klasie 3), które nie musi mieć odzwierciedlenia w rzeczywistości.

Może to jednak być czasami jedynie rozwiązanie.

Można również zastosować klasyfikację porządkową zmieniając funkcję konwersji zmiennej wyjściowej na minimax. Kolejne liczby naturalne będą wtedy wchodziły w zakres zmienności aktywacji neuronu wyjściowego.

Przy klasyfikacji porządkowej poziom aktywacji neuronu wyjściowego zaokrąglany jest do liczb całkowitych, które oznaczają klasy.

Używa się tu jednego progu; progu akceptacji. Jeżeli różnica między poziomem aktywacji i odpowiednią liczbą całkowita przekracza próg, to klasa jest "nieznana".

Przykład. Na wyjściu mamy 3,8, co zaokrąglamy do 4. Różnica wynosi 0,2. Jeżeli wybrano próg akceptacji mniejszy niż 0,2, to odrzucamy klasyfikację (klasa 4), przyjmując, że klasa jest "nieznana".

Próg 0,5 lub wyższy to w rzeczywistości brak progu.

Progi klasyfikacji (w sieciach neuronowych). W klasyfikującej sieci neuronowej występują dwie wartości progowe: próg akceptacji i próg odrzucenia. Parametry te stosowane są przy klasyfikacji i umożliwiają podjęcie decyzji dotyczącej zaliczenia obiektu do danej klasy. Sposób ich wykorzystania uzależniony jest od zastosowanej dla zmiennej wyjściowej funkcji konwersji (jeden-z-N, dwustanowa, Kohonena).

Próba kwotowa. Określenie próba kwotowa odnosi się do sytuacji, w której badacz dąży do utworzenie próby zawierającej określoną liczbę jednostek z pewnych grup (np. osób o określonym wieku, dochodach, pochodzeniu itp.) Przykładowo badacz losuje próbę zawierająca dokładnie 500 mężczyzn i 500 kobiet, określone liczby osób o różnym pochodzeniu itd. Celem takiego postępowania jest uzyskanie reprezentatywnej próby. (W niektórych definicjach próby kwotowej zaznacza się postulat, że każdy ankieter ma za zadanie zebrać informacje o określonej liczbie jednostek, ale wybór jednostek pozostawiony jest jego decyzji).

W ogólności, tylko poprawnie wylosowane próby (takie jak próby EPSEM) zapewniają poprawną reprezentację populacji przez próbę. W podręczniku Kish (1965) znajduje się omówienie zalet i właściwości prób losowych (zob. też próba reprezentatywna, losowanie warstwowe i wybór probabilistyczny).

Próba reprezentatywna. Określenie próba reprezentatywna jest często błędnie rozumiane. Zazwyczaj podstawowym celem jest wybranie próby tak, aby poszczególne cechy populacji mogły być poprawnie oszacowane na podstawie próby. Przykładowo, po wylosowaniu próby spośród wszystkich osób mających prawo głosu, badacz będzie chciał oszacować z pewną dokładnością poparcie dla partii politycznych w całej populacji.

W zasadzie tylko poprawnie wylosowane próby probabilistyczne (takie jak próby EPSEM) zapewniają, że populacja, dla której chcemy uogólnić wyniki z próby, jest właściwie reprezentowana. Niestety powszechny jest błędny sąd, że dla zapewnienia reprezentatywności pożądane jest losowanie warstwowe przy określonych kwotach (por. próba kwotowa). W takim przypadku próba dokładnie odzwierciedla częstość występowania pewnych grup w populacji, przykładowo wieku, płci, pochodzenia itp. Jednak dokładność ocen uzyskanych z takiej próby jest lepsza, tylko wtedy, gdy cecha, której rozkład w populacji jest dokładnie odzwierciedlany w próbie, jest silnie związana z badaną zmienną (np. poparciem w wyborach). Jednak w praktyce taka wiedza a-priori jest trudno uchwytna i stosowanie losowania kwotowego może prowadzić do mylących wyników.

W pracy Kish (1965) znajduje się dokładne omówienie zalet i właściwości różnych metod wyboru probabilistycznego oraz próby EPSEM.

Próba warstwowana. Losowe pobieranie próby polega na przypadkowym wyborze obiektów do próby, która powinna reprezentować cała populację (zob. Kish, 1965, wybór probabilistyczny (losowy), wybór losowy prosty (Simple Random Sampling), losowanie z jednakowymi prawdopodobieństwami wyboru (EPSEM) i próba reprezentatywna). W przypadku próby warstwowej najczęściej różnym grupom (warstwom) w obrębie populacji przypisuje się konkretne (takie same lub różne) frakcje losowania.

Over-sampling (losowanie nadmiarowe).W zadaniach predykcyjnego data mining często stosuje się losowanie warstwowe, aby sztucznie zwiększyć częstość występowania w próbie rzadkich przypadków. Przykładowo, przy sprzedaży wysyłkowej pozytywna odpowiedź na ofertę może występować dla mniej niż 1% wysłanych ofert. Przy analizie danych o wcześniejszych ofertach, której celem jest zbudowanie modelu wybierającego osoby, do których najlepiej skierować ofertę, pożądane jest zastosowanie techniki over-sampling. Model budujemy wtedy dla danych z udziałem pozytywnych odpowiedzi zwiększonym do około 50% (zob. Data Mining). Jeśli nie zastosujemy losowania nadmiarowego, to większość modeli będzie przewidywało dla praktycznie wszystkich przypadków odpowiedź negatywną, taki trywialny i zupełnie nieużyteczny model będzie miał 99% trafnych przewidywań.

Próbkowanie radialne (w sieciach neuronowych). Próbkowanie radialne jest prostą techniką, służącą do wyznaczenia wag neuronów znajdujących się w warstwie radialnej. Ten sposób postępowania jest uzasadniony, jeśli rozkład danych uczących jest reprezentatywny dla problemu (Lowe, 1989), a liczba rzeczywistych skupisk występujących w danych jest znacząco mniejsza od liczby zastosowanych neuronów radialnych.

Liczba przypadków uczących musi być przynajmniej równa liczbie wyznaczanych centrów, zaś neurony radialne muszą być umieszczone w pierwszej warstwie ukrytej rozważanej sieci.

Przedział ufności a przedział predykcji. W regresji prognozować możemy wartości zmiennej zależnej w oparciu o zadane wartości zmiennych niezależnych. Przy prognozowaniu tych wartości obliczać możemy przedziały ufności i przedziały predykcji dla zmiennej zależnej.

Przedział ufności informuje o wartości oczekiwanej (średniej) zmiennej zależnej. Przedział ufności dla wartości prognozowanej zmiennej zależnej określa zakres wartości, w obrębie którego (z danym prawdopodobieństwem, dodatkowe informacje można znaleźć w rozdziale Podstawowe pojęcia statystyki) oczekujemy prawdziwej wartości zmiennej zależnej, dla danych wartości zmiennych niezależnych.

Przedział predykcji natomiast, informuje o pojedynczych prognozach zmiennej zależnej. Przedział predykcji wartości zmiennej zależnej to zakres wartości, w obrębie którego (z danym prawdopodobieństwem, zob. Podstawowe pojęcia statystyki) oczekujemy następnej obserwacji (przy danych wartościach zmiennych niezależnych).

Zauważmy, że przedziały ufności są mniejsze, ponieważ dotyczą średniej, a nie pojedynczych obserwacji. Patrz, Neter, Wasserman, Kutner, 1985.

Przedział ufności. Przedział ufności dla wybranej statystyki (np. średniej lub linii regresji) to zakres wartości, w którym, z zadanym prawdopodobieństwem, leży "prawdziwa" wartość statystyki. Dodatkowe informacje można znaleźć w rozdziale Podstawowe pojęcia statystyki.

Przykładowo, na powyższym wykresie pokazano 95% przedział ufności dla linii regresji.

Przedział ufności dla średniej. Przedziały ufności dla średniej określają zakres wartości wokół średniej, w którym, przy danym poziomie pewności, spodziewać się możemy "prawdziwej" średniej (dodatkowe informacje można znaleźć w rozdziale Podstawowe pojęcia statystyki). W niektórych pakietach statystycznych (np. w STATISTICA) możemy obliczać przedziały ufności dla dowolnych poziomów p; na przykład, jeśli średnia w naszej próbie wynosi 23, a dolna i górna granica przedziału ufności przy p=0,05 wynosi odpowiednio 19 i 27, to możemy wyciągnąć wniosek, że z prawdopodobieństwem 95% średnia w populacji jest większa od 19 i mniejsza od 27.

Jeśli wybierzemy mniejsze p, to przedział będzie szerszy, a tym samym zwiększy się pewność estymatora i vice versa; jak wiadomo z prognoz pogody, im bardziej nieokreślone przewidywanie (tzn. szerszy przedział ufności), tym bardziej prawdopodobne, że się spełni. Zauważmy, że szerokość przedziału ufności zależy od wielkości próby i od zmienności danych. Obliczanie przedziałów ufności opiera się na założeniu, że zmienna ma rozkład normalny. W przeciwnym wypadku ocena może być niepoprawna, chyba, że próba jest liczna, powiedzmy n=100 lub więcej.

Przekroje. Przekroje obejmują zestaw procedur umożliwiających obliczanie statystyk opisowych oraz korelacji dla zmiennych zależnych, w każdej z grup utworzonych przez jedną lub kilka zmiennych grupujących (niezależnych). Analizy przekrojowe stosowane są przy testowaniu hipotez lub w metodach eksploracyjnych.

Więcej informacji, patrz Analiza przekrojowa - Statystyki opisowe w grupach w rozdziale Statystyki podstawowe.

Przekształcenie i regresja logitowa. W przypadku modeli regresji logitowej wartości przewidywane dla zmiennej zależnej (odpowiedzi) nigdy nie są mniejsze (ani równe) od 0 albo większe (lub równe) od 1, niezależnie od wartości jakie przyjmują zmienne niezależne. Dlatego też jest on powszechnie wykorzystywany do analizy zmiennych zależnych o charakterze binarnym (zob. także rozkład dwumianowy). Jest to realizowane poprzez zastosowanie podanego poniżej równania regresji (termin logit został po raz pierwszy użyty przez Berksona w 1944 roku):

y=exp(b0 +b1*x1 + ... + bn*xn)/{1+exp(b0 +b1*x1 + ... + bn*xn)}

Jak można się łatwo zorientować, niezależnie od wartości współczynników regresji oraz poziomu wielkości x model ten zawsze daje wartości przewidywane (przewidywane y) w zakresie od 0 do 1. Nazwa logit pochodzi stąd, że można łatwo sprowadzić ten model do modelu liniowego za pomocą przekształcenia logit. Załóżmy, że mamy do czynienia ze zmienną zależną binarną y, którą traktujemy w kategoriach ciągłej wartości prawdopodobieństwa p, zmieniającej się w granicach od 0 do 1. Możemy następnie przekształcić to prawdopodobieństwo p w podany poniżej sposób.

p' = loge{p/(1-p)}

Przekształcenie to jest określane terminem logitowe lub logistyczne. Zauważmy, że p' może teoretycznie przyjmować dowolną wartość rzeczywistą. Ponieważ przekształcenie logitowe rozwiązuje zagadnienie granic 0/1 występujących w przypadku oryginalnej zmiennej zależnej, możemy zatem wykorzystać te wartości (otrzymane po przekształceniu logitowym) w zwyczajnym równaniu regresji liniowej. W rzeczywistości, przeprowadzając przekształcenie logitowe w stosunku do obydwu stron przytoczonego powyżej równania regresji logitowej otrzymujemy standardowy model liniowej regresji wielorakiej:

p' = (b0 +b1*x1 + ... + bn*xn)

Uzupełniające informacje znajdują się w sekcjach Estymacja nieliniowa oraz Uogólnione modele liniowe i nieliniowe, a także pod hasłami: przekształcenie i regresja probitowa oraz przekształcenie i regresja logitowa..

Przekształcenie i regresja probitowa. W przypadku modeli regresji probitowej wartości przewidywane dla zmiennej zależnej nigdy nie są mniejsze (lub równe) od 0 ani większe (lub równe) od 1, niezależnie od wartości zmiennych niezależnych. Dlatego też jest on powszechnie wykorzystywany do analizy zmiennych zależnych lub odpowiedzi o charakterze binarnym (patrz także rozkład dwumianowy). Jest to realizowane poprzez zastosowanie podanego poniżej równania regresji (termin probit został po raz pierwszy użyty przez Blissa w 1934 roku):

y = NP(b0 + b1*X1 ... )

gdzie NP oznacza wartość prawdopodobieństwa normalnego (pole powierzchni pod krzywą gęstości rozkładu normalnego lub wartość dystrybuanty dla rozkładu normalnego). Jak łatwo zauważyć, model ten zawsze tworzy wartości przewidywane (przewidywane y) z przedziału od 0 do 1, niezależnie od wielkości x.

Dalsze szczegóły można znaleźć rozdziałach Estymacja nieliniowa i Uogólnione modele liniowe i nieliniowe. Patrz także: przekształcenie i regresja logitowa oraz regresja wielomianowa logitowa i probitowa.

Przekształcenie Minimax. Metoda skalowania liniowego wartości zmiennych. Współczynniki skalowania dobierane są w taki sposób, aby uzyskane w wyniku przekształcenia wartości posiadały zadaną wartość minimalną i maksymalną.

Dodatkowe informacje można znaleźć w części Sieci neuronowe.

Przeuczenie sieci neuronowej. Pojawiające się w trakcie uczenia sieci zjawisko polegające na nadmiernym dopasowaniu się sieci do punktów uczących, któremu towarzyszy błędne działanie sieci dla danych nie prezentowanych w trakcie uczenia (sieć nie posiada zdolności do generalizacji zdobytej wiedzy). Przeuczenie pojawia się w przypadku zbyt długiego uczenia (działania algorytmu uczącego) lub wówczas, gdy zastosowana sieć jest zbyt złożona w porównaniu ze złożonością problemu lub liczbą dostępnych danych uczących.

Dodatkowe informacje: sekcja Sieci neuronowe.

Przybliżona liczba okrągłych przedziałów. Termin oznacza metodę podziału zakresu wartości na przedziały. Podział wykonywany jest w taki sposób, aby granice przedziałów i ich wielkość były intuicyjne i wygodne w interpretacji ("zrozumiałe").

Przykładowo, jeśli tworzymy histogram danych z zakresu od 1 do 10, to niewygodne byłoby używanie przedziałów od 1,3 do 3,9, od 3,9 do 6,5 itd. (podziału o minimum 1,3 i kroku 2,6). Wygodniej jest ustalić krańce przedziałów jako 1, 2, 3, 4, itd. (podział o minimum 1 i kroku 1) lub też jako 2, 4, 6, itd. (podział o minimum 2 i kroku 2).

Słowo okrągłe oznacza tutaj, że granice przedziałów klasowych będą zaokrąglane tak, by ostatnia cyfra znacząca wynosiła 0, 2 lub 5 (np. 10,5 11 11,5). Skutkiem takiego podejścia jest też traktowanie w sposób przybliżony wartości minimum, maksimum i liczby kategorii, podanych przez użytkownika.

Przycinanie (w drzewach klasyfikacyjnych). Termin przycinanie drzewa klasyfikacyjnego odnosi się do opracowanych przez Breimana i wsp. (1984) automatycznych procedur wyboru "właściwej wielkości". Procedury te są przeznaczone do znajdywania (bez odwoływania się do subiektywnych osądów) "właściwej wielkości" drzewa klasyfikacyjnego, tzn. drzewa z odpowiednią liczbą podziałów oraz optymalną dokładnością prognostyczną.

Proces określania "właściwej wielkości" drzew klasyfikacyjnych został opisany w części Metody obliczeniowe , zawartej we wprowadzeniu do Drzew klasyfikacyjnych.

Przypadek brzegowy. Przypadek brzegowy pojawia się wtedy, gdy parametr zmierza do "brzegu" dozwolonej "przestrzeni parametrów" (patrz Modelowanie równań strukturalnych). Na przykład, wariancja może przybierać wartości tylko od 0 do nieskończoności. Jeśli podczas iteracji program usiłuje przenieść estymator wariancji poniżej zera, to wartość ta zostanie ograniczona do wartości brzegowej 0.

W przypadku niektórych problemów (na przykład przypadek Heywooda w analizie czynnikowej), możliwe jest zmniejszenie funkcji rozbieżności przez estymację wariancji tak, by była wartością ujemną. W takim przypadku, program "robi co może" w ramach dozwolonej przestrzeni parametrów, ale w istocie nie osiąga "globalnego minimum" funkcji rozbieżności.

Przypadek chwilowy (sieci neuronowe, wejście wg użytkownika). Przypadek chwilowy nie należy do zbioru danych i nie uczestniczy w procesie uczenia sieci neuronowej. Zob. Sieci neuronowe.

Przypadek Heywooda. Przypadek Heywooda często występuje w analizie czynnikowej. Mówimy o nim wtedy, gdy minimum funkcji rozbieżności jest osiągane dla ujemnych wartości estymatora wariancji poszczególnych zmiennych. Oczywiście wartości takie są niemożliwe. Przypadek Heywooda często występuje przy wyodrębnianiu zbyt dużej liczby czynników lub przy za małej liczności próby.

Przypisanie jednakowych promieni (odchyleń). Algorytm do określania promieni neuronów radialnych wykorzystujący regułę heurystyczną (Haykin, 1994). Heurystyka ta dokonuje próby sensownego określenia promienia (takiego samego dla wszystkich neuronów) w oparciu o liczbę centrów oraz ich rozprzestrzenienie.

Zob. także: sieci neuronowe.


Przypisywalne przyczyny i działania. Przy monitorowaniu charakterystyk jakości musimy rozróżnić dwa rodzaje zmienności. Zmienność wynikająca z przyczyn losowych opisuje losowość właściwą dla danego procesu, ma ona wpływ na wszystkie wartości. W idealnym przypadku, gdy proces jest uregulowany, występuje tylko zmienność losowa. Na karcie kontrolnej będzie się to objawiać w postaci losowych fluktuacji poszczególnych próbek wokół linii centralnej, przy czym wszystkie próbki będą się znajdować pomiędzy granicami kontrolnymi i nie będą tworzyły żadnych specyficznych konfiguracji. Zmienność wynikająca z przyczyn systematycznych jest spowodowana przez pewne szczególne okoliczności, które mają swoją przyczynę. Zazwyczaj objawi się to na karcie w postaci punktów leżących poza granicami kontrolnymi lub punktów ułożonych w pewien systematyczny sposób. Ten typ zmienności ma także wpływ na obliczenia charakterystyk karty (linii centralnej i granic kontrolnych).

Jeśli po zbadaniu warunków w jakich zaszły rozregulowania znajdziemy dla nich wyjaśnienie, wówczas możemy przypisać etykiety próbkom wskazującym na rozregulowanie, wyjaśnić przyczyny (np. awaria zaworu) i określić działania, które zostały podjęte (np. wymiana zaworu). Przyczyny i działania naniesione na karcie potwierdzają fakt, że na położenie linii centralnej i granic kontrolnych ma wpływ zmienność systematyczna występująca w monitorowanym procesie.

Przyrostowe i nie-przyrostowe algorytmy uczące się. Metody (algorytmy) predykcyjnego data mining nazywane są algorytmami uczącymi się, gdyż wydobywają informację z dostępnych danych w celu przewidywania wartości dla nowych przypadków. Algorytmy te podzielić można na takie, które wymagają jednego (ewentualnie dwóch) "przebiegów" przez dane i takie, które wymagają iteracyjnego, wielokrotnego dostępu do danych w celu wykonania estymacji parametrów modelu. Te pierwsze nazywane są algorytmami przyrostowymi, gdyż z każdym kolejnym przypadkiem przyrasta (udoskonalana jest) wiedza wydobyta z danych. Po "przejrzeniu" wszystkich przypadków pozostają już tylko niewielkie operacje obliczeniowe do otrzymania końcowego wyniku. Algorytmy nie-przyrostowe natomiast dla każdej, z wielu zwykle iteracji wymagają dostępu do całości danych. Oczywiście algorytmy przyrostowe są zwykle znacznie szybsze niż nie-przyrostowe, które do bardzo dużych zbiorów danych mogą się w ogóle nie dać zastosować (bez wykonania próbkowania).

Pseudoinwersja (dekompozycja względem wartości szczególnych). Algorytm pseudoinwersji nie jest algorytmem uczenia w ścisłym tego słowa znaczeniu. Algorytm ten stosowany jest do określenia wartości wag w ściśle liniowej (liniowa funkcja PSP i liniowa funkcja aktywacji) warstwie wyjściowej sieci neuronowej. Algorytm pseudoinwersji wykorzystuje liniową technikę dekompozycji według wartości szczególnych do wyznaczenia macierzy pseudoodwrotnej, która potrzebna jest do określenia wartości wag. Uzyskane rozwiązanie charakteryzuje się najmniejszą średnią wartością kwadratów odchyleń. W istocie metoda ta gwarantuje znalezienie optymalnego zestawu wag w warstwie liniowej, minimalizującego błąd RMS dla zbioru uczącego (Bishop, 1995; Press i in., 1992; Golub i Kahan, 1965). Jest to standardowa technika optymalizacji metodą najmniejszych kwadratów.

Techniki liniowe są bardzo ważne w optymalizacji. Ich stosowanie gwarantuje wyznaczenie rozwiązania optymalnego dla modelu liniowego. Przy stosowaniu modeli nieliniowych (przykładem takich modeli są nieliniowe sieci neuronowe) uzyskanie rozwiązanie optymalnego nie jest zagwarantowane, nawet w przypadku zbieżności algorytmów uczenia.

Procedura pseudoinwersji ma sporo zalet; poza tym, że gwarantuje wyznaczenie minimum absolutnego błędu RMS modelu, to jest jeszcze relatywnie szybka.

Pseudoinwersja jest zwykle stosowana w kilku okolicznościach:

Szczegóły techniczne. Wyznaczana jest macierz G, której element o indeksach i, j zawiera wartość wejściową i-tego neuronu wyjściowego, po wprowadzeniu do sieci j-tego przypadku.

Rozwiązanie spełniające kryterium najmniejszych kwadratów określone jest jako:

 w = G+ d

G+ = (GTG)-IGT jest macierzą pseudoodwrotną.

w jest wektorem wag neuronu wyjściowego.

d jest wektorem zakładanych na wyjściach wartości (nauczane wartości wyjściowe).

G+ jest wyznaczana za pomocą algorytmu dekompozycji względem wartości szczególnych.

Ostrzeżenie. Algorytm dekompozycji względem wartości szczególnych jest zwykle stabilny numerycznie, jednakże sporadycznie pojawić się może macierz G sprawiająca problemy numeryczne, przejawiające się wygenerowaniem błędu arytmetycznego. W przypadku pojawienia się błędu tego typu postępujemy zgodnie z poniższymi zaleceniami:

  1. Sprawdźmy, czy przypadki uczące i (w przypadku sieci o radialnych funkcjach bazowych) centra oraz odchylenia zostały określone w sensowny sposób.

  2. W szczególności, algorytm źle się zachowuje jeśli odchylenia radialne są bardzo wysokie (inaczej mówiąc odchylenia standardowe funkcji gaussowskiej są bardzo małe). Jeśli do określania odchyleń radialnych zastosowano metodę k-najbliższych sąsiadów, to może zajść potrzeba zwiększenia liczby uwzględnianych sąsiadów, zaś jeśli do określenia odchyleń radialnych zastosowano metodę równomiernego przydziału, to warto rozpatrzyć możliwość zwiększenia współczynnika skalującego Odchylenie.

  3. Jeśli przypadki uczące, centra i odchylenia dobrane są w rozsądny sposób, a działanie algorytmu nadal kończy się błędem, to do określenia wag w warstwie liniowej zastosujmy gradienty sprzężone. Algorytm ten zwykle działa wolniej niż pseudoinwersja, ale nie generuje on błędów arytmetycznych a jest w stanie łatwo wyznaczyć minimum globalne, gdyż w przypadku sieci liniowych z zasady nie występują minima lokalne.

Pseudoskładowe. Pseudoskładowe są przekształconymi wartościami składników (wykreślanych na wykresach trójkątnych) gdzie:

x'i = (xi-Li)/(Total-L)

We wzorze x'i oznacza i-tą pseudoskładową, xi oznacza oryginalną wartość składnika, Li oznacza dolne ograniczenie (granicę) dla i-tego składnika, L oznacza sumę wszystkich dolnych ograniczeń (granic), a Total oznacza całkowitą ilość mieszaniny. Przekształcenie to pozwala otrzymać porównywalne co do wielkości współczynniki dla różnych czynników.

Zob. wykresy trójkątne (oraz Cornell, 1993, Rozdział 3), a także omówienie planów dla mieszanin w części Planowanie doświadczeń.






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.