
Dodatkowe informacje można znaleźć w sekcji Analiza mocy testów.
Efekt standaryzowany (Es). Efekt statystyczny wyrażony w wygodnych standaryzowanych jednostkach. Przykładowo efektem standaryzowanym dla testu t dla prób niezależnych jest różnica średnich podzielona przez odchylenie standardowe:
Es = (µ1 - µ2)/s
Więcej informacji znajdziemy w rozdziale Analiza mocy testów.
Efekty losowe (w modelu mieszanym ANOVA). W odniesieniu do analizy wariancji termin efekty losowe jest używany do oznaczania czynników z poziomami, które nie zostały celowo dobrane przez eksperymentatora (takie czynniki są nazywane efektami stałymi) lecz wylosowane z populacji możliwych prób. Na przykład, gdyby przedmiotem naszego zainteresowania był wpływ jakości kształcenia różnych szkół na powodzenie na studiach wyższych, wówczas moglibyśmy wybrać próbę spośród szkół do oceny zakresu zmienności powodzenia na studiach wyższych (komponent wariancyjny), która może zostać przypisana różnicom pomiędzy szkołami.
Prostym sposobem określenia czy dany efekt występujący w doświadczeniu jest efektem losowym czy też stałym, jest postawienie pytania o możliwość dobrania (lub ustalenia) poziomów odpowiedniego czynnika w przypadku konieczności powtórzenia całego badania. Na przykład gdybyśmy chcieli powtórzyć badanie opisane w tym przykładzie, dobralibyśmy (poprzez pobranie próby) różne szkoły z określonej populacji szkół. Zatem, czynnik "szkoła" w naszym badaniu reprezentowałby czynnik losowy. Dla kontrastu, gdybyśmy zamierzali porównać osiągnięcia na studiach wyższych chłopców i dziewcząt w doświadczeniu ze stałym czynnikiem Płeć, wówczas zawsze bralibyśmy pod uwagę dwie grupy: chłopców i dziewczęta. W takim przypadku te same poziomy czynnika Płeć byłyby wybierane w sytuacji, gdybyśmy chcieli powtórzyć badanie.
Więcej informacji można znaleźć w częściach ANOVA, Komponenty wariancyjne i model mieszany ANOVA/ANCOVA i GLM.
Efekty stałe (w ANOVA).
W odniesieniu do analizy wariancji termin efekty stałe jest używany do oznaczania czynników z poziomami, które
zostały raczej celowo dobrane przez eksperymentatora niż wylosowane z nieskończonej populacji możliwych poziomów (takie
czynniki są nazywane efektami losowymi). Na przykład, gdyby przedmiotem naszego zainteresowania była hipoteza
mówiąca o tym, że wyższa temperatura otoczenia prowadzi do wzrostu agresji, wówczas poddalibyśmy badane osoby wpływom
umiarkowanej i wysokiej temperatury, a następnie zmierzylibyśmy poziom agresji. Temperatura stanowiłaby efekt
stały w tym doświadczeniu ponieważ poziomy temperatury zostały celowo ustalone przez eksperymentatora.
Prostym sposobem określenia czy dany efekt występujący w doświadczeniu jest efektem losowym czy też stałym jest postawienie pytania o możliwość dobrania (lub ustalenia) poziomów tego czynnika, w przypadku konieczności powtórzenia całego badania. Na przykład gdybyśmy chcieli powtórzyć wspomniane wyżej badanie, dobralibyśmy te same temperatury. Zatem, czynnik "temperatura" w naszym badaniu jest czynnikiem stałym. Gdybyśmy natomiast zamierzali ocenić jaka część zmienności czynnika "agresywność" wynika ze zmienności temperatury, wówczas poddalibyśmy badane osoby działaniu losowych temperatur, z pewnego przedziału temperatur. Temperatury w powtórzonym badaniu różniłyby się prawdopodobnie od temperatur z pierwszego badania, a zatem temperatura byłaby tu uważana za efekt losowy.
Więcej informacji można znaleźć w rozdziałach ANOVA/MANOVA oraz Komponenty wariancyjne i model mieszany ANOVA/ANCOVA.
Efektywna statystyka punktowa. Zob. Statystyka punktowa.
Eksploracyjna analiza danych (EDA). W odróżnieniu od tradycyjnego testowania hipotez dotyczących relacji między zmiennymi, stawianych a priori (np. "WIEK osób jest skorelowany z ich SKŁONNOŚCIĄ DO PODEJMOWANIA RYZYKA"), eksploracyjna analiza danych stosowana jest do poszukiwania systematycznych relacji pomiędzy zmiennymi, w sytuacji gdy nie ma określonych z góry oczekiwań odnośnie natury tych relacji. W typowym procesie eksploracyjnej analizy danych bierze się pod uwagę i porównuje wiele zmiennych, stosując różnorodne techniki poszukiwania regularnych struktur.
Więcej na ten temat, można znaleźć w opisie Eksploracyjnej analizy danych (EDA) w rozdziale Techniki zgłębiania danych (data mining).
Ekstrapolacja. Prognozowanie wartości danych, za pomocą określonej funkcji, poza zakres znanych punktów.
Elipsa obszaru ufności i rozstępu.
Elipsa obszaru ufności: Ta elipsa pozwala odczytać na wykresie przedziały ufności dla pojedynczej, nowej
obserwacji. Takie dwuwymiarowe obszary ufności lub granice kontrolne są często używane w kontekście wielowymiarowych kart
kontrolnych do sterowania jakością w procesach produkcyjnych (zob. Montgomery, 1996; a także karta T**2 Hotellinga).

Elipsa kreślona jest w oparciu o założenie, że dane dwie zmienne podlegają dwuwymiarowemu rozkładowi normalnemu. Orientacja elipsy zależy od znaku współczynnika korelacji
pomiędzy zmiennymi (dłuższa oś elipsy nałożona jest w przybliżeniu na linię regresji). Prawdopodobieństwo tego, że nowa
wartość wpadnie do wnętrza elipsy (np. 0,95) jest parametrem określającym wielkość elipsy.
Więcej informacji o elipsie ufności można znaleźć w pracy Tracy, Young, Mason (1992), a także pod hasłem elipsa przedziału predykcji.
Elipsa rozstępu: Ta elipsa ma wielkość dobraną według rozstępów, a jej środek określony jest przez średnie zmiennych X i Y. Długość poziomego i pionowego rzutu elipsy (odpowiednio na oś X i Y ) jest równa Rozstęp*W gdzie W jest dobieranym przez użytkownika współczynnikiem.
Elipsa przedziału predykcji. Przedział ten, często zaznaczany na wykresach rozrzutu 2W, opisuje obszar, w obrębie którego z określonym prawdopodobieństwem (alfa) możemy oczekiwać pojawienia się nowej pojedynczej obserwacji, przy założeniu, że ta nowa obserwacja pochodzi z populacji o dwuwymiarowym rozkładzie normalnym o parametrach (średnie, odchylenia standardowe, kowariancje), które zostały oszacowane na podstawie rzeczywistych punktów przedstawionych na wykresie.
Współrzędne dla elipsy są obliczane tak aby:
((n-p)*n)/(p*(n-1)*(n+1))*(X-Xm) 'S-1 (X-Xm)~ F(alpha,p,n-p)
gdzie:
n oznacza liczbę przypadków
p oznacza liczbę zmiennych; tzn. p=2 w przypadku
wykresu rozrzutu dla dwóch zmiennych
X oznacza wektor współrzędnych (konkretnie parę
współrzędnych, ponieważ p=2)
Xm to wektor średnich dla p wymiarów (zmiennych) na
wykresie
S-1 odwrotność macierzy kowariancji dla p zmiennych
F(alpha,p, n-p) oznacza wartość statystyki o rozkładzie F, dla danej
wartości alfa, p, oraz n-p.
Zauważmy, że w przypadku gdy liczba obserwacji na wykresie jest mała, wówczas przedział predykcji może być bardzo szeroki. Dodatkowe informacje na ten temat można znaleźć w książce Tracy'ego, Younga i Masona (1992) lub Montgomery'ego (1996).
Enterprise Resource Planning (ERP).Systemy ERP to zintegrowany zestaw aplikacji ułatwiających zarządzanie różnymi aspektami działalności przedsiębiorstwa (np. zamówieniami, planowaniem produkcji, księgowością, zasobami ludzkimi). Zazwyczaj system ERP składa się z wielu specjalistycznych modułów o podobnym środowisku użytkownika, zapewniających zgodność i integrację odpowiednich części bazy danych przedsiębiorstwa. Przykładami powszechnie stosowanych systemów ERP są produkty SAP i Oracle.
Zob. też systemy korporacyjne.
Entropia wzajemna (sieci neuronowe). Funkcja błędu oparta na mierze stosowanej w teorii informacji. Szczególnie przydatna w sieciach klasyfikujących. Występuje w dwóch wersjach: dla sieci z pojedynczym neuronem wyjściowym i sieci z większą liczbą neuronów w warstwie wyjściowej. Ta funkcja błędu powinna być stosowana łącznie z funkcją aktywacji typu logistycznego (sieci z jednym neuronem wyjściowym) lub funkcją aktywacji typu softmax (sieci z większą liczbą neuronów wyjściowych).
Patrz, Bishop 1995. Patrz także: Sieci neuronowe.
Epoka uczenia (sieci neuronowe). Jednokrotne powtórzenie iteracyjnej procedury uczenia sieci neuronowej, w trakcie której, sieci prezentowane są wszystkie przypadki uczące. Po zrealizowaniu epoki przeprowadza się zwykle ocenę sieci, przy pomocy zbioru walidacyjnego.
Szczegółowe omówienie można znaleźć w rozdziale Sieci neuronowe.
Eps. Przy dopasowywaniu funkcji, eps czyli epsilon albo e, oznacza losowy błąd.
Estymacja bayesowska. Estymacja bayesowska to metoda analizy statystycznej bazująca na twierdzeniu Bayesa. Twierdzenie to mówi, że prawdopodobieństwo a posteriori parametru p jest proporcjonalne do prawdopodobieństwa a priori p pomnożonego przez prawdopodobieństwo p wyznaczone z danych. Ta, coraz popularniejsza metodyka, jest odmiennym podejściem w stosunku do tradycyjnego (częstościowego) podejścia, w którym dążymy do oceny przedziałów ufności dla parametrów lub weryfikacji hipotezy zerowej a-priori. Natomiast w estymacji bayesowskiej staramy się tak udoskonalić oczekiwania a-priori i wyznaczyć prawdopodobieństwo a posteriori dla obserwowanych danych i udoskonalonej hipotezy a priori.
Dobrym przykładem (i praktycznym zastosowaniem) estymacji bayesowskiej jest diagnostyka medyczna. Lekarz stosuje kolejne badania tak, aby udoskonalić i uszczegółowić diagnozę. Wynik każdego kolejnego badania lub testu jest łączony z wiedzą a-priori o pacjencie i oczekiwaniem, że odpowiednia diagnoza jest poprawna. Celem jest uzyskanie diagnozy, której można zaufać ze znanym stopniem pewności.
Estymacja metodą najmniejszych kwadratów. Estymacja metodą najmniejszych kwadratów polega na minimalizacji sumy kwadratów odchyleń wartości zaobserwowanych (zmiennej zależnej) od wartości prognozowanych na podstawie modelu. Estymator najmniejszych kwadratów parametru q jest więc otrzymywany przez minimalizację Q ze względu na q, gdzie:
Q =
[Yi - fi(
)]2
Zauważmy, że fi(
) jest znaną
funkcją
, Yi =
fi(
) +
i gdzie i = 1,...,n, a
i są zmiennymi losowymi o wartości
oczekiwanej równej 0.
Więcej informacji na ten temat można znaleźć u Mendenhall i Sincich (1984), Bain i Engelhardt (1989), oraz Neter, Wasserman i Kutner (1989), a także w sekcjach Statystyki podstawowe, Estymacja nieliniowa oraz Regresja wieloraka.
Estymacja nieliniowa. Mówiąc najogólniej estymacja nieliniowa wymaga znalezienia najlepiej dopasowanej współzależności pomiędzy wartościami zmiennej zależnej, a wartościami zbioru jednej lub większej liczby zmiennych niezależnych (jest ona wykorzystywana w charakterze metody służącej do testowania hipotez lub jako metoda eksploracyjna). Na przykład możemy obliczyć zależność między dawką leku a jego skutecznością, zależność między treningiem a późniejszą sprawnością wykonania zadania, zależność między ceną domu a czasem potrzebnym na jego sprzedanie itd. Do postawionych tu problemów badawczych można zastosować takie techniki, jak regresja wieloraka (zob. Regresja wieloraka) lub analiza wariancji (zob. ANOVA/MANOVA). W rzeczywistości estymację nieliniową możemy potraktować jako uogólnienie tych metod. W szczególności, przy regresji wielorakiej (i analizie wariancji) zakłada się, że zależność między zmienną niezależną (zmiennymi niezależnymi), a zmienną zależną jest z natury liniowa. W przypadku estymacji nieliniowej sami decydujemy o określeniu natury tego związku; na przykład możemy przyjąć, że zmienna zależna ma być funkcją logarytmiczną zmiennej niezależnej (zmiennych niezależnych), funkcją wykładniczą, funkcją pewnego złożonego stosunku miar niezależnych, itd. Jeśli jednak wszystkie analizowane zmienne są z natury jakościowe lub mogą zostać przekształcone na jakościowe, wówczas możemy w charakterze metody alternatywnej wykorzystać metody analizy korespondencji (zob. Analiza korespondencji).
Więcej informacji na temat metod estymacji nieliniowej można znaleźć w części Estymacja nieliniowa.
Etap przygotowania danych. Wstępne przygotowanie danych i ich czyszczenie jest bardzo ważnym etapem data mining, choć czasem zaniedbywanym. Stare powiedzenie statystyków "garbage-in-garbage-out" (śmieci na wejściu - śmieci na wyjściu) ma pełne zastosowanie w typowych projektach data mining, gdzie używane są ogromne zbiory danych, gromadzone i przetwarzane automatycznie. Proces zbierania danych nie zawsze jest dokładnie kontrolowany, w polach mogą się znaleźć wartości odstające (np. Wiek klienta: 1000), niemożliwe kombinacje danych (np. Płeć: Mężczyzna, Ciąża: Tak) i nieogarnione bogactwo innych tego typu błędów. Analiza takich danych może dać wysoce mylące wyniki, szczególnie w predykcyjnym data mining.
W data mining mamy często do czynienia z danymi pełnymi "szumu" - zawierającymi błędy i nieustrukturyzowaną informację (patrz text mining). Przypuśćmy, na przykład, że zamierzamy analizować dużą bazę danych odpowiedzi osób odwiedzających naszą stronę internetową (potencjalnych klientów, którzy wypełnili formularz na stronie). Właśnie w takim wypadku bardzo ważny będzie wstępny etap przygotowania i czyszczenia danych, przed przystąpieniem do analizy. Bo ktoś mógł pomyłkowo lub celowo jako swój wiek podać właśnie 1000 lat. Nie wykrycie takiej ekstremalnej wartości i nie odrzucenie jej, będzie miało zasadniczy wpływ na wszelkie modele regresji czy klasyfikacji. W takich wypadkach stosuje się filtry odrzucające dane nie spełniające zadanych, rozsądnych kryteriów, co do zakresu zmienności lub współwystępowania pewnych kategorii (np. Wiek=5; Emeryt=Tak).
Etykietowanie klas (w sieciach neuronowych). Istnieje wiele różnorodnych algorytmów i sieci grupujących. Wszystkie te sieci, w drugiej warstwie mają neurony radialne zawierające wektory wzorcowe. W sieciach Kohonena i grupujących stosuje się dwuwarstwowe sieci z pojedynczą, nominalną zmienną wyjściową i konwersją metodą K-najbliższych wektorów, otrzymując klasyfikację przypadku na podstawie klasy najbliższego mu wektora (wektorów) wzorcowego.
Wektory wzorcowe rozmieszczane są różnymi metodami próbkowania i centrowania grup. Poza rozmieszczeniem neuronów radialnych, trzeba przypisać im też klasy (każdy neuron radialny ma etykietę z klasą, którą reprezentuje). Etykietowanie wykonujemy używając opisanych poniżej algorytmów.
K-L Najbliższych sąsiadów. W tym algorytmie etykietuje się neuron na bazie etykiet K najbliższych mu przypadków uczących. Warunkiem jest jednak, aby, co najmniej L z K sąsiadów miało tą samą klasę, w przeciwnym wypadku etykietą neuronu będzie "nieznana".
Zwróćmy uwagę na różnicę z analogicznym algorytmem K-L najbliższych sąsiadów, używanym przy uruchamianiu gotowej sieci klasyfikacyjnej, gdzie kierunek jest odwrotny, bo klasę przypisuje się badanemu przypadkowi, na podstawie klas najbliższych mu neuronów.
Sąsiedztwo Voronoia. W tym algorytmie etykietuje się neuron wg etykiet przypadków uczących "przypisanych" danemu neuronowi. Przypadki przypisane do neuronu to te, które maja najbliżej do tego właśnie neuronu (czyli te przypadki, które byłyby klasyfikowane przez dany neuron wg zasady "zwycięzca bierze wszystko"). Jest to tzw. sąsiedztwo Voronoia neuronu. Neuron etykietowany jest wg klasy reprezentowanej w jego sąsiedztwie w większości, pod warunkiem, że większość ta osiąga zadana minimalną proporcję. Jeżeli tak nie jest etykieta pozostaje pusta, oznaczając klasę "nieznaną".
