Przeszukaj Internetowy Podręcznik Statystyki



Obracanie widoku danych (w przestrzeni 3W).

Zmiana punktu widzenia wykresu rozrzutu 3W (np. wykresów prostych, spektralnych lub przestrzennych) może okazać się efektywną techniką eksploracyjną, ponieważ umożliwia ujrzenie wzorów, które są zasłonięte, jeśli nie patrzymy na "chmurę" punktów pod właściwym kątem (zob. animacja poniżej).


[Animacja - obracanie widoku danych]

Obracanie wykresu 3W pozwala szukać najlepszego położenia "punktu widzenia" wykresu.

Więcej informacji zob. Obracanie widoku danych (w przestrzeni 3W) oraz Wybrane techniki analizy graficznej.

Oczekiwane średnie brzegowe. Jeśli w obrębie układu ANOVA z predyktorami jakościowymi nie występują brakujące podklasy, to średnie subpopulacyjne są oczekiwanymi średnimi brzegowymi, które stanowią najlepsze estymatory liniowe o minimalnym obciążeniu dla średnich brzegowych układu (patrz Milliken i Johnson, 1986). Testy zróżnicowania oczekiwanych średnich brzegowych mają ważną własność polegającą na tym, że nie zależą od wyboru sposobu kodowania efektów dla zmiennych występujących w układzie w charakterze predyktorów jakościowych (np. użycia modelu z sigma-ograniczeniami albo modelu przeparametryzowanego) oraz od wyboru szczegółowej postaci uogólnionej odwrotności dla macierzy eksperymentu stosowanej przy rozwiązywaniu równań normalnych. Dlatego też, ogólnie mówiąc testy liniowych kombinacji oczekiwanych średnich brzegowych nie zależą od parametryzacji układu.

Dodatkowe informacje można znaleźć pod hasłami predyktor jakościowy, macierz eksperymentu, model z sigma-ograniczeniami, modelu przeparametryzowanego, uogólniona macierz odwrotna, a także w sekcji Ogólne modele liniowe oraz Ogólne modele regresji.

ODBC. ODBC (Open DataBase Connectivity) jest wprowadzonym przez firmę Microsoft standardem dostępu do baz danych, który umożliwia dostęp do szerokiego zakresu baz danych (np. MS Access, Oracle) i realizację zapytań poprzez język SQL.

Odchylenie radialne. Wartość liczbowa występująca w neuronach radialnych, przez którą przemnażany jest kwadrat odległości pomiędzy wektorem wag a wektorem wejściowym. Tak wyznaczony poziom aktywacji neuronu jest wejściem funkcji aktywacji. Patrz też, sieci neuronowe.

Odchylenie standardowe. Odchylenie standardowe (ang. standard deviation, termin ten został po raz pierwszy użyty przez Pearsona, 1894) jest najczęściej wykorzystywaną miarą zmienności. Odchylenie standardowe w populacji jest obliczane ze wzoru:

= [(xi-µ)2/N]1/2

gdzie:
µ     oznacza średnią w populacji
N    oznacza liczebność populacji.
Estymator odchylenia standardowego z próby jest obliczany ze wzoru:

s = [(xi-xśr)2/n-1]1/2

gdzie:
xśr   oznacza średnią z próby
n     oznacza liczność próby.

Patrz także, Statystyki opisowe - Wprowadzenie.

Odchylenie. Dla oceny dobroci dopasowania uogólnionego modelu liniowego obliczana jest zazwyczaj statystyka Odchylenie. Definiuje się ją wzorem:

Odchylenie = -2 * (Lm - Ls)

gdzie Lm oznacza zlogarytmowaną wartość największej wiarygodności dla rozważanego modelu, a Ls wartość logarytmu wiarygodności dla modelu nasyconego, tzn. najbardziej złożonego modelu dla aktualnie wybranego rozkładu i funkcji wiążącej. Szczegóły obliczeniowe można znaleźć w książce Agresti (1996).

Patrz także opis modułu Uogólnione modele liniowe i nieliniowe.

Odległość Cooka. Jest to miara wpływu danego przypadku na równanie regresji. Wykazuje ona różnicę między wyznaczonymi wartościami współczynników B, a wartościami obliczonymi przy wyłączeniu danego przypadku z obliczeń. Wszystkie odległości powinny być tego samego rzędu. Jeśli nie są, to można przypuszczać, że dany przypadek (przypadki) miał istotny wpływ na obciążenie współczynników równania regresji.

Dodatkowe informacje można znaleźć pod hasłami: reszty standaryzowane, odległość Mahalanobisa i reszty usunięte.

Odległość euklidesowa. Jest to po prostu geometryczna odległość w przestrzeni wielowymiarowej. Oblicza się ją następująco:

odległość(x,y)={Si (xi - yi )2}1/2

Zauważmy, że odległości euklidesowe (oraz ich kwadraty) są wyliczane w oparciu o surowe dane, a nie z danych standaryzowanych. Więcej o odległości euklidesowej i innych miarach odległości można znaleźć w opisie miar odległości we wprowadzeniu do Analizy skupień.

Odległość Mahalanobisa. O zmiennych niezależnych (występujących w równaniu regresji) można myśleć w ten sposób, że rozpinają one wielowymiarową przestrzeń, w której każda obserwacja (pomiar) stanowi jeden punkt. Można w ten sposób wykreślić w tej przestrzeni także wartości średnie wszystkich zmiennych niezależnych. Ten "punkt średni" nazywany bywa też centrum rozkładu. Odległość Mahalanobisa jest odległością danego punktu pomiarowego (danej obserwacji) od centrum w przestrzeni wielowymiarowej zdefiniowanej przez skorelowane zmienne niezależne (jeśli zmienne niezależne są nieskorelowane, to odległość Mahalanobisa jest identyczna z odległością Euklidesową). Miara ta może stanowić wskaźnik pozwalający ustalić czy dana obserwacja może być zaliczona do odstających.

Dodatkowe informacje można znaleźć pod hasłami: standaryzowana reszta, usunięta reszta i odległość Cooka.

Odległość miejska (Manhattan). Miara odległości pomiędzy dwoma wektorami zdefiniowana jako średnia różnic we wszystkich wymiarach. Miara ta daje zwykle podobne wyniki jak odległość Euklidesowa, mniejszy jest tu jednak wpływ pojedynczych (w jednym wymiarze), dużych, odstających różnic, gdyż nie ma podnoszenia do kwadratu.

Patrz też, analiza skupień.

Odstające obserwacje. Odstające obserwacje są (z definicji) nietypowe i występują rzadko. Są to punkty danych, które nie pokrywają się z rozkładem pozostałych danych. Może to odzwierciedlać rzeczywiste własności rozważanego zjawiska (zmiennej) lub inne anomalie, które nie powinny być uwzględniane w modelowaniu.

Z uwagi na sposób, w jaki wyznacza się linię regresji w analizie regresji wielorakiej (w szczególności chodzi o to, że opiera się on na minimalizacji nie sumy zwykłych odległości, ale sumy kwadratów odległości punktów od linii), obserwacje odstające mają duży wpływ na współczynnik kierunkowy linii regresji i w konsekwencji na wartość współczynnika korelacji. Nawet jedna obserwacja odstająca może poważnie zmienić współczynnik kierunkowy linii regresji i współczynnik korelacji.

Zauważmy, tak jak zaprezentowano to na poniższej animacji, że jedna obserwacja odstająca może znacząco wpływać na wysoką wartość współczynnika korelacji, który w przeciwnym wypadku (bez tej obserwacji odstającej) byłby bliski zeru. W związku z tym oczywistym staje się fakt, że nie należy wyciągać istotnych wniosków jedynie na podstawie wartości współczynnika korelacji (tj. zalecane jest obejrzenie odpowiedniego wykresu rozrzutu).

Zwrócmy uwagę, że jeżeli liczność próbki jest relatywnie mała, wtedy uwzględnianie lub nieuwzględnianie poszczególnych obserwacji, które nie są w tak oczywisty sposób odstające jak pokazane w poprzednim przykładzie może mieć również duży wpływ na nachylenie linii regresji (i współczynnik korelacji). Ilustruje to poniższy przykład, w którym nieuwzględniane punkty nazywamy "obserwacjami odstającymi", aczkolwiek można traktować je również jako obserwacje ekstremalne.

Zwykle wierzymy, że obserwacje odstające reprezentują błąd losowy, który chcielibyśmy kontrolować. Nie trzeba dodawać, że obserwacje odstające mogą nie tylko sztucznie zwiększyć wartość współczynnika korelacji, ale także zmniejszyć wartość "prawowitej" korelacji.

Dodatkowe informacje: elipsa obszaru ufności..

Odstające obserwacje (wykres ramka-wąsy). Wartości "znacznie" oddalone od środka rozkładu nazywane są odstającymi lub ekstremalnymi, jeżeli spełniają pewne warunki podane poniżej.

Na wykresach typu ramka-wąsy, wartości danych uważane są za odstające, jeżeli spełniony jest warunek:

wartość punktu danych > RG + WO*(RG - RD)
lub
wartość punktu danych < RD - WO*(RG - RD)

gdzie
RG    jest górną wartością ramki (np. średnia + błąd standardowy lub percentyl 75%),
RD    jest dolną wartością ramki (np. średnia - błąd standardowy lub percentyl 25%),
WO  jest współczynnikiem dla obserwacji odstających.

Poniżej zilustrowane są zakresy wartości odstających i ekstremalnych na przykładzie "klasycznego" wykresu ramka-wąsy (więcej informacji zob. Tukey, 1977).

Odwrotna częstość dokumentowa. Odwrotna częstość dokumentowa (ang. inverse document frequency) jest użytecznym wskaźnikiem stosowanym w text mining do jednoczesnego wyrażenia częstości występowania słowa lub frazy w zbiorze dokumentów oraz ich właściwości semantycznych, tzn. częstości występowania w konkretnych dokumentach w zbiorze.

Załóżmy, że w zbiorze dokumentów tekstowych wyznaczyliśmy liczbę wystąpień (wf) każdego słowa lub frazy w poszczególnych dokumentach. Badacza może interesować względna częstość w całym zbiorze (df) dla różnych słów, np. w jakiej części dokumentów wystąpił dany wyraz. Przykładowo słowo "znajdować" będzie występować często w wielu dokumentach, natomiast "oprogramowanie" pojawi się w kilku z nich. Wynika to z tego, że wyraz "znajdować" wykorzystywany jest w bardzo wielu kontekstach, a słowo "oprogramowanie" pojawi się w dokumentach o tematyce związanej z komputerami. Powszechnie stosuje się wskaźnik odwrotna częstość dokumentowa (ang. inverse document frequency) łączący informację o semantycznej specyficzności słowa (częstość dokumentową) i liczbę wystąpień w konkretnym dokumencie (i to indeks słowa, a j dokumentu):

W powyższym wzorze (por. Manning i Schütze, 2002) N to całkowita liczba dokumentów, dfi to częstość dokumentowa dla i-tego słowa (liczba dokumentów, w których ono wystąpiło). Jak widać, wskaźnik zależy od częstości słowa ("spłaszczonej" przez funkcję logarytmiczną) i wagi, tym mniejszej, im powszechniej dany wyraz występuje w całym zbiorze (jeśli słowo pojawia się w każdym dokumencie, to dfi=N i wskaźnik idf = 0), a przyjmującej wartość maksymalną, gdy słowo pojawia się dokładnie w jednym dokumencie. Łatwo można zauważyć, jak wskaźnik idf odzwierciedla zarówno względną częstość słowa, jak i jego związek ze znaczeniem poszczególnych dokumentów (a więc podziałem ich na kategorie) branych pod uwagę w analizie.

Więcej informacji można znaleźć w pracy Manning i Schütze (2002).

Odwrotność typu g2. Odwrotność typu g2 jest uogólnioną odwrotnością prostokątnej macierzy A, która spełnia równości:

AA`A=A

oraz

A`AA`=A

Odwrotność typu g2 jest wykorzystywana do znajdywania rozwiązań równań normalnych w przypadku ogólnego modelu liniowego. Dalsze szczegóły można znaleźć w opisie GLM oraz pod hasłami macierz osobliwa, odwrotność macierzy.

Odwzorowywanie predykcyjne. Wykorzystując wielowymiarową analizę korespondencji można przeprowadzić równoważną regresji wielorakiej analizę danych jakościowych przez wprowadzenie dodatkowych kolumn do macierzy kodowania (zob. tablice Burta). Na przykład załóżmy, że mamy macierz kodowania zawierającą różne wskaźniki jakościowe zdrowia związane z zachowaniem (np. czy osoba paliła, uprawiała sport itd.). Moglibyśmy dodać dwie kolumny zawierające informacje, czy dana osoba chorowała, czy nie, w ciągu ostatniego roku (tzn. moglibyśmy dodać jedną kolumnę Chorował i drugą kolumnę Nie chorował, i wprowadzić zera i jedynki wskazujące stan zdrowia każdej osoby). Jeśli w prostej analizie korespondencji macierzy kodów dodalibyśmy te kolumny jako kolumny dodatkowe w tej analizie, to (1) sumaryczne statystyki jakości reprezentacji (zob. Wprowadzenie do Analizy korespondencji) dla tych kolumn powiedziałyby nam, na ile dobrze możemy "wyjaśnić" chorobę jako funkcję pozostałych zmiennych w macierzy kodów oraz (2) obraz punktów reprezentujących kolumny w ostatecznym układzie współrzędnych wskazywałby na naturę (np. kierunek) zależności między kolumnami w macierzy kodów a punktami kolumn wskazującymi chorobę. Technikę tę (dodawania punktów dodatkowych do wielowymiarowej analizy korespondencji) nazywa się także odwzorowywaniem predykcyjnym.

Ogólna ANOVA/MANOVA. Celem analizy wariancji (ANOVA) jest testowanie istotności różnic między średnimi poprzez porównanie (tj. analizę) wariancji. Dokładniej mówiąc, przez podział całkowitej wariancji na różne źródła (powiązane z efektami występującymi w rozważanym układzie) mamy możliwość porównania wariancji odpowiadającej zmienności pomiędzy grupami (lub zabiegami) ze zmiennością wewnątrz grup. Zakładając prawdziwość hipotezy zerowej (mówiącej o braku różnic średnich pomiędzy grupami lub zabiegami w populacji) możemy spodziewać się, że wariancja oszacowana w oparciu o zmienność wewnątrzgrupową powinna być w przybliżeniu równa wariancji szacowanej w oparciu o zmienność międzygrupową.

Szczegółowe omówienie można znaleźć w sekcji ANOVA/MANOVA.

Ogólny model liniowy. Ogólny model liniowy jest uogólnieniem modelu regresji liniowej, umożliwiającym testowanie efektów (1) zarówno dla predyktorów jakościowych, jak i dla predyktorów o charakterze ciągłym oraz (2) zarówno w przypadku układów zawierających wiele zmiennych zależnych, jak i układów z jedną zmienną zależną.

Omówienie zagadnienia ogólnego modelu liniowego można znaleźć we wprowadzeniu do Ogólnych modeli liniowych (GLM).

Okno Bartletta. W analizie szeregów czasowych, okno Bartletta jest transformacją ważonej średniej ruchomej stosowaną do wyrównania wartości periodogramu. W oknie Bartletta (Bartlett, 1950) wagi oblicza się jako:

wj = 1-(j/p)    (dla j = 0,...,p),
w-j = wj    (dla j 0),

gdzie p = (m-1)/2 oraz m jest szerokością okna średniej ruchomej (kroczącej), która to liczba musi być nieparzysta.

Ta funkcja wag przypisze największą wagę obserwacji wyrównywanej w środku okna i stopniowo mniejsze wagi wartościom, które leżą dalej od środka.

Patrz także, Analiza widmowa - Podstawowa notacja i zasady.

Okno Daniella (równych wag). W analizie szeregów czasowych, okno Daniella (Daniell 1946) to przekształcenie ważonej średniej ruchomej, stosowane do wyrównania wartości periodogramu. Jest to prosta transformacja (równych wag) średniej ruchomej, to znaczy każda wartość gęstości widmowej jest obliczana jako średnia z m/2 poprzedzających i późniejszych wartości periodogramu. Zauważmy także, że w module szeregów czasowych wagi są standaryzowane tak, by sumowały się do 1.

Patrz też, Analiza widmowa - Podstawowa notacja i zasady.

Okno Hamminga. W analizie szeregów czasowych, okno Hamminga jest transformacją ważonej średniej ruchomej stosowaną do wyrównania wartości periodogramu. W oknie Hamminga (nazwanym od R. W. Hamminga) lub oknie Tukeya-Hamminga (Blackman i Tukey, 1958), dla każdej częstotliwości, wagi dla ważonej średniej ruchomej wartości periodogramu oblicza się jako:

wj = 0.54 + 0.46*cos(*j/p)    (dla j=0,...,p)
w-j = wj    (dla j 0)

gdzie p = (m-1)/2.

Ta funkcja wag przypisze największą wagę obserwacji wyrównywanej w środku okna i stopniowo mniejsze wagi wartościom, które leżą dalej od środka.

Dodatkowe informacje można znaleźć także w sekcji Analiza widmowa - Podstawowa notacja i zasady w rozdziale Analiza szeregów czasowych.

Okno Parzena. W analizie szeregów czasowych, okno Parzena jest transformacją ważonej średniej ruchomej stosowaną do wyrównania wartości periodogramu. W oknie Parzena (Parzen, 1961), dla każdej częstotliwości, wagi dla ważonej średniej ruchomej wartości periodogramu oblicza się jako:

wj = 1-6*(j/p)2 + 6*(j/p)3    (dla j = 0 ... p/2),
wj = 2*(1-j/p)3    (dla j = p/2 + 1 ... p),
w-j = wj    (dla j 0),

gdzie p = (m-1)/2.

Ta funkcja wag przypisze największą wagę obserwacji wyrównywanej w środku okna i stopniowo mniejsze wagi wartościom, które leżą dalej od środka.

Dodatkowe informacje: Analiza widmowa - Podstawowa notacja i zasady.

W sieciach neuronowych okno Parzena jest alternatywną nazwą techniki aproksymacji jądrowej stosowanej w probabilistycznych sieciach neuronowych oraz w sieciach realizujących regresję uogólnioną (Parzen, 1962).

Okno Tukeya. W analizie szeregów czasowych, okno Tukeya jest transformacją ważonej średniej ruchomej stosowaną do wyrównania wartości periodogramu. W przypadku okna Tukeya (Blackman i Tukey, 1958) lub Tukeya-Hanninga (nazwanym od Juliusa Von Hanna), przy każdej częstotliwości, wagi dla ważonej średniej ruchomej wartości periodogramu oblicza się jako:

wj = 0.5 + 0.5*cos(*j/p)    (dla j=0,...,p)
w-j = wj    (dla j 0)

gdzie p = (m-1)/2x.

Ta funkcja wag przypisze największą wagę obserwacji wyrównywanej w środku okna i stopniowo mniejsze wagi wartościom, które leżą dalej od środka.

Zob. Analiza widmowa - Podstawowa notacja i zasady.

OLAP (On-Line Analytic Processing) oraz FASMI. Termin On-Line Analytic Processing (OLAP) lub Szybka analiza informacji wielowymiarowej (Fast Analysis of Shared Multidimensional Information - FASMI) odnosi się do technologii, która umożliwia użytkownikom wielowymiarowych baz danych interakcyjne generowanie opisowych lub porównawczych zestawień ("przekrojów") oraz innych zapytań analitycznych.

Dodatkowe informacje można znaleźć w opisie On-Line Analytic Processing (OLAP) oraz hurtowni danych w rozdziale Techniki zgłębiania danych (data mining).

OLE DB. OLE DB (Object Linking and Embedding Database) jest wprowadzonym przez firmę Microsoft standardem dostępu do baz danych, który umożliwia dostęp do szerokiego zakresu baz danych (np. MS Access, Oracle). Architektura OLE DB umożliwia uniwersalną integrację danych z systemów korporacyjnych, od komputerów typu mainframe po komputery typu PC, niezależnie od typu danych. OLE DB zapewnia bardziej ogólny i wydajniejszy dostęp do danych niż starszy standard ODBC - umożliwia dostęp do większej ilości typów danych i oparty jest na technologii Component Object Model (COM).

Oprogramowanie skalowalne. Oprogramowanie (np. systemy zarządzania bazą danych takie jak MS SQL Server lub Oracle), które można rozbudowywać w miarę rosnących potrzeb bez zmian jego architektury. Przykładowo, skalowalna sieć komputerowa może być rozbudowywana o kolejne stanowiska bez konieczności dokonywania zmian w jej podstawowej strukturze. Przykładem architektury nie skalowalnej jest zapisywanie plików w katalogach DOS - w tym przypadku dodawanie plików doprowadzi w końcu do konieczności podziału katalogu na podkatalogi. Patrz także systemy zintegrowane.

Oprogramowanie umożliwiające pracę grupową. Oprogramowanie umożliwiające współpracę grupie użytkowników korzystających z sieci komputerowej. W skład takiego oprogramowania mogą wchodzić narzędzia do wymiany informacji (np. poczta elektroniczna), pracy grupowej z dokumentami, wspólnego wykonywania analiz, tworzenia raportów, planowania. Dokumenty mogą zawierać tekst, wykresy, rysunki i inne nośniki informacji (np. multimedia).






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.