Przeszukaj Internetowy Podręcznik Statystyki



Lambda Prim. Lambdę definiuje się jako iloczyn 1 minus kwadrat korelacji kanonicznych, gdzie lambda jest wartością lambdy Wilksa. Kwadrat korelacji kanonicznej jest estymatorem wariancji wspólnej między dwoma zmiennymi kanonicznymi, zatem 1 minus ta wartość jest estymatorem wariancji niewyjaśnionej. Lambda jest stosowana jako test istotności dla kwadratu korelacji kanonicznej i ma rozkład chi-kwadrat (patrz poniżej).

2 = [-N -1 - {.5(p+q+1)}] * loge

gdzie
N    jest liczbą obiektów,
p     jest liczbą zmiennych po prawej stronie,
q     jest liczbą zmiennych po lewej stronie.

Latent Semantic Indexing. In the context of text mining, the process of latent semantic indexing is concerned with the derivation of underlying dimensions of "meaning" from the words (terms) extracted from a collection of documents.

The most basic result of text mining is an initial indexing of words found in the input documents, and the computation of a frequency table with simple counts enumerating the number of times that each word occurs in each input document. Also, in practice, you can further transform those raw counts to indices that better reflect the (relative) "importance" of words and/or their semantic specificity in the context of the set of input documents (see, for example, inverse document frequencies).

Next, a common analytic tool for interpreting the "meaning" or "semantic space" described by the words that were extracted and, hence, by the documents that were analyzed, is to create a mapping of the words and documents into a common space, computed from the word frequencies or transformed word frequencies (e.g., inverse document frequencies). In general, here is how it works:

Suppose you index a collection of customer reviews of their new automobiles (e.g., for different makes and models). You may find that every time a review includes the word "gas-mileage," it also includes the term "economy." Further, when reports include the word "reliability" they also include the term "defects" (e.g., make reference to "no defects"). However, there is no consistent pattern regarding the use of the terms "economy" and "reliability," i.e., some documents include either one, both, or neither. In other words, these four words "gas-mileage" and "economy," and "reliability" and "defects," describe two independent dimensions - the first having to do with the overall operating cost of the vehicle, the other with quality and workmanship.

The idea of latent semantic indexing is to identify such underlying dimensions (of "meaning"), into which the words and documents can be mapped. As a result, you can identify the underlying (latent) themes described or discussed in the input documents, and also identify the documents that mostly deal with each dimension (e.g., economy, reliability, or both). In practice, singular value decomposition is often used to extract the underlying semantic dimensions from the matrix of (transformed) word counts across documents.

For more information, see Manning and Schütze (2002).

Liczba e. Liczba, będąca podstawą logarytmu naturalnego, nazywana też liczbą Eulera (od nazwiska szwajcarskiego matematyka Leonharda Eulera (1707-1783)), o wartości ok. 2,71828182834905...

Liczba zwycięstw (w sieciach neuronowych). W sieciach Kohonena, liczba wskazująca ile razy każdy z neuronów radialnych był "zwycięski", w trakcie podawania na wejście sieci zbioru danych. Neurony, które często zwyciężały reprezentują zwykle centra skupień na mapie topologicznej. Patrz Sieci neuronowe.


Liczby losowe (równomierne). Różnorodne techniki generowania liczb losowych o rozkładzie równomiernym są omawiane w pracy Press, Teukolsky, Vetterling, Flannery (1995). Generator liczb losowych o rozkładzie równomiernym zastosowany w programie STATISTICA stanowi wdrożenie i połączenie technik omówionych w pracy Press, Teukolsky, Vetterling, Flannery (1995). Generator ten przeszedł pomyślnie zestaw testów DIEHARD (Marsaglia, 1998). DIEHARD stosuje różne metody gromadzenia i kombinacji liczb losowych, po czym wykonuje testy statystyczne. DIEHARD stał się standardową metodą sprawdzania jakości generatorów liczb losowych (por. McCullough, 1998, 1999).

Zob. także: liczby losowe o zadanym rozkładzie oraz DIEHARD - testy liczb losowych.

Liczby losowe o zadanym rozkładzie. Liczby losowe można generować dla rozkładów ciągłych i dyskretnych metodą dystrybuanty odwrotnej (Muller, 1959; Evans, Hastings, Peacock, B., 1993). Najpierw generowane są liczby losowe o rozkładzie równomiernym (jednorodnym, prostokątnym), po czym wyliczane są dla nich wartości funkcji odwrotnej do dystrybuanty wybranego rozkładu - uzyskane w ten sposób wartości mają ten rozkład.

W praktyce należy zwrócić uwagę, aby liczby losowe generowane na pierwszym etapie nie były zbyt bliskie 0 i 1, ponieważ może to powodować uzyskanie w wyniku całej procedury braków danych. Przykładowo, jeśli generujemy liczby losowe o rozkładzie Weibulla z parametrem skali 0,5, kształtu 0,6 i wartością progową 10. Aby wygenerować te wartości używamy formuły:

=invWeibull(rnd(1)*.99999+.000001,.5,.6,10)

Zwróćmy uwagę, że funkcja rnd(1) zwraca liczby o rozkładzie jednorodnym w przedziale od 0 do 1, a mnożenie ich przez 0,99999 i dodanie 0,000001 gwarantuje, że funkcja odwrotna do dystrybuanty rozkładu Weibulla (invWeibull) nie zostanie wywołana dla wartości p zbyt bliskich 0 lub 1, dla których mogłaby zwrócić braki danych (stałe użyte w formule zapewniają,że 0,000001<=p<=0,999991). Dzięki temu wszystkie wartości wyznaczone z formuły będą poprawne i będą miały rozkład Weibulla (pomijając skrajne wartości dla tego rozkładu).

Estymacja bayesowska; Monte Carlo; Losowanie Gibbsa. Techniki takie jak estymacja bayesowska wymagają szybkich, wydajnych i "precyzyjnych" generatorów liczb losowych. Dostępnych jest wiele specjalistycznych bibliotek przeznaczonych do generowania liczb losowych i prowadzonych jest wiele badań w tej dziedzinie w celu udoskonalenia technik generowania liczb losowych i ich stosowania.

Zob. także DIEHARD - testy liczb losowych.

Liczby zespolone. Liczby zespolone obejmują liczby rzeczywiste i liczby urojone. Liczbę zespoloną przedstawić można jako sumę a+ib, gdzie a i b są liczbami rzeczywistymi, a i to jednostka urojona, czyli liczba, której kwadrat wynosi -1 ( i*i = -1).

Patrz też: Analiza widma wzajemnego w rozdziale Szeregi czasowe.

Liczności brzegowe. W przypadku tabel krzyżowych (wielodzielczych), wartości sum występujących z prawej strony (na marginesie) tabeli reprezentują jednokierunkowe tabele (liczności) dla wszystkich wartości występujących w tabeli. Ich znaczenie polega na tym, że umożliwiają nam ocenę rozkładu liczności w pojedynczych wierszach (lub kolumnach), a w odpowiednich miejscach z boku i u dołu tabeli zawierają informacje na temat związków pomiędzy zmiennymi, które zostały poddane klasyfikacji krzyżowej.

Więcej informacji na temat liczności brzegowych można uzyskać w sekcji Analiza tabel wielodzielczych i tabel zbiorczych w rozdziale Statystyki podstawowe.

Linia n-punktowej średniej ruchomej. Każdy punkt tej linii średniej ruchomej reprezentuje średnią odpowiedniej próby oraz n-1 poprzedzających prób. Stąd też, linia będzie powodowała wygładzenie układu średnich kolejnych prób, umożliwiając inżynierowi kontroli jakości wykrywanie trendów. Możemy określić liczbę prób (n), które mają zostać uśrednione dla każdego punktu wykresu (w tym kontekście czasem stosowana jest także nazwa okno średniej ruchomej).

Więcej informacji można znaleźć w rozdziale Analiza szeregów czasowych.

Linia średniej ruchomej ważonej wykładniczo. Ten typ średniej ważonej jest uogólnieniem zwykłej średniej ruchomej. Kolejne punkty tej średniej ruchomej oblicza się wg wzoru:

zt = *x-śrt + (1-)*z t-1

We wzorze tym kolejny punkt średniej zt oblicza się jako (lambda) razy kolejna wartość xt, dodać x- śrt razy poprzednia (obliczona) wartość średniej. Parametrowi (lambda) nadaje się wartość większą od 0, a mniejszą od 1, np. 0,1, przy czym im mniejsze , tym silniejsze wygładzanie. Wzór ten jest zwykłym wzorem wyrównywania wykładniczego. W wykładniczej średniej ruchomej waga pomiarów maleje geometrycznie z ich "wiekiem". Średnia ruchoma ułatwia dostrzeżenie trendów i długoterminowych fluktuacji.

Linie rzutu (wykresy 3W). W przypadku tego typu wykresu, pojedyncze wartości jednej lub wielu serii danych są przedstawiane wzdłuż osi X, w postaci serii "rzutów punktów" (symboli punktów z liniami opadającymi na płaszczyznę podstawy). Każda seria, która ma być wykreślana jest umieszczana wzdłuż osi Y. "Wysokość" każdego rzutu punktu jest określona przez odpowiednią wartość każdej serii.

Liniowa funkcja aktywacji. Jest to funkcja aktywacji, która nie zmienia wartości. Na wyjściu neuronu jest wartość równa jego poziomowi aktywacji.

Więcej informacji można znaleźć w części Sieci neuronowe.

Losowanie Gibbsa. Losowanie Gibbsa jest często stosowane w analizach Monte Carlo łańcuchów Markowa (Markov chain Monte Carlo - MCMC). Jest to elegancka metoda wyboru próby z łącznego rozkładu wielu zmiennych poprzez wielokrotne powtarzanie losowania z jednowymiarowych rozkładów warunkowych i w każdym kolejnym kroku wykorzystywanie jako wartości do obliczania rozkładów warunkowych wielkości wylosowanych w poprzednim kroku.

Przykładowe wartości pochodzące z łącznego rozkładu dwóch zmiennych losowych X i Y, możemy łatwo wygenerować stosując losowanie Gibbsa i rozkłady warunkowe zamiast rozkładu dwuwymiarowego. Zaczynamy od ustalenia pewnych wartości zmiennych X i Y (x0 i y0), po czym losujemy wartość X z rozkładu warunkowego przy zadanej wartości Y (y0) i wartość Y z rozkładu warunkowego przy zadanej wartości X (x0). W kolejnych krokach postępujemy analogicznie dla rozkładów warunkowych biorąc wartości uzyskane w poprzednich krokach. Procedura ta pozwala uzyskać wartości o odpowiednim rozkładzie łącznym X i Y. Im więcej kroków losowania wykonamy, tym dokładniejsze będzie przybliżenie rozkładu teoretycznego przez rozkład generowanych wartości.

Losowanie z jednakowymi prawdopodobieństwami wyboru (EPSEM). Losowanie z jednakowymi prawdopodobieństwami wyboru (EPSEM) to wybór probabilistyczny, w którym wszystkie jednostki losowania mają takie samo, znane prawdopodobieństwo wybrania do próby (EPSEM to skrót od equal probability of selection method sampling; w pracy Kish, 1965, znajduje się dogłębne omówienie metod losowania).Próby wyłonione przez losowanie z jednakowymi prawdopodobieństwami wyboru, mają pewne pożądane właściwości, np. proste wzory na obliczenie średnich, odchyleń standardowych itd. w populacji.

Losowy wybór próby w Data Mining. Gdy mamy do czynienia z wielką liczbą przypadków (wieloma milionami), uwzględnianie ich wszystkich w analizie jest niepraktyczne i niepożądane (pomimo tego, że istnieją wydajne algorytmy uczące się przyrostowo, pozwalające wykonywać predykcyjny data mining). Przykładowo wystarczy wylosować 100 przypadków spośród milionów obserwacji, aby wiarygodnie wyznaczyć średnią w całej zbiorowości. Jedną z zasad statystycznego doboru próby, która nie jest oczywista dla osób nie mających przygotowania statystycznego, jest to, że wiarygodność i istotność wyników, zależy od wielu czynników, w tym także od liczności próby, ale praktycznie nie zależy od liczności populacji generalnej (całej zbiorowości). Przykładowo średnia wyznaczona dla próby o liczności 100 jest praktycznie równie dokładna dla zbiorowości o liczności 100 000 i 100 000 000. Wynika z tego, że przy zadanej dokładności wystarczy pobrać próbę o pewnej określonej liczności i nie trzeba przetwarzać danych dla wszystkich obserwacji, którymi dysponujemy (przykładowo gdybyśmy chcieli oszacować średni podatek dochodowy z zadaną dokładnością, to wystarczy losowo wybrać stosunkowo małą próbę zeznań podatkowych, a nie uwzględniać w analizie wszystkich zeznań, którymi dysponujemy; dodatkowo liczność tej próby nie zależy od tego czy interesuje nas średnia dla jednego województwa, czy dla całej Polski).

LVQ (w sieciach neuronowych). Algorytm LVQ (Learned Vector Quantization - Adaptacyjne kwantowanie wektorowe) opracowany został przez Tuevo Kohonena (Fausett, 1994; Kohonen, 1990), który stworzył też samoorganizującą się mapę cech (nazywaną tu siecią Kohonena).LVQ jest nadzorowaną wersją algorytmu uczącego Kohonena. Standardowy algorytm Kohonena iteracyjnie dopasowuje położenia wektorów wzorcowych, przechowywanych w warstwie radialnej sieci Kohonena, rozpatrując jedynie pozycje istniejących wektorów i dane uczące. W istocie, algorytm próbuje przemieścić wektory wzorcowe na pozycje odpowiadające centrom skupień występujących w danych. Nie są przy tym brane pod uwagę etykiety klas przypadków uczących. Dla osiągnięcia najlepszej jakości klasyfikacji pożądane jest, aby wektory wzorcowe rozmieszczane były, w pewnym stopniu w zakresie klas. Tak, by reprezentowały naturalne skupienia wewnątrz każdej klasy. Wektor zlokalizowany na granicy klas, w jednakowej odległości od przypadków z jednej i drugiej klasy, jest nieprzydatny do klasyfikowania. Natomiast wektory znajdujące się dokładnie wewnątrz granic klas działają bardzo dobrze.

Istnieje kilka wariantów algorytmu LVQ. Podstawowa wersja, LVQ1, jest bardzo podobna do algorytmu uczącego Kohonena, gdzie wyszukiwany jest wektor najbliższy danego przypadku uczącego i odpowiednio modyfikowane jest jego położenie. O ile jednak algorytm Kohonena przesuwa wektor w stronę przypadku uczącego, to LVQ1 sprawdza zgodność klas wektora i przypadku. Jeśli są zgodne, wektor wzorcowy przesuwany jest w stronę przypadku uczącego a w przeciwnym przypadku odsuwany jest od niego. Bardziej wyszukane są algorytmy LVQ2.1 i LVQ3, uwzględniają one więcej informacji. Wyszukują dwa wektory najbliższe danemu przypadkowi uczącemu. Jeżeli jeden z wektorów ma klasę zgodną z przypadkiem, a drugi niezgodną, to zgodny wektor przesuwany jest do przypadku a niezgodny odsuwany jest od przypadku uczącego. LVQ3 przybliża oba wektory do przypadku jeżeli oba mają zgodne z przypadkiem klasy. W obydwu algorytmach, LVQ2.1 i LVQ3, zasadą jest odsuwanie wektorów wzorcowych od miejsc zagrożonych błędnymi klasyfikacjami.

Szczegóły techniczne. Podstawową regułą zmiany wag jest:

przy zgodności klasy wektora wzorcowego i przypadku uczącego, a

przy niezgodności.

x jest przypadkiem uczącym, ht jest współczynnikiem uczenia.

W algorytmie LVQ2.1, korygowane są dwa najbliższe wektory wzorcowe, ale tylko wtedy, gdy jeden jest zgodnej klasy, drugi niezgodnej, a oba są w "podobnej" odległości od przypadku uczącego. Jakie odległości są "podobne" określa parametr e, i poniższe wzory:

W algorytmie LVQ3 nieco inny jest wzór określający "podobne" odległości:

Ponadto, w LVQ3, w przypadku gdy oba najbliższe wektory wzorcowe są tej samej klasy co przypadek uczący, to oba są przysuwane do przypadku, z aktualnym, dla danej epoki współczynnikiem uczenia pomnożonym przez współczynnik beta, którego wartość określana jest przez użytkownika.

Łączenie mianownika. Metoda opracowana przez Satterthwaite'a (1946), polegająca na znajdowaniu liniowej kombinacji źródeł zmienności losowej, która jest następnie wykorzystywana jako wyrażenie opisujące błąd przy testowaniu istotności odpowiednich efektów, w mieszanych modelach ANOVA/ANCOVA.

Patrz też: Wprowadzenie do Komponentów wariancyjnych i Wprowadzenie do Ogólnych modeli liniowych (GLM).

Łączenie w bloki (w planowaniu doświadczeń). W przypadku niektórych doświadczeń, obserwacje podzielone są na naturalne "zestawy" lub inaczej bloki. Należy uzyskać pewność, że podział ten nie obciąża wartości estymatorów efektów głównych. Przykładem może być piec przemysłowy do produkcji specjalnych wyrobów ceramicznych, którego rozmiar uniemożliwia wykonanie za jednym razem wszystkich układów planu doświadczenia. W takiej sytuacji należy podzielić plan doświadczenia na bloki. Jednakże nie należy umieszczać wszystkich dodatnich (+1) wartości zmiennych w jednym bloku, a wszystkich ujemnych (-1) w drugim, gdyż jakiekolwiek przypadkowe różnice pomiędzy blokami mogłyby w sposób systematyczny wpływać na wartości wszystkich estymatorów efektów głównych wielkości wejściowych. Należy tak rozdzielić układy planu pomiędzy blokami, aby jakiekolwiek różnice pomiędzy blokami stanowiące tzw. czynnik blokowości (ang.blocking factor) nie obciążały wpływu poszczególnych wielkości wejściowych. Uzyskuje się to poprzez traktowanie czynnika blokowości jako dodatkowej wielkości wejściowej planu doświadczenia. Plany takie bywają korzystniejsze, gdyż pozwalają na estymację i kontrolę zmienności procesu produkcyjnego powodowaną przez różnicę pomiędzy blokami.

Szczegółowe omówienie zagadnienia łączenia w bloki oraz przykłady rożnych planów można znaleźć w opisie Planowania doświadczeń oraz analiz w części Ogólne modele liniowe.






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.