A Ä B = a ij B
Na przykład, jeśli

i
,
to
.
Iloczyn Kroneckera ma wiele użytecznych własności (ich opis można znaleźć w książce Hockinga, 1985).
Iloraz odchyleń standardowych.
Jest to miernik jakości modeli stosowany w problemach regresyjnych. Wyznacza się go
jako iloraz odchylenia standardowego błędów predykcji i odchylenia standardowego zmiennej wyjściowej. Mniejsza wartość
miernika wskazuje na lepszą jakość predykcji. Jest on równoważny wyrażeniu jeden minus wariancja wyjaśniona przez
model. Tematy pokrewne: regresja wieloraka, sieci neuronowe.
Iloraz szans. Iloraz szans jest pomocny przy interpretacji wyników regresji logistycznej (zob. Neter, Wasserman i Kutner, 1989) i jest obliczany w oparciu o tablicę klasyfikacji 2x2, która wyświetla prognozowany i zaobserwowany rozkład przypadków dla zmiennej losowej dychotomicznej:
(f11 * f22)/(f12 * f21)
gdzie fij reprezentują odpowiednie liczebności w tablicy 2x2..
Interakcje. Efekt interakcji pojawia się w przypadku, gdy zależność występująca pomiędzy (przynajmniej) dwiema zmiennymi jest modyfikowana przez (przynajmniej jedną) inną zmienną. Inaczej mówiąc, siła lub znak (kierunek) zależności pomiędzy zmiennymi jest różna w zależności od wartości pewnej innej zmiennej (lub zmiennych). (Pojęcie interakcja zostało pierwszy raz użyte przez Fishera, 1926). Zauważmy, że użyte w tym kontekście sformułowanie "modyfikowana" nie oznacza przyczynowości, lecz odzwierciedla prosty fakt polegający na tym, że w zależności od tego jaki podzbiór obserwacji (wyznaczony wartością zmiennej "modyfikującej") rozważamy, możemy mieć do czynienia z różnymi związkami występującymi pomiędzy pozostałymi zmiennymi.
Wyobraźmy sobie przykładowo, że mamy do czynienia z grupą studentów nastawionych na osiągnięcia oraz drugą grupę pozbawioną tych dążeń. Utwórzmy następnie w sposób losowy dwie podgrupy, w każdej z prób i wśród studentów jednej podgrupy przeprowadźmy test o wysokim stopniu trudności, a wśród studentów drugiej połowy test o niskim poziomie trudności. Mierzymy stopień w jakim studenci pracowali nad testem. Uzyskane w tym (fikcyjnym) badaniu średnie mogłyby być następujące:
| Nastawieni na osiągnięcia | Nie nastawieni na osiągnięcia | |
|---|---|---|
| Test wymagający Test łatwy | 10 5 | 5 10 |
W jaki sposób moglibyśmy podsumować te wyniki? Czy możemy wyciągnąć wniosek, że (1) testy bardziej wymagające powodują, że studenci pracują bardziej intensywnie, (2) studenci nastawieni na osiągnięcia pracują intensywniej od studentów nie nastawionych na osiągnięcia? Żadne z tych stwierdzeń nie odzwierciedla istoty tych wyraźnie regularnych relacji pomiędzy średnimi. Odpowiednim sposobem podsumowania wyników byłoby stwierdzenie, że testy wymagające powodują intensywniejszą pracę tylko wśród studentów nastawionych na osiągnięcia, podczas gdy łatwe testy wpływają mobilizująco na studentów nie nastawionych na osiągnięcia. Inaczej mówiąc, rodzaj nastawienia na osiągnięcia oraz stopień trudności testu współdziałają we wpływie na wysiłek studentów, w szczególności jest to przykład dwuczynnikowej interakcji pomiędzy nastawieniem na osiągnięcia a stopniem trudności testu. Zauważmy, że stwierdzenia 1 i 2 zamieszczone powyżej opisują tzw. efekty główne.
Więcej informacji o interakcji można znaleźć w opisie efektów interakcji.
Interpolacja. Przeprowadzenie krzywej pomiędzy dwoma danymi punktami, w celu wyznaczenia wartości funkcji w punktach pośrednich.
Istotność statystyczna (poziom p). Istotność statystyczna wyniku jest estymowaną miarą stopnia, w jakim jest on "prawdziwy" (w sensie "reprezentatywny" dla populacji). Wartość poziomu p reprezentuje malejący wskaźnik rzetelności wyniku. Im wyższy poziom p, tym mniej możemy wierzyć, że zaobserwowana zależność między zmiennymi w próbie jest rzetelnym wskaźnikiem zależności między odpowiednimi zmiennymi w populacji. W szczególności poziom p reprezentuje prawdopodobieństwo błędu, związanego z przyjęciem zaobserwowanego wyniku jako prawomocnego, to znaczy jako "reprezentatywnego dla populacji". Na przykład poziom p równy 0,05 (tzn. 1/20) wskazuje, że istnieje 5% prawdopodobieństwo, że zależność między zmiennymi wykryta w naszej próbie jest dziełem przypadku. Innymi słowy, gdybyśmy, zakładając, że w populacji nie ma żadnej zależności między tymi zmiennymi, powtarzali eksperymenty jeden po drugim, moglibyśmy oczekiwać, że w przybliżeniu co 20 powtórzeń eksperymentu trafiłby się jeden, w którym zależność między naszymi zmiennymi byłaby równa lub silniejsza od tej uprzednio przez nas zaobserwowanej. W wielu obszarach badawczych poziom p równy 0,05 jest zwyczajowo traktowany jako graniczny akceptowalny poziom błędu.
Patrz także, Podstawowe pojęcia statystyki..
Iteracje najszybszego spadku. Gdy wartości początkowe dla parametrów są dalekie ostatecznemu minimum, przybliżony hesjan stosowany w procedurze Gaussa-Newtona może nie doprowadzić do właściwego kierunku przebiegu w czasie iteracji. W takim przypadku program może iterować w obszary przestrzeni parametrów, z których powrót (tzn. pomyślna iteracja do prawdziwego punktu minimum) jest niemożliwy. Jedna z możliwości oferowanych przez modelowanie równań strukturalnych (SEPATH) polega na poprzedzeniu procedury Gaussa-Newtona kilkoma iteracjami wykorzystującymi "metodę najszybszego spadku". W podejściu najszybszego spadku, wartości wektora parametrów q w każdej iteracji otrzymuje się jako:
k+1 =
k +
kgk
Prościej mówiąc, oznacza to, że nie używa się hesjanu do pomocy w znalezieniu kierunku dla następnego kroku. Zamiast tego, stosuje się tylko pochodną informację w gradiencie.
Wskazówka dla początkujących. Wstawienie kilku Iteracji najszybszego spadku może pomóc w sytuacjach, gdy procedura iteracyjna "zgubiła się" po zaledwie kilku iteracjach.
IV. IV oznacza zmienną niezależną (ang. Independent Variable). Zob. także zmienne niezależne a zmienne zależne.
Jakobian (macierz Jacobiego). Macierz pierwszych pochodnych funkcji F wielu parametrów nazywamy macierzą Jacobiego lub jakobianem (najczęściej oznaczamy ją symbolem J). Jakobian odgrywa ważną rolę w wielu algorytmach estymacji wartości parametrów w problemach regresji nieliniowej, w szczególności w metodach Gaussa-Newtona i Levenberga-Marquardta. Więcej informacji o estymacji nieliniowej można znaleźć w sekcji Estymacja nieliniowa.
Jakość (w analizie korespondencji). Termin jakość w analizie korespondencji odnosi się do jakości odwzorowania odpowiedniego punktu wiersza w układzie współrzędnych zdefiniowanym przez odpowiednią, wybraną przez użytkownika liczbę wymiarów. Jakość punktu definiuje się jako stosunek kwadratu odległości tego punktu od początku układu o wybranej liczbie wymiarów do kwadratu odległości od początku układu w przestrzeni zdefiniowanej przez maksymalną liczbę wymiarów (pamiętajmy, że metryką w typowej analizie korespondencji jest chi-kwadrat). Przez analogię do analizy czynnikowej, jakość punktu ma podobną interpretację jak zasób zmienności wspólnej zmiennej w analizie czynnikowej.
Niska jakość oznacza, że aktualna liczba wymiarów nie reprezentuje dobrze danego wiersza (lub kolumny).
"Jednostronne" zakresy lub słupki błędów na wykresach zakresu. Aby wyświetlić "jednostronne" zakresy (względem punktu środkowego) lub słupek błędu rozciągający się tylko w jednym kierunku, ustawiamy na 0 wartości zmiennej definiującej odchylenie, którego ma "nie być" na wykresie (gdy został wybrany tryb Względem środka) lub nadajemy tej zmiennej wartość równą wartości punktu środkowego (gdy został wybrany tryb Bezwzględne).

JPEG. Akronim pochodzący od nazwy Połączona Grupa Ekspertów Fotografii (Joint Photographic Experts Group). Standard w zakresie zapisywania obrazów w postaci skompresowanej, wykorzystujący dyskretną transformację cosinusową, wprowadzony przez Międzynarodową Organizację Normalizacyjną (ISO) i Międzynarodową Unię Telekomunikacyjną (ITU).
JPG. Rozszerzenie nazwy pliku stosowane w przypadku zapisywania dokumentów w formacie JPEG.
Kara za cechę. W niektórych algorytmach poszukiwania optymalnych sieci neuronowych, kara za cechę (zmienną wejściową, neuron) dodawana jest, po pomnożeniu przez liczbę neuronów, do błędu sieci. Przy porównywaniu sieci powoduje to preferowanie sieci mniejszych. Patrz też, funkcje kary.
Karta kontrolna Shewharta. Jest to standardowe narzędzie graficzne szeroko wykorzystywane w statystycznym sterowaniu jakością. Ogólna metoda postępowania przy wykreślaniu kart kontrolnych jest prosta. Pobieramy pewnego rozmiaru próbki, robimy wykresy (karty) zmienności w tych próbkach i interesujemy się tym jak blisko znajdują się cechy produktów z tych próbek od cech przez nas pożądanych. Jeżeli z wykreślonych przez nas kart wynika jakiś trend lub próbki nie spełniają pewnych wymagań stwierdzamy, że proces jest rozregulowany i próbujemy zlokalizować przyczynę. Ten rodzaj kart czasami nazywany jest kartami kontrolnymi Shewharta (powszechnie się uznaje, że W. A. Shewhart jako pierwszy wprowadził te metody - zobacz Shewhart 1931).
Dodatkowe informacje znajdziemy w rozdziale: Karty kontrolne i pod hasłem przypisywalne przyczyny i działania.
Karta Pareto. Karta Pareto jest prostą, ale skuteczną metodą identyfikacji przyczyn problemów dotyczących jakości i strat. Jest to wykres słupkowy liczby wystąpień problemów dla określonych kategorii (np. typ wady, oddział, linia technologiczna), uporządkowany wg liczności poszczególnych kategorii.

Zgodnie z zasadą Pareto, większość problemów z jakością jest powodowanych przez niewielką liczbę przyczyn. Innymi słowy, w większości przypadków kilka rodzajów przyczyn lub kilku operatorów odpowiada za większość problemów. Taki nierównomierny rozkład jest bardzo częsty i może być wykryty za pomocą karty Pareto.
Karta Pareto jest opisana w większości podręczników do statystycznego sterowania jakością, np. w Hart i Hart (1989), Juran (1962), Juran i Gryna (1970), Montgomery (1985, 1991), Pyzdek (1989) oraz Vaughn (1974).
Więcej informacji na ten temat można znaleźć w części poświęconej Sterowaniu jakością.
Karty kontrolne dla krótkich serii. Karty kontrolne sterowania jakością dla krótkich serii, prezentują przekształcone wartości obserwowane parametrów liczbowych lub ocen alternatywnych dla wielu części. Każdej części odpowiada "seria" na tej samej karcie. Wartości są tak przekształcane, aby wielkości mierzone dla różnych części można było ze sobą porównać. Granice kontrolne obliczone dla tak przekształconych wartości, mogą być wykorzystywane do monitorowania procesów produkcyjnych.
Kategoryzacja, grupowanie, przekroje, drążenie danych. Jest to jedna z najważniejszych, ogólnych metod analitycznych, polegająca na podzieleniu danych na kategorie w celu dokonania porównań pomiędzy otrzymanymi podzbiorami. Ta powszechnie używana technika jest znana pod wieloma określeniami (takimi jak analiza przekrojowa, grupowanie, kategoryzacja, kostki, drążenie danych itd.) i jest wykorzystywana zarówno w eksploracyjnej analizie danych, jak i w testowaniu hipotez. Na przykład, związek pomiędzy wiekiem oraz ryzykiem wystąpienia ataku serca może być inny u kobiet niż u mężczyzn (silniejszy u mężczyzn). Domniemywany związek pomiędzy zażywaniem określonego leku, a spadkiem poziomu cholesterolu może występować tylko u kobiet trzydziesto- czterdziestoletnich z niskim ciśnieniem. Wskaźniki zdolności procesu mogą być różne dla różnych operatorów. Współczynniki regresji mogą być różne dla różnych grup eksperymentalnych.
Jest wiele technik obliczeniowych bazujących na grupowaniu, przeznaczonych do ilościowego ujmowania różnic pomiędzy grupami (np. ANOVA/MANOVA). Jednakże techniki graficzne (takie jak wykresy skategoryzowane) mają wyjątkowe zalety i są nie do zastąpienia przez jakąkolwiek metodę obliczeniową. Mogą one ujawniać układy, trudne do ilościowego ujęcia (np. złożone interakcje, wyjątki i anomalie), są unikalnym, wielowymiarowym, ogólnym narzędziem eksploracji danych i data mining.
Klasyfikacja. Przypisywanie przypadków do jednej z określonej liczby klas (reprezentowanych w wyjściowej zmiennej nominalnej).
Klasyfikacja (w sieciach neuronowych). W zagadnieniach klasyfikacyjnych celem stawianym sieci jest przypisanie każdego przypadku reprezentowanego przez odpowiedni zestaw danych wejściowych do jednej z wybranych klas.
Problemy klasyfikacyjne dzielone są na dwie kategorie: problemy dwuklasowe, korzystające z pojedynczego neuronu wyjściowego, oraz problemy wieloklasowe, wykorzystujące trzy lub więcej neuronów wyjściowych. Możliwym jest przekodowanie problem dwuklasowego na postać wieloklasowego (tj. używając dwóch neuronów wyjściowych), takie podejście stosowane jest w przypadku Probabilistyczne sieci neuronowe (PNN) .
Problemy dwuklasowe. W problemach dwuklasowych zadana wartość wyjściowa jest równa 1 (wskazuje ona na przynależność do jednej z klas) lub też 0 (reprezentuje przynależność do drugiej klasy).
Problemy wieloklasowe. W problemach wieloklasowych zadana wartość wyjściowa jest równa 1 na wyjściu neuronu odpowiadającego właściwej klasie oraz powinna wynosić 0 na pozostałych neuronach.
Wartości wyjściowe sieci wieloklasowej mogą być także interpretowane jako prawdopodobieństwa, jeśli zapewni się sumowanie tych wartości do jedności. W celu spełnienia tego warunku wybrać można funkcję aktywacji typu Softmax dla wszystkich neuronów warstwy wyjściowej.
W sytuacji, gdy na wyjściu sieci pojawia się oszacowanie prawdopodobieństwa właściwszą miarą błędu jest miara entropowa.
Alternatywnym podejściem jest użycie funkcji błędu wykorzystującej kwadraty różnic. Ta alternatywa (w połączeniu z logistyczną funkcją aktywacji) ma nieco słabsze uzasadnienie statystyczne. Wyjście w dalszym ciągu jest miarą pewności, lecz nie jest prawdopodobieństwem. Wyjścia mogą się nawet nie sumować do 1. Z drugiej strony jednak takie sieci uczą się czasami szybciej, stabilniej i osiągają lepszą zgodność klasyfikacji
Klasyfikacja wg wzorcowych przypadków (w sieciach neuronowych). Klasyfikujące sieci neuronowe tłumaczą poziom aktywacji neuronu wyjściowego na wartość nominalnej zmiennej wyjściowej. Stosowane są dwa różne podejścia do klasyfikacji.
W jednym klasę określają poziomy aktywacji w warstwie wyjściowej. Zwykle poziom aktywacji interpretowany jest jako prawdopodobieństwo przynależności aktualnego przypadku do danej klasy. Przypadkowi przypisywana jest klasa najbardziej prawdopodobna. Takie podejście używane jest w większości typów sieci neuronowych.
W sieciach Kohonena i grupujących klasyfikuje się inaczej.
Te sieci zapisują w warstwie z neuronami "radialnymi" zaetykietowane "wektory kodowe" czyli wzorcowe przypadki. Po podaniu na wejście sieci nowego przypadku, sieć oblicza odległość między nowym przypadkiem a posiadanymi przypadkami (neuronami) "przykładowymi". Odległości przekładają się na poziom aktywacji neuronów. Jeden z radialnych neuronów jest najbliższy nowemu przypadkowi, jest to neuron "zwycięski", on zaetykietuje nowy przypadek. Algorytm ten jest często nieco rozbudowany: etykieta przypisywana jest wg K zwycięskich neuronów, ale tylko w przypadku gdy co najmniej L z nich należy do tej samej klasy (w przeciwnym wypadku nowy przypadek pozostaje "nieznany").
Może się jednak zdarzyć, że nowy przypadek podawany na wejście sieci jest bardzo odległy od wszystkich neuronów (posiadanych wzorców); w takiej sytuacji lepiej nie przypisywać mu klasy. Dlatego wybrać można progową wartość unormowanej odległości, powyżej której na wyjściu sieci pojawia się wynik "klasa nieznana".
Kodowanie jeden-z-N. Sposób reprezentowania w sieciach neuronowych zmiennej nominalnej przyjmującej więcej niż dwie wartości. W kodowaniu jeden-z-N, jeden neuron odpowiada tylko jednej z N możliwych wartości rozpatrywanej zmiennej.Zob. Sieci neuronowe.
Kody. Kody są wartościami zmiennej grupującej (np. 1, 2, 3, ... lub MĘŻCZYZNA, KOBIETA), służącymi do identyfikacji poziomów zmiennej w trakcie analizy. Kody mogą być wartościami tekstowymi, mogą być też liczbami całkowitymi.
Komponenty wariancyjne (w modelu mieszanym ANOVA). W odniesieniu do układów doświadczalnych z efektami losowymi, termin komponenty wariancyjne stosowany jest do oznaczania oceny wariancji, jaka może zostać przypisana tym efektom. Na przykład, gdyby przedmiotem naszego zainteresowania był wpływ jakości kształcenia różnych szkół na wyniki na studiach wyższych, wówczas moglibyśmy wybrać próbę spośród szkół, do oceny wielkości wariancji wyników na studiach (składnik wariancji), którą można przypisać różnicom pomiędzy szkołami.
Więcej na ten temat można znaleźć w sekcjach Analiza wariancji oraz Komponenty wariancyjne i model mieszany ANOVA/ANCOVA.
Kompresja warstwowa. Jeśli używamy kompresji warstwowej, wykres główny zostaje zmniejszony tak, aby było miejsce dla wykresów brzegowych u góry i po prawej stronie obszaru wyświetlania wykresu (i dla miniaturowego wykresu w rogu). Te małe wykresy brzegowe przedstawiają poziomo i pionowo skompresowany obraz głównego wykresu.

Dodatkowe informacje na temat kompresji warstwowej można znaleźć w części Wybrane graficzne techniki analityczne: Kompresja warstwowa.
Kontaminacja modeli. zob. kontaminacja modeli.
Kontaminacja modeli. Kontaminacja modeli stosowana jest w predykcyjnym data mining. Polega ona na połączeniu przewidywań różnorodnych modeli. Kontaminacja modeli jest szczególnie użyteczna jeżeli w projekcie stosujemy bardzo różne modele.
Rozważmy na przykład projekt data mining, w którym stosujemy metody C&RT, CHAID, liniową analizę dyskryminacyjną (patrz rozdział GDA) i sieci neuronowe. Każdy model wyznacza przewidywane klasyfikacje dla próby do sprawdzianu krzyżowego. Na podstawie tych danych obliczamy ogólne statystyki dopasowania (stopy błędnych klasyfikacji). Z doświadczenia wiadomo, że połączenie wielu metod daje lepsze przewidywania niż każda z metod z osobna (zob. Witten i Frank, 2000). Przy kontaminacji modeli wyniki działania poszczególnych modeli są danymi wejściowymi dla metauczenia. Przykładowo wyniki drzew klasyfikacyjnych, modelu liniowego i sieci neuronowych mogą stanowić dane wejściowe dla sieci neuronowej, która "nauczy się", jak połączyć wyniki różnych modeli, tak aby uzyskać najlepszy finalny model prognostyczny.
Inne metody łączenia modeli to wzmacnianie i agregacja (głosowanie).
Korelacja cząstkowa. Korelacja między dwiema zmiennymi pozostająca po uwzględnieniu wpływu innej zmiennej (jednej lub większej ilości). Przykładowo, Długość włosów może być skorelowana ze Wzrostem(przy czym niższe osoby będą miały dłuższe włosy), jednak korelacja ta zmniejszy się lub całkowicie zniknie, jeżeli usuniemy wpływ zmiennej Płeć, ponieważ kobiety są zwykle nieco niższe i mają dłuższe włosy niż mężczyźni.
Dodatkowe informacje można znaleźć pod hasłami korelacja, korelacje pozorne oraz w sekcjach Statystyki podstawowe, Regresja wieloraka, Modelowanie równań strukturalnych (SEPATH).
Korelacja dodatnia. Współzależność pomiędzy zmiennymi przedstawia się w taki sposób, że gdy wartości jednej zmiennej wykazują tendencję wzrastającą, wówczas wartości drugiej zmiennej także wykazują tendencję wzrastającą. Sytuacja taka jest reprezentowana przez dodatnią wartość współczynnika korelacji.
Dodatkowe informacje można znaleźć w opisie korelacji w rozdziale Statystyki podstawowe.
Korelacja kanoniczna. Korelacja kanoniczna umożliwia badanie związków zachodzących pomiędzy dwoma zbiorami zmiennych (jest ona stosowana w charakterze metody testowania hipotez lub metody eksploracyjnej). Na przykład, w badaniach pedagogicznych badacz może chcieć ocenić (jednoczesny) związek między trzema miarami zdolności uczenia się, a pięcioma miarami powodzenia w nauce. Socjolog może interesować się związkiem między dwoma predyktorami ruchliwości społecznej uzyskanymi w wywiadach, a faktyczną późniejszą ruchliwością społeczną mierzoną przy pomocy czterech innych wskaźników. W naukach medycznych można studiować związek różnych czynników ryzyka z powstawaniem pewnej grupy symptomów. We wszystkich tych przypadkach badacz jest zainteresowany związkiem między dwoma zbiorami zmiennych, do którego badania odpowiednią metodą analizy jest korelacja kanoniczna.Więcej na temat korelacja kanonicznej, patrz Wprowadzenie do analizy kanonicznej.
Korelacja rang. Współczynnik korelacji rang, to miara zależności między zmiennymi losowymi wyznaczona dla rang wartości zmiennych, a nie dla samych wartości tych zmiennych. Przykłady współczynników korelacji rang to R Spearmana, tau Kendalla, Gamma. Szczegółowe omówienie korelacji rang można znaleźć w pracach: Hays (1981), Kendall (1948, 1975), Everitt (1977), Siegel i Castellan (1988). Informacje uzupełniające: Statystyki nieparametryczne.
Korelacja semicząstkowa (lub częściowa). Korelacja semicząstkowa lub częściowa jest podobna do korelacji cząstkowej. Podobnie jak współczynnik korelacji cząstkowej stanowi ona miarę skorelowania dwóch zmiennych jaka pozostaje po uwzględnieniu (tzn. wyeliminowaniu) wpływów jednej lub wielu innych predyktorów. Kwadrat współczynnika korelacji cząstkowej pomiędzy predyktorem X1, a zmienną odpowiedzi Y może być interpretowany jako odsetek wariancji wyjaśnianej przez X1, przy obecności pozostałych predyktorów X2, ... , Xk, względem wariancji resztowej lub niewyjaśnionej, która nie może zostać wyjaśniona przez zmienne X2, ... , Xk, natomiast kwadrat współczynnika korelacji semicząstkowej lub częściowej stanowi odsetek wariancji wyjaśnianej przez predyktor X1 względem całkowitej wariancji zmiennej Y. A zatem, współczynnik korelacji semicząstkowej lub częściowej jest lepszym wskaźnikiem "faktycznego oddziaływania" predyktora ponieważ zostaje wyskalowany (tzn. odniesiony do) całkowitej zmienności zmiennej zależnej (odpowiedzi).
Patrz także korelacja, korelacje pozorne, korelacja cząstkowa, Statystyki podstawowe, Regresja wieloraka, GLM, GRM i SEPATH.
Korelacja ujemna. Współzależność pomiędzy zmiennymi kształtująca się w taki sposób, że gdy wartości jednej zmiennej wykazują tendencję rosnącą, wówczas wartości drugiej zmiennej wykazują tendencję malejącą. Sytuacja taka jest reprezentowana przez ujemną wartość współczynnika korelacji.
Dodatkowe informacje można znaleźć w części Korelacje - Wprowadzenie.
Korelacja. Korelacja jest miarą współzależności pomiędzy dwiema lub większą liczbą zmiennych. Współczynniki korelacji mogą przyjmować wartości z zakresu od -1 do +1. Wartość -1 reprezentuje doskonałą korelację ujemną natomiast 1 to doskonała korelację dodatnia. Wartość 0 oznacza brak korelacji.
Dodatkowe informacje można znaleźć w opisie korelacji w rozdziale Statystyki podstawowe, a także pod hasłem współczynnik korelacji liniowej Pearsona.
Korelacje pozorne. Korelacje , które są głównie wynikiem wpływu jednej lub kilku "innych" zmiennych. Przykładowo, istnieje dodatnia korelacja między stratami spowodowanymi przez pożar, a liczbą gaszących go strażaków. Jednak nie oznacza to, że aby zmniejszyć straty wywołane przez pożar, należy zmniejszyć liczbę gaszących go strażaków. Istnieje trzeci czynnik (początkowa wielkość pożaru) wpływający na straty i liczbę strażaków. Jeżeli uwzględnimy ten czynnik (np. biorąc pod uwagę pożary tej samej wielkości), to korelacja zniknie lub zmieni znak. Podstawowym problemem związanym z korelacjami pozornymi jest to, że zwykle nie wiemy co jest "ukrytym" czynnikiem. Jeżeli nie wiemy gdzie szukać ukrytej zmiennej, możemy użyć korelacji cząstkowych, które usuwają wpływ wskazanych zmiennych.
Patrz także: korelacja, korelacja cząstkowa, Statystyki podstawowe, Regresja wieloraka i SEPATH.
Kryterium informacyjne Akaike (AIC). W przypadku dopasowywania do danych modelu o q parametrach, kryterium to zdefiniowane jest jako -Lq + 2q, gdzie Lq oznacza maksimum logarytmu ilorazu wiarogodności. Akaike zaproponował, by w przypadku modeli o różnej liczbie parametrów wybierać ten, dla którego wartość wyrażenia jest maksymalna. Na początku kryterium stosowane było dla modeli szeregów czasowych, lecz używane jest także w regresji. Kryterium informacyjne Akaike można stosować w Uogólnionych Modelach liniowych i nieliniowych (GLZ) do porównywania podzbiorów efektów w regresji metodą najlepszego podzbioru. Ponieważ obliczanie statystyki punktowej nie wymaga iterowania obliczeń, budowanie modelu metodą najlepszego podzbioru w oparciu o statystykę punktową jest szybsze, natomiast wybory w oparciu o kryterium Akaike zazwyczaj daje dokładniejsze wyniki.
Kryterium względnej zmiany funkcji. Kryterium względnej zmiany funkcji stosuje się do zatrzymania iteracji, gdy wartość funkcji już się nie zmienia (zob. rozdział Modelowanie równań strukturalnych). Kryterium to jest konieczne, ponieważ czasami nie można zmniejszyć funkcji rozbieżności, nawet gdy gradient nie jest bliski zeru. Zdarza się to w szczególności wtedy, gdy jeden z estymatorów parametrów osiąga wartość brzegową. "Prawdziwe minimum", gdzie gradient faktycznie wynosi zero, obejmuje wartości parametrów, które są niedozwolone (jak ujemne wariancje lub korelacje większe od 1).
W i-tej iteracji, wartość dla tego kryterium wyznaczana jest ze wzoru:

Krzywa parametryczna.
Krzywe, których nie da się przedstawić za pomocą równania postaci y = f(x), gdzie y oraz x oznaczają wartości na osi
pionowej i poziomej, można zdefiniować na płaszczyźnie x-y w sposób parametryczny za pomocą dwóch funkcji parametru t
przyjmującego wartości z ustalonego przedziału (minimum, maksimum). Podajemy równanie y = f(t) współrzędnej y, oraz
równanie x = g(t) dla współrzędnej x krzywej oraz zakres parametru t.
Na przykład, aby narysować spiralę, możemy podać wzory:
y(t) = t*cos(t)
x(t) = t*sin(t)
dla 0 < = t < = 12.

Krzywe parametryczne mogą mieć różne kształty, począwszy od prostych okręgów, po krzywe o skomplikowanym kształcie. Oto inny przykład:
y(t) = (a + b)*sin(t) - b*sin((a/b + 1)*t)
x(t) = (a + b)*cos(t) - b*cos((a/b + 1)* t)

Wyżej przedstawiony wykres, został utworzony dla parametrów a i b wynoszących odpowiednio: 8 oraz 5 . Parametr t zmienia się od 0 do 100. Dla innych wartości parametrów a i b w podanych wyżej równaniach, krzywa będzie miała inne kształty.
Krzywa ROC (Receiver Operating Characteristic).
Przy klasyfikowaniu za pomocą sieci neuronowych, o przydziale przypadku do klasy decyduje położenie progów Akceptacji i Odrzucenia.
W przypadku klasyfikacji dwustanowej, domyślnie, wynikowa klasa wskazywana jest przez aktywację pojedynczego neuronu wyjściowego, wysoką dla jednej klasy i niską dla drugiej. Jeżeli próg Odrzucania jest niższy (nie jest równy) od progu Akceptacji, to sieć może dać wynik nieokreślony (gdy aktywacja mieści się między progami).
Oba progi można też ustawić na tym samym poziomie. Działanie klasyfikacyjne sieci będzie silnie zależało od położenia tego poziomu. W jednym skrajnym położeniu progu wszystkie przypadki będą przypisane do jednej klasy, a w drugim położeniu do drugiej klasy. Pomiędzy tymi ekstremalnymi położeniami znajduje się wiele kompromisowych wartości progu, dających różne proporcje błędnych zaklasyfikowań dla każdej z klas (błędny przydział do pierwszej klasy i błędny do drugiej).
Krzywa ROC (Zweig, 1993) służy do oceny jakości sieci dokonujacej podziału obiektów na dwie klasy, gdy próg odrzucania jest równy progowi akceptacji. Podsumowuje ona działanie dwustanowego klasyfikatora, dla wszystkich możliwych wartości progów. Wrażliwość sieci (klasa druga zaklasyfikowana zgodnie) wykreślona jest tu względem wielkości: jeden minus specyficzność (klasa pierwsza zaklasyfikowana niezgodnie). Idealny klasyfikator daje krzywą przylegającą do lewego i górnego brzegu wykresu, z polem pod krzywą równym 1,0. Dla losowych klasyfikacji pole wynosiłoby około 0,5 (klasyfikator o polu mniejszym od 0,5 mógłby być ulepszony przez proste odwrócenie klas). Krzywa ROC dobrze służy porównywaniu klasyfikatorów, jako że nie zależy od arbitralnego wyboru progu decyzyjnego.
Krzywa ROC pomocna jest wyborze optymalnego progu. Jest to próg dający równe prawdopodobieństwa błędnych klasyfikacji w każdej z klas. W niektórych zagadnieniach jednak błędne klasyfikacje do dwóch klas mogą mieć bardzo różny koszt. Na przykład, gorszym błędem jest traktowanie chorego pacjenta jako zdrowego niż odwrotnie.
Krzywe Johnsona. Johnson (1949) opisał rodzinę krzywych częstości będących przekształceniami standardowej krzywej normalnej (szczegóły, patrz: Hahn i Shapiro, 1967). Dzięki zastosowaniu tych przekształceń do standardowej krzywej normalnej może być przybliżony szeroki zakres rozkładów, nie będących rozkładami normalnymi, w tym rozkłady ograniczone z jednej lub dwóch stron (np. rozkłady U-kształtne). Zaletą tego podejścia jest to, że po dopasowaniu konkretnej krzywej Johnsona, możemy wyliczać odsetek oczekiwanych punktów pod odpowiednią krzywą. Metody dopasowania krzywych Johnsona, jako metody aproksymacji czterech pierwszych momentów empirycznych rozkładu, zostały szczegółowo opisane u Hahna i Shapiro, 1967, str. 199-220 oraz Hill, Hill i Holder, 1976.
Zob. krzywe Pearsona.
Krzywe operacyjno-charakterystyczne dla kart sterowania jakością. Zwykle dodatkowym wykresem kreślonym obok standardowych kart kontrolnych jest tak zwana funkcja operacyjno-charakterystyczna lub krzywa OC. Jednym z pytań, jakie można zadać podczas używania standardowych kart kontrolnych jest "jak selektywna jest używana procedura kontrolna?" Mówiąc bardziej naukowym językiem - chodzi o znalezienie prawdopodobieństwa zdarzenia losowego polegającego na tym, że próbka (np. średnia na karcie X-średnie) nie znajdzie się poza granicami kontrolnymi (tzn. uznamy, że proces jest uregulowany), mimo że w rzeczywistości nastąpiło przesunięcie badanej zmiennej o pewną wielkość. Określa się to jako prawdopodobieństwo popełnienia błędu drugiego rodzaju b (beta), czyli prawdopodobieństwo błędnego uznania procesu (średniej, frakcji sztuk wadliwych, liczby elementów niezgodnych) jako uregulowanego.

Krzywe operacyjno-charakterystyczne są szczególnie użyteczne przy badaniu mocy statystycznych procedur kontroli jakości. Rzeczywiste decyzje dotyczące wielkości próbki zależą nie tylko od kosztów prowadzenia kontroli (np. kosztów badania elementu), ale też od kosztów wynikających z braku sygnału o rozregulowaniu. Krzywa OC pozwala również na oszacowanie prawdopodobieństwa braku sygnału o rozregulowaniu procesu dla różnych liczności próbek.
Więcej informacji można znaleźć w opisie krzywych operacyjno-charakterystyczne w rozdziale Karty kontrolne.
Krzywe Pearsona. Rodzina rozkładów prawdopodobieństwa zaproponowana przez Karla Pearsona (patrz np. Hahn i Shapiro, 1967, str. 220-224), składająca się z siedmiu rozwiązań (z 12 wyliczonych przez Pearsona) równania różniczkowego, które przybliżają szeroki zakres rozkładów o różnych kształtach. Gruska, Mirkhani i Lamberson (1989) opisują szczegółowo w jaki sposób różne krzywe Pearsona mogą zostać dopasowane do empirycznego rozkładu. Metoda obliczania poszczególnych percentyli Pearsona jest także opisana u Davisa i Stephensa (1983).
Zob. także: krzywe Johnsona.
Kubiczna funkcja sklejana. Kubiczna funkcja sklejana jest techniką wygładzania stosowaną do wykresów rozrzutu 2W, która daje wygładzoną postać zależności między dwiema zmiennymi. Kubiczna funkcja sklejana jest często wykorzystywana w uogólnionym modelu addytywnym w celu znalezienia nieparametrycznej funkcji predyktorów, która daje najtrafniejsze przewidywania wartości zmiennej zależnej. Szczegółowe informacje o wygładzaniu kubiczną funkcją sklejaną i porównanie jej z innymi metodami wygładzania dostępne są w pracach Hastie i Tibshirani, 1990 oraz Schimek, 2000.
Kurtoza. Kurtoza (ang. kurtosis, termin ten został użyty po raz pierwszy przez Pearsona, 1905) mierzy "spiczastość" rozkładu. Jeśli wartość kurtozy jest wyraźnie różna od zera, wówczas rozkład jest albo bardziej płaski albo bardziej spiczasty niż rozkład normalny; wartość kurtozy dla rozkładu normalnego wynosi 0. Jest ona wyliczana ze wzoru:
Kurtoza = [n*(n+1)*M4 - 3*M2*M2*(n-1)]/[(n-1)*(n-2)*(n-3)*
4]
gdzie:
Mj jest równe:
(xi-Średniax)j
n oznacza liczbę ważnych przypadków (bez braków
danych)
4 oznacza
odchylenie standardowe (sigma) podniesione do czwartej potęgi
Dodatkowe informacje można znaleźć w sekcji Statystyki opisowe w rozdziale Statystyki podstawowe.
Kwadratowa. Do punktów na wykresie rozrzutu 3W zostaje dopasowana funkcja wielomianowa drugiego stopnia.
Kwantyle. Kwantyl (ang. quantile; termin po raz pierwszy użyty przez Kendalla, 1940) rozkładu wartości jest liczbą xp o takiej własności, że odsetek p wartości populacji jest mniejszy lub równy wartości xp. Np. kwantyl rzędu .25 (określany również jako percentyl rzędu 25 lub dolny kwartyl) jest taką wartością xp, że 25% (p) wartości zmiennej jest mniejsze od wartości xp.
Podobnie kwantyl rzędu 0.75 (określany również jako percentyl rzędu 75 lub górny kwartyl) jest wartością zmiennej, poniżej której znajduje się 75% wartości.
Uwaga terminologiczna. Dosyć często można spotkać odmienną definicję kwantyli. Otóż kwantylami nazywamy zbiór n-1 wartości, które dzielą zakres zmienności funkcji gęstości prawdopodobieństwa (dla rozkładu teoretycznego) lub obserwowanego rozkładu liczności na n części o takiej samej powierzchni pod krzywą rozkładu. W takim ujęciu kwantyle rzędu 4 odpowiadają wartościom kwantyla .25, .5 i .75 (zdefiniowanym powyżej).
Tematy pokrewne: wykresy kwantyl-kwantyl
Kwartyle. Dolny i górny kwartyl (ang. lower, upper quartile; terminy te zostały po raz pierwszy użyte przez Galtona, 1882) są wartościami odpowiednio 25-tego i 75-tego percentyla rozkładu danej zmiennej.
Percentyl 25-ty jest wartością zmiennej, poniżej której znajduje się 25% wartości danej zmiennej. Podobnie 75-ty percentyl jest wartością zmiennej, poniżej której znajduje się 75% wartości.
