Przeszukaj Internetowy Podręcznik Statystyki



C&RT. C&RT lub Drzewa klasyfikacyjne i regresyjne to program drzew klasyfikacyjnych autorstwa Breimana et al. (1984).

Drzewa klasyfikacyjne i regresyjne STATISTICA (C&RT).


C&RT to procedury analityczne do predykcji wartości ilościowej zmiennej zależnej (np. Wzrost) lub jakościowej zmiennej zależnej (np. Stan cywilny) na podstawie predyktorów ilościowych lub jakościowych. W przypadku gdy zmienna zależna jest zmienną jakościową, to metodę określamy jako drzewa klasyfikacyjne, a w przypadku ilościowej zmiennej zależnej, mówimy o drzewach regresyjnych.

Klasyczny algorytm drzew klasyfikacyjnych i regresyjnych (C&RT) został spopularyzowany przez Breimana, Friedmana, Olshena i Stone'a (zob. Breiman, Friedman, Olshen i Stone, 1984, a także Ripley, 1996; Hastie, Tibshirani i Friedman, 2001)W problemach klasyfikacyjnych głównym celem jest znalezienie drzewa, którego końcowe węzły (liście) byłyby możliwie jak najbardziej jednorodne, tj. zwierały obserwacje, które (prawie) wszystkie należą do tej samej klasy lub kategorii. W problemach regresyjnych kryterium jednorodności są sumy kwadratów odchyleń wartości zmiennej wewnątrz węzła.

W każdym kroku, algorytm znajduje logiczny warunek podziału, pozwalający przypisać obserwacje z węzła do jednego z dwóch węzłów potomnych. W przypadku predyktorów ilościowych te warunki logiczne są postaci: Jeśli x>Wartość, to Id Węzła=k. W przypadku predyktorów ilościowych warunki podziału są postaci: Jeśli x=Kategoria, to Id Węzła=k.

Więcej informacji zob. Drzewa klasyfikacyjne i regresyjne (C&RT).

Cpk, Cp, Cr.

Zdolność potencjalna (Cp ). Jest to najprostszy i najbardziej bezpośredni wskaźnik zdolności procesu. Jest on definiowany jako stosunek przedziału specyfikacji do długości przedziału zmienności procesu. Przyjmując granice równą 3 sigma, wskaźnik ten można wyrazić jako:

Cp = (USL-LSL)/(6*Sigma)

Wielkość ta informuje nas, jaka część zakresu normalnej zmienności procesu mieści się w granicach specyfikacji (jeżeli średnia jest zgodna z wartością nominalną).

Niewycentrowanie (K). Współczynnik ten:

K = abs(D - średnia)/(1/2(USL-LSL))

Gdzie D = (USL+LSL)/2, wyraża odchylenie wycentrowania procesu, względem szerokości przedziału specyfikacji.Przedstawiona doskonałość (Cpk). W końcu można skorygować Cp , by uwzględnić niewycentrowanie, poprzez obliczenie:Cpk = (1-k)*Cp

Jeśli proces jest wycentrowany, to K jest równe zeru i Cpk jest równe Cp. Jeśli proces odbiega od wartości nominalnej, wówczas K wzrasta i Cpk staje się mniejsze od Cp.

Frakcja zdolności procesu (Cr ). Ten wskaźnik to po prostu odwrotność Cp (Cr =1/Cp).

Estymacja sigmy procesu. Kiedy dane składają się z wielu próbek (jak dla większości kart kontrolnych), wówczas możemy wyliczyć dwa różne wskaźniki zmienności danych. Jeden z nich to zwykłe odchylenie standardowe dla wszystkich obserwacji (niezależnie od podziału na próbki), a drugi oszacowuje wewnętrzną zmienność procesu na podstawie zmienności wewnątrzpróbkowej. Jeżeli przy obliczeniach wydolności wykorzystywana jest całkowita zmienność procesu, wówczas otrzymane wskaźniki są określane jako wskaźniki wykonania procesu (ponieważ opisują one rzeczywiste możliwości procesu; są to Pp, Pr i Ppk). Wskaźniki obliczane na podstawie zmienności wewnątrzpróbkowej (krótkookresowej - z reguły mniejszej) są określane jako wskaźniki zdolności (Cp, Cr i Cpk).

Dodatkowe informacje: wskaźniki zdolności procesu oraz opis analizy zdolności procesu w rozdziale Analiza procesu.

CHAID. CHAID to program drzew klasyfikacyjnych, autorstwa Kassa (1980), realizujący wielopoziomowe podziały przy obliczaniu drzew klasyfikacyjnych. Różnice między CHAID a algorytmami stosowanymi w Drzewach klasyfikacyjnych, patrz punkt Porównanie z innymi programami drzew klasyfikacyjnych w Omówieniu drzew klasyfikacyjnych.

Chi-kwadrat z poprawką Yatesa. W małych tablicach o wymiarach 2x2 można poprawić aproksymację statystyki chi-kwadrat przez redukcję bezwzględnej wartości różnic pomiędzy oczekiwanymi i zaobserwowanymi licznościami, którą realizujemy, mnożąc je przez 0,5 przed operacją podniesienia do kwadratu (poprawka Yatesa). Poprawka powoduje, że ocena jest ostrożniejsza i jest zwykle stosowana w sytuacji, gdy w tablicy występują małe liczebności obserwowane, np. niższe od 10 (obszerniejsze omówienie tego zagadnienia można znaleźć w pozycjach: Conover, 1974; Everitt, 1977; Hays, 1988; Kendall i Stuart, 1979 oraz Mantel, 1974).

Ciągła zmienna zależna. Ciągła zmienna zależna to wyrażona na skali ciągłej (przedziałowej lub ilorazowej) cecha, której wartości chcemy przewidywać. Przykładem takiej zmiennej jest waga wyrażona w kg lub wzrost w cm. Badacz może chcieć przewidywać wartości takich zmiennych (np. łącznej wartość sprzedaży w ciągu roku) na podstawie wydatków na promocję i innych predyktorów (zmiennych niezależnych).

Circumplex. Zbiór N zmiennych, takich, że ich wartości w przestrzeni N-wymiarowej układają się na kuli (hiperkuli), nazywany jest circumplex. Macierz korelacji takich zmiennych ma szczególną, cykliczną strukturę. Otóż najsilniej (i mniej więcej tak samo) skorelowane są zmienne sąsiednie, np. czwarta i piąta, przy czym numer zmiennej traktować należy cyklicznie, tak, że sąsiednie są też zmienna pierwsza i ostatnia. Niżej pokazana jest macierz korelacji dla N=8.
1.00
0.80
0.60
0.40
0.20
0.40
0.60
0.80
 
1.00
0.80
0.60
0.40
0.20
0.40
0.60
 
 
1.00
0.80
0.60
0.40
0.20
0.40
 
 
 
1.00
0.80
0.60
0.40
0.20
 
 
 
 
1.00
0.80
0.60
0.40
 
 
 
 
 
1.00
0.80
0.60
 
 
 
 
 
 
1.00
0.80
 
 
 
 
 
 
 
1.00

Circumplex to szczególny przykład struktury ogólniejszej - radex, wprowadzonej przez Louisa Guttmana (autora wielu nowych koncepcji w teorii skalowania wielowymiarowego i analizy czynnikowej, patrz Guttman 1954).

CP Mallowa. Jeśli spośród k zmiennych niezależnych (predyktorów) wybierzemy p, to współczynnik CP obliczamy ze wzoru:

S (y-yp)2 / s2 - n+2p

gdzie
yp    to przewidywana wartość y na podstawie p predyktorów
s2    jest średnią kwadratów reszt dla regresji dla wszystkich k predyktorów
n     jest licznością próby

Wybierany jest model, dla którego statystyka ta jest najmniejsza lub zadawalająco mała. W zasadzie CP Mallowa jest szczególnym przypadkiem kryterium informacyjnego Akaike (AIC). W CP Mallowa jest stosowane w modelach regresji GRM do wyboru najlepszego podzbioru predyktorów. CP Mallowa jest miarą dobroci dopasowania mniej zależną od liczby uwzględnionych w modelu predyktorów niż R-kwadrat. Dzięki temu lepiej nadaje się do wyszukiwania tych zmiennych, które w rzeczywistości wpływają na zmienną zależną.

Dodatkowe informacje można znaleźć pod hasłem opcje regresji metodą najlepszego podzbioru w GRM.

CRISP. Zob. modele data mining, a także rozdział Techniki data mining.

C-SVM Jest to implementacja metody SVM dla zadań klasyfikacyjnych z wieloma klasami.

Częstość dokumentowa. Częstość dokumentowa (ang. document frequency) to statystyka wyznaczana dla pojedynczych słów i fraz wykorzystywana w text mining. Oznacza ona liczbę dokumentów, w których wystąpiło dane słowo lub fraza .

Dodatkowe informacje można znaleźć w pracy Manning i Schütze (2002).

Czynnik inflacji wariancji (VIF - Variance Inflation Factor). Elementy diagonalne odwrotnej macierzy korelacji (tzn. -1 razy elementy macierzy wymiany) dla zmiennych uwzględnionych w równaniu są czasami nazywane czynnikami inflacji wariancji (ang. VIF - zob. Neter, Wasserman, Kutner, 1985). Nazwa bierze się stąd, że wariancje standaryzowanych współczynników regresji można obliczać jako iloczyn wariancji resztowej (w modelu korelacyjnym) i odpowiednich elementów diagonalnych odwrotnej macierzy korelacji. Jeżeli zmienne objaśniające są nieskorelowane, to elementy diagonalne odwrotnej macierzy korelacji są równe 1. Oznacza to, że dla zmiennych skorelowanych elementy te reprezentują "czynnik inflacji" wariancji współczynników regresji spowodowany nadmiarowością zmiennych objaśniających.

Patrz także, Regresja wieloraka.

Czynniki skrzyżowane. W doświadczalnictwie spotykamy układy (czynnikowe) kompletnie krzyżowe, tzn. każdy poziom danego czynnika występuje z każdym poziomem wszystkich pozostałych. Na przykład, w układzie 2x2; 2 leki na 2 wirusy, każdy lek testowany był z każdym wirusem.

Patrz też, ANOVA/MANOVA.

Czynniki zagnieżdżone. W przypadku układów zagnieżdżonych, poziomy czynnika są zagnieżdżone (termin ten został po raz pierwszy użyty przez Ganguliego, 1941) w obrębie poziomów innego czynnika. Na przykład, jeśli ktoś ma zarządzić cztery różne testy w czterech klasach szkoły średniej (tzn. czynnik międzygrupowy z czterema poziomami) i dwie z tych czterech klas znajdują się w szkole A, podczas gdy dwie pozostałe w szkole B, wówczas poziomy pierwszego czynnika (cztery różne testy) byłyby zagnieżdżone w obrębie drugiego czynnika (dwie różne szkoły średnie).

Dodatkowe informacje można znaleźć w sekcji ANOVA/MANOVA.

Czysty błąd. Dla niektórych układów, w których w obrębie poziomów predyktorów jakościowych występują powtórzenia, resztowa suma kwadratów może być podzielona na pewne składniki odnoszące się do testowanych hipotez. Mówiąc dokładniej, resztowe sumy kwadratów mogą zostać podzielone na składnik braku dopasowania i czysty błąd. Wymaga to określenia pewnej części resztowej sumy kwadratów, która może być prognozowana poprzez włączenie dodatkowych źródeł zmienności dla predyktorów jakościowych występujących w modelu (np. wyrażeń wielomianowych lub interakcji) oraz części sumy kwadratów, której nie można prognozować za pomocą jakichkolwiek dodatkowych źródeł (tzn. sumy kwadratów dla czystego błędu). Następnie można przeprowadzić test braku dopasowania, wykorzystując w charakterze wyrażenia opisującego średni błąd kwadratowy dla czystego błędu.

Zob. także: brak dopasowania, macierz eksperymentu oraz Ogólne modele liniowe (GLM), Ogólne modele regresji (GRM) i Planowanie doświadczeń.




© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.