© Copyright StatSoft, Inc., 1984-2024
Przeszukaj Internetowy Podręcznik Statystyki
Drzewa klasyfikacyjne


Podstawowe pojęcia

Drzewa klasyfikacyjne wykorzystuje się do wyznaczania przynależności przypadków lub obiektów do klas jakościowej zmiennej zależnej na podstawie pomiarów jednej lub więcej zmiennych objaśniających (predyktorów). Analiza drzew klasyfikacyjnych jest jedną z podstawowych technik wykorzystywanych w tzw. Zgłębianiu danych (Data Mining ).

Celem analizy opartej na drzewach klasyfikacyjnych jest przewidywanie lub wyjaśnianie odpowiedzi (reakcji) zakodowanych w jakościowej zmiennej zależnej i dlatego techniki wykorzystywane w tym module mają wiele wspólnego z technikami wykorzystywanymi w bardziej tradycyjnych metodach Analizy dyskryminacyjnej , Analizy skupień , Statystyk nieparametrycznych i Estymacji nieliniowej . Elastyczność analizy przy pomocy drzew klasyfikacyjnych sprawia, że jest ona bardzo atrakcyjna, ale nie oznacza to, że zaleca się stosowanie jej zamiast metod bardziej tradycyjnych. Jeśli surowsze wymogi teoretyczne i założenia dotyczące rozkładów wymagane przez metody tradycyjne są spełnione, lepiej wykorzystać te metody. Jednakże drzewa klasyfikacyjne stanowią niezrównaną technikę eksploracyjną, a gdy zawodzą metody tradycyjne, bywają ostatnią deską ratunku.

Co to są drzewa klasyfikacyjne ? Wyobraźmy sobie, że chcemy wypracować system sortowania zestawu monet w różne klasy (groszówki, dwugroszówki, pięciogroszówki, dziesięciogroszówki). Załóżmy, że istnieje miara, którą różnią się te monety, na przykład średnica, którą możemy wykorzystać do opracowania hierarchicznego systemu sortowania monet. Moglibyśmy potoczyć monety w dół wąskim torem, w którym wycięto otwór wielkości średnicy jednogroszówki. Jeśli moneta wypadnie przez otwór, zostanie zaklasyfikowana jako jednogroszówka, w przeciwnym razie potoczy się dalej, gdzie znajduje się otwór o wielkości średnicy dziesięciogroszówki. Jeśli moneta wypadnie przez ten otwór, zostanie zaklasyfikowana, jako dziesięciogroszówka, jeśli nie, potoczy się dalej, gdzie znajduje się otwór o wielkości dwugroszówki i tak dalej. W ten sposób zbudowaliśmy drzewo klasyfikacyjne. Proces decyzyjny wykorzystany w naszym drzewie klasyfikacyjnym stanowi skuteczną metodę sortowania stosu monet, a ogólniej, może być zastosowany do rozwiązania wielu problemów klasyfikacyjnych.

Analiza i wykorzystanie drzew klasyfikacyjnych nie jest szeroko rozpowszechniona w teorii prawdopodobieństwa i statystycznym rozpoznawaniu obrazów (Ripley, 1996), ale drzewa klasyfikacyjne są szeroko wykorzystywane w dziedzinach stosowanych, tak odmiennych jak medycyna (diagnoza), nauki komputerowe (struktury danych), botanika (klasyfikacja) i psychologia (teoria decyzji). Drzewa klasyfikacyjne dają się prosto przedstawiać graficznie, co sprawia, że są łatwiejsze w interpretacji niż czysto liczbowe wyniki.

Drzewa klasyfikacyjne mogą być, i niekiedy są, dość złożone. Jednakże procedury graficzne ułatwiają interpretację nawet skomplikowanych rozwiązań. Jeśli kogoś interesują głównie warunki występowania określonej klasy odpowiedzi, na przykład klasy Wysoka, można utworzyć Wykres warstwicowy 3W , aby zidentyfikować końcowy węzeł drzewa klasyfikacyjnego, który gromadzi większość przypadków z odpowiedziami Wysoka.

W przykładzie zilustrowanym powyższym wykresem warstwicowym 3W można "pójść za gałęziami" prowadzącymi do końcowego węzła 8, aby zrozumieć warunki, które prowadzą do klasy Wysoka.

Na popularność drzew klasyfikacyjnych w dziedzinach stosowanych składają się prawdopodobnie możliwość przedstawiania danych graficznie i łatwość interpretacji, ale dwie bardziej ogólne cechy tej metody to hierarchiczna natura i elastyczność.

Informacje na temat technik i problemów związanych z obliczaniem drzew klasyfikacyjnych znajdują się w temacie Metody obliczeniowe .Patrz także Techniki eksploracyjnej analizy danych i zgłębiania danych .

Indeks

Własności drzew klasyfikacyjnych

Hierarchiczna natura drzew klasyfikacyjnych

Breiman i in. (1984) podają wiele przykładów użycia drzew klasyfikacyjnych . Jeden z przykładów dotyczy pacjentów przyjmowanych do szpitala z powodu ataku serca. Pacjenci ci są często poddawani wielu testom w celu uzyskania pomiarów fizjologicznych, takich jak tętno, ciśnienie krwi itd. Rejestruje się także wiele innych informacji, na przykład wiek pacjenta i historię choroby. Następnie można obserwować pacjentów, aby przekonać się, czy przeżyją po zawale co najmniej 30 dni. Można byłoby udoskonalić leczenie pacjentów z atakiem serca i wzbogacić teorię medycyny dotyczącą zawału serca, gdyby dało się pomiary wykonane zaraz po przyjęciu do szpitala wykorzystać do identyfikacji pacjentów wysokiego ryzyka (tych, którzy prawdopodobnie nie przeżyją 30 dni). Drzewo klasyfikacyjne tego problemu, które opracowali Breiman i in. (1984) było proste i opierało się na trzech pytaniach. W sposób werbalny takie binarne drzewo klasyfikacyjne można opisać następującym stwierdzeniem: "Jeśli minimalne skurczowe ciśnienie krwi pacjenta przez pierwsze 24 godziny jest większe niż 91, wtedy jeśli wiek pacjenta wynosi ponad 62,5 roku, wtedy jeśli pacjent wykazuje częstoskurcz zatokowy (sinus tachycardia), wtedy i tylko wtedy przewiduje się, że pacjent nie przeżyje przez co najmniej 30 dni". Takie stwierdzenie łatwo przełożyć na "drzewo klasyfikacyjne". Pytania zadaje się w porządku hierarchicznym i ostateczna powzięta decyzja zależy od odpowiedzi na wszystkie poprzednie pytania. Podobnie można opisać zależność liścia od drzewa, na którym rośnie, przez hierarchię podziałów gałęzi (począwszy od pnia) prowadzących do ostatniej gałęzi, z której wyrasta liść. Hierarchiczna natura jest jedną z podstawowych własności drzew klasyfikacyjnych (analogii do drzew w naturze nie należy brać zbyt poważnie; większość drzew klasyfikacyjnych rysuje się od góry do dołu, a więc bardziej precyzyjna, jeśli chodzi o naturę, byłaby analogia do systemu korzeni, która jest raczej mało literacka).

Hierarchiczną naturę drzew klasyfikacyjnych ilustruje porównanie do procedury podejmowania decyzji zastosowane w Analizie dyskryminacyjnej . W wyniku tradycyjnej liniowej analizy dyskryminacyjnej otrzymalibyśmy zestaw współczynników definiujących jedną kombinację liniową ciśnienia krwi, wieku pacjenta i pomiarów częstoskurczu zatokowego (sinus tachycardia), które najlepiej różnicują pacjentów niskiego ryzyka i pacjentów wysokiego ryzyka. Wartość liniowej funkcji dyskryminacyjnej dla każdego pacjenta byłaby obliczona jako złożenie pomiarów każdego pacjenta dla trzech predyktorów, ważonych przez odpowiednie współczynniki funkcji dyskryminacyjnej. Przewidywana klasyfikacja każdego pacjenta w grupie niskiego lub wysokiego ryzyka opierałaby się na jednoczesnym uwzględnieniu wartości trzech zmiennych predykcyjnych tego pacjenta. To znaczy, niech P (minimalne skurczowe ciśnienie krwi w okresie 24 godzin), A (wiek w latach) i T (wystąpienie częstoskurczu zatokowego: 0 = nie występuje; 1 = występuje) będą zmiennymi predykcyjnymi, p, a, i t są "odpowiednimi współczynnikami" liniowej funkcji dyskryminacyjnej, a c jest "punktem przecięcia" funkcji dyskryminacyjnej, który oddziela dwie klasy pacjentów z atakiem serca. Równanie decyzyjne dla każdego pacjenta miałoby postać. "Jeśli pP + aA + tT - c jest mniejsze lub równe zero, to pacjent znajduje się w grupie niskiego ryzyka, w przeciwnym przypadku w grupie wysokiego ryzyka."

Dla porównania, drzewo klasyfikacyjne, które sformułowali Breimana i in. (1984) miało następującą postać hierarchiczną, przy założeniu, że p, a, i t wynoszą odpowiednio -91, -62,5 i 0: "Jeśli p + P jest mniejsze lub równe zero, pacjent jest w grupie niskiego ryzyka, w innym przypadku jeśli a + A jest mniejsze lub równe zero, pacjent jest w grupie niskiego ryzyka, w innym przypadku jeśli t + T jest mniejsze lub równe zero, pacjent jest w grupie niskiego ryzyka, w innym przypadku pacjent jest w grupie wysokiego ryzyka. Analiza dyskryminacyjna i drzewo klasyfikacyjne mogą powierzchownie wydawać się podobne, ponieważ przy obu metodach są wprowadzone współczynniki i równania decyzyjne. Nie da się wyraźniej podkreślić różnicy między jednoczesnymi decyzjami wyprowadzonymi przy użyciu Analizy dyskryminacyjnej , a decyzjami hierarchicznymi drzew klasyfikacyjnych.

Być może da się różnicę między tymi dwoma podejściami wyjaśnić wyraźniej przez rozważenie, jak można by każdą z tych analiz wykonać stosując Regresję wieloraką . Ponieważ ryzyko w przykładzie, który podają Breiman i in. (1984) jest dychotomiczną zmienną zależną, przewidywania Analizy dyskryminacyjnej można odtworzyć przez jednoczesną regresję wieloraką ryzyka na trzy zmienne predykcyjne dla wszystkich pacjentów. Przewidywania oparte na drzewie klasyfikacyjnym można odtworzyć jedynie przez trzy oddzielne analizy prostej regresji, najpierw ryzyka na P dla wszystkich pacjentów, potem ryzyka na A dla pacjentów nie zaklasyfikowanych do grupy niskiego ryzyka w pierwszej regresji i wreszcie regresję ryzyka na T dla pacjentów nie zaklasyfikowanych do grupy niskiego ryzyka w drugiej regresji. Stanowi to przejrzystą ilustrację jednoczesnej natury decyzji powziętych w oparciu o analizę dyskryminacyjną w porównaniu do rekursywnej, hierarchicznej natury decyzji powziętych w oparciu o drzewa klasyfikacyjne; jest to własność drzew klasyfikacyjnych, która ma daleko idące konsekwencje.

Elastyczność drzew klasyfikacyjnych

Wyróżniającą cechą drzew klasyfikacyjnych jest ich elastyczność. Możliwość badania przy pomocy drzew klasyfikacyjnych wpływu zmiennych predykcyjnych pojedynczo, a nie wszystkich naraz, została już opisana, istnieje jednak wiele innych czynników, które sprawiają, że metody wykorzystujące drzewa klasyfikacyjne są bardziej elastyczne niż tradycyjne analizy. Możliwości wykonywania jednowymiarowych podziałów, badania wpływu predyktorów pojedynczo, jakie dają drzewa klasyfikacyjne mają implikacje dla różnorodności typów predyktorów, które można analizować. W przykładzie, który podają Breiman i in. (1984) na temat ataku serca, ciśnienie krwi i wiek są predyktorami ciągłymi, ale wystąpienie częstoskurczu zatokowego (sinus tachycardia) było predyktorem nominalnym (z dwoma poziomami). Nawet gdyby częstoskurcz zatokowy był mierzony jako trzypoziomowy predyktor nominalny (kodowany jako 0 = nie wystąpił, 1 = wystąpił, 3 = nie rozpoznany lub niepewny), to bez żadnych założeń o ukrytym ciągłym wymiarze reprezentowanym przez wartości przypisane poszczególnym poziomom można byłoby z łatwością wykonać jednowymiarowe podziały przy pomocy tych zmiennych predykcyjnych. Do drzewa klasyfikacyjnego można by dodać dodatkowe decyzje, dla wykorzystania wszelkich uzupełniających informacji na temat ryzyka, które niesie ze sobą ta dodatkowa kategoria. Podsumowując, gdy stosujemy podziały jednowymiarowe, drzewa klasyfikacyjne można obliczać dla predyktorów nominalnych, ciągłych lub jednocześnie obu typów.

Tradycyjna liniowa analiza dyskryminacyjna wymaga, aby zmienne predykcyjne były mierzone co najmniej na skali interwałowej . Interesujące jest, że w przypadku drzew klasyfikacyjnych opartych na podziałach jednowymiarowych dla porządkowych zmiennych predykcyjnych dowolne przekształcenie monotoniczne zmiennych predykcyjnych (tzn. dowolne przekształcenie, które zachowuje porządek wartości zmiennej) wygeneruje podziały dające te same przewidywane klasy przypadków lub obiektów (jeśli wykorzystuje się Metodę C&RT wyboru podziału jednowymiarowego, patrz Breiman i in., 1984). Dlatego drzewa klasyfikacyjne oparte na podziałach jednowymiarowych można obliczać bez względu na to, czy zmiana o jednostkę zmiennej ciągłej reprezentuje zmianę o jednostkę na wymiarze leżącym u podstaw wartości zmiennej predykcyjnej; należy tylko założyć, że predyktory są mierzone co najmniej na skali porządkowej . W skrócie, założenia dotyczące poziomu pomiaru zmiennych predykcyjnych są słabsze.

Drzewa klasyfikacyjne nie ograniczają się do podziałów jednowymiarowych opartych na zmiennych predykcyjnych. Jeśli predyktory ciągłe są faktycznie mierzone co najmniej na skali interwałowej , w analizie drzew klasyfikacyjnych można wyznaczać podziały wykorzystujące kombinacje liniowe analogicznie do podziałów występujących w liniowej analizie dyskryminacyjnej . Jednakże podziały z wykorzystaniem kombinacji liniowych obliczane w module Drzew klasyfikacyjnych istotnie różnią się od podziałów z wykorzystaniem kombinacji liniowych obliczanych w przypadku analizy dyskryminacyjnej . W liniowej analizie dyskryminacyjnej liczba liniowych funkcji dyskryminacyjnych, które można wyodrębnić, jest taka jak mniejsza z liczb: liczby zmiennych predykcyjnych lub liczby klas zmiennej zależnej minus jeden. Podejście rekursywne wprowadzone w przypadku drzew klasyfikacyjnych nie ma tego ograniczenia. Potencjalnie można na przykład wykonywać tuziny rekursywnych podziałów z wykorzystaniem kombinacji liniowych, gdy mamy tuziny zmiennych predykcyjnych, ale tylko dwie klasy zmiennej zależnej. Możemy to porównać z jednym podziałem z wykorzystaniem kombinacji liniowej, który można wykonać stosując tradycyjną, nierekursywną liniową analizę dyskryminacyjną, która mogłaby pozostawić niewykorzystaną poważną ilość informacji zawartych w zmiennych predykcyjnych.

Rozważmy teraz sytuację, gdy mamy wiele kategorii i niewiele predyktorów. Załóżmy, że próbowaliśmy posortować monety w klasy (na przykład jednogroszówki, dwugroszówki, pięciogroszówki i dziesięciogroszówki) w oparciu tylko o pomiary grubości i średnicy. Przy pomocy tradycyjnej liniowej analizy dyskryminacyjnej można wyodrębnić maksymalnie dwie liniowe funkcje dyskryminacyjne, a monety można by pomyślnie posortować, tylko gdyby nie było więcej niż dwa wymiary reprezentowane przez liniowe kombinacje grubości i średnicy, które różniłyby te monety. Powtórzmy, podejście wprowadzone w przypadku drzew klasyfikacyjnych nie stawia ograniczenia co do liczby podziałów kombinacji liniowych, które można sformułować.

Podejście wprowadzone w module Drzew klasyfikacyjnych dla podziałów kombinacji liniowych można także wykorzystać jako analityczną metodę budowy drzew klasyfikacyjnych z wykorzystaniem podziałów jednowymiarowych. W rzeczy samej, podział jednowymiarowy jest tylko przypadkiem szczególnym podziału z wykorzystaniem kombinacji liniowej. Wyobraźmy sobie podział z wykorzystaniem kombinacji liniowej, w którym współczynniki do tworzenia ważonych składowych równałyby się zero dla wszystkich zmiennych predykcyjnych z wyjątkiem jednej. Ponieważ wartości ważonej składowej zależałyby tylko od wartości tej jednej zmiennej predykcyjnej, która ma współczynnik niezerowy, otrzymalibyśmy podział jednowymiarowy.

Podejście wprowadzone w przypadku drzew klasyfikacyjnych dla dyskryminacyjnej metody wyboru podziału jednowymiarowego dla predyktorów nominalnych i porządkowych oraz Dyskryminacyjnej metody wyboru podziału z wykorzystaniem kombinacji liniowej predyktorów porządkowych stanowi adaptację algorytmów użytych w programie QUEST (Quick, Unbiased, Efficient Statistical Trees). QUEST jest to program drzewa klasyfikacyjnego , który opracowali Loh i Shih (1997), a który wykorzystuje modyfikację rekursywnej kwadratowej analizy dyskryminacyjnej i ma wiele własności innowacyjnych poprawiających rzetelność i trafność obliczanych drzew klasyfikacyjnych.

Algorytmy wykorzystane w programie QUEST mają dość techniczny charakter, ale drzewa klasyfikacyjne umożliwiają także stosowanie metody wyboru podziału w oparciu o prostsze podejście. Metoda C&RT wyboru podziału jednowymiarowego stanowi adaptację algorytmów wykorzystanych w programie C&RT , który opisali Breiman i in. (1984). C&RT (Classification And Regression Trees) jest to algorytm drzewa klasyfikacyjnego , który wykorzystuje wyczerpujące poszukiwanie sieciowe wszystkich możliwych podziałów jednowymiarowych.

Możliwości analiz QUEST i C&RT dobrze się uzupełniają. Poszukiwania metodą C&RT mogą być rozwlekłe, gdy mamy dużą liczbę zmiennych predykcyjnych z wieloma poziomami i mogą być obciążone w kierunku wyboru zmiennych predykcyjnych, które mają więcej poziomów do podziałów, ale ponieważ stosuje on wyczerpujące poszukiwanie, gwarantuje znalezienie podziałów, które stanowią najlepszą klasyfikację w próbie uczącej, ale niekoniecznie w próbach do oceny krzyżowej .

QUEST jest szybki i nieobciążony. Przewaga QUEST nad C&RT jest szczególnie dramatyczna, gdy zmienne predykcyjne mają wiele poziomów (Loh & Shih, 1997, przytaczają analizę wykonaną przez QUEST w ciągu 1 sekundy pracy CPU, która zabrała programowi C&RT 30,5 godzin pracy CPU). Nieobciążoność programu QUEST w wyborze podziałów także stanowi ważną przewagę, gdy niektóre zmienne predykcyjne mają niewiele poziomów, a inne wiele poziomów (predyktory z wieloma poziomami mają tendencję do generowania przypadkowo "udanych teorii", które dobrze pasują do danych, ale mają słabą trafność predykcyjną, patrz Doyle, 1973 oraz Quinlan i Cameron-Jones, 1995). Wreszcie, QUEST nie traci trafności predykcyjnej kosztem szybkości (Lim, Loh i Shih, 1997). Obie metody łącznie, QUEST i C&RT , umożliwiają pełne wykorzystanie elastyczności drzew klasyfikacyjnych .

Zalety i pułapki drzew klasyfikacyjnych

Przewaga drzew klasyfikacyjnych nad metodami tradycyjnymi, takimi jak liniowa analiza dyskryminacyjna , przynajmniej w niektórych zastosowaniach, może być zilustrowana przy pomocy prostego, fikcyjnego zbioru danych. Aby przedstawić rzecz uczciwie, inne sytuacje, w których liniowa analiza dyskryminacyjna wykazuje wyższość nad drzewami klasyfikacyjnymi, są zilustrowane przy pomocy drugiego zbioru danych.

Załóżmy, że mamy zapis długości i szerokości geograficznych, przy których 37 sztormów osiągnęło siłę huraganu dla dwóch klas - huraganów Baro i huraganów Trop. Fikcyjne dane pokazane poniżej przedstawili w celach ilustracyjnych Elsner, Lehmiller i Kimberlain (1996), którzy badali różnice między huraganami baroklinowymi a zwrotnikowymi huraganami Północnego Atlantyku.

DANE: Barotrop.sta 3v
DŁUGOŚĆSZEROKOŚĆKLASA
59.00
59.50
60.00
60.50
61.00
61.00
61.50
61.50
62.00
63.00
63.50
64.00
64.50
65.00
65.00
65.00
65.50
65.50
65.50
66.00
66.00
66.00
66.50
66.50
66.50
67.00
67.50
68.00
68.50
69.00
69.00
69.50
69.50
70.00
70.50
71.00
71.50
17.00
21.00
12.00
16.00
13.00
15.00
17.00
19.00
14.00
15.00
19.00
12.00
16.00
12.00
15.00
17.00
16.00
19.00
21.00
13.00
14.00
17.00
17.00
18.00
21.00
14.00
18.00
14.00
18.00
13.00
15.00
17.00
19.00
12.00
16.00
17.00
21.00
BARO
BARO
BARO
BARO
BARO
BARO
BARO
BARO
BARO
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
BARO
BARO
BARO
BARO
BARO
BARO
BARO
BARO
BARO
BARO

Liniowa analiza dyskryminacyjna klasy huraganu (Baro lub Trop) przy użyciu długości i szerokości geograficznej jako predyktorów zaklasyfikowała poprawnie tylko 20 z 37 huraganów (54%). Drzewo klasyfikacyjne dla klasy przy użyciu Metody C&RT wyczerpującego poszukiwania podziałów jednowymiarowych pozwoliło zaklasyfikować poprawnie wszystkie 37 huraganów. Wykres drzewa tego drzewa klasyfikacyjnego znajduje się poniżej.

Nagłówki wykresu podają sumaryczne informacje, że drzewo klasyfikacyjne obejmuje 2 podziały i 3 końcowe węzły. Końcowe węzły lub końcowe liście, jak się je czasem nazywa, są tymi punktami drzewa, poza którymi nie podejmuje się już dalszych decyzji. Na wykresie końcowe węzły naszkicowano kropkowanymi czerwonymi liniami, natomiast pozostające węzły decyzyjne lub węzły podziałów są otoczone ciągłymi czarnymi liniami. Na początku drzewa znajduje się najwyższy węzeł decyzyjny, czasami zwany węzłem źródłowym root node. Na wykresie jest on oznaczony jako węzeł 1 w lewym górnym rogu. Na początku wszystkie 37 huraganów przypisano do węzła źródłowego i tymczasowo sklasyfikowano jako Baro, co wskazuje opis Baro w prawym górnym rogu węzła źródłowego. We wstępnej klasyfikacji wybrano Baro, ponieważ występuje nieco więcej huraganów Baro niż Trop, co widać na histogramie wykreślonym wewnątrz węzła źródłowego. Legenda opisująca, które słupki na histogramach węzłów odpowiadają huraganom Baro i Trop, jest umieszczona w lewym górnym rogu wykresu.

Węzeł źródłowy dzieli się tworząc dwa nowe węzły. Tekst poniżej węzła źródłowego opisuje ten podział. Mówi on, że huragany, dla których długość geograficzna jest mniejsza lub równa 67,75 zostają przypisane do węzła numer 2 i tymczasowo zaklasyfikowane jako Trop, a te huragany, dla których długość geograficzna jest większa niż 67,75 zostały przypisane do węzła numer 3 i zaklasyfikowane jako huragany Baro. Wartości 27 i 10 wpisane powyżej węzłów 2 i 3 wskazują liczbę przypadków przypisanych do każdego z tych dwóch węzłów-potomków pochodzących od ich przodka, węzła źródłowego. Podobnie dalej dzieli się węzeł 2. Podział polega na tym, że 9 huraganów o długościach geograficznych mniejszych lub równych 62,5 zostaje przypisanych do węzła numer 4 i zaklasyfikowanych jako huragany Baro, a pozostałe 18 huraganów o długościach geograficznych większych od 62,5 zostaje przypisanych do węzła numer 5 i zaklasyfikowanych jako huragany Trop.

Wykres drzewa przedstawia wszystkie te informacje w prosty, bezpośredni sposób i prawdopodobnie pozwala uchwycić je znacznie szybciej niż trwa przeczytanie dwóch poprzednich akapitów. Histogramy wykreślone wewnątrz końcowych węzłów drzewa pokazują, że klasyfikacja huraganów uzyskana przy pomocy tego drzewa klasyfikacyjnego jest doskonała. Wszystkie węzły końcowe są "czyste" i nie zawierają huraganów zaklasyfikowanych błędnie. Wszystkie informacje Wykresu drzewa znajdują się także w arkuszu Struktury drzewa pokazanym poniżej.

Struktura drzewa (barotrop.sta)
DRZEWA
KLASYFIKACYJNE
Węzły - potomkowie, liczności klas obserwowanych,
klasa przewidywana i warunki podziału każdego węzła
 
Węzeł
Lewa
gałąź
Prawa
gałąź
n w klasie
BARO
n w klasie
TROP
Przewidywana
klasa
Stała
podziału
Zmienna
podziału
1
2
3
4
5
2
4
 
 
 
3
5
 
 
 
19
  9
10
  9
  0
18
18
  0
  0
18
BARO
TROP
BARO
BARO
TROP
-67.75
-62.50
 
 
 
DŁUGOŚĆ
DŁUGOŚĆ
 
 
 

Po uzyskaniu podziałów jednowymiarowych, zmienne predykcyjne można porangować na skali od 0 do 100 w zależności od tego, na ile są ważne, jeśli chodzi o wpływ na wartości zmiennej zależnej. W tym przykładzie wyraźnie bardzo ważna jest długość geograficzna, podczas gdy szerokość geograficzna stosunkowo mniej.

Analiza drzewa klasyfikacyjnego dla Klasy wykonana przy pomocy dyskryminacyjnej metody wyboru podziału jednowymiarowego daje podobne wyniki. Arkusz struktury drzewa tej analizy pokazuje, że podziały przy -63.4716 i -67.7516 są bardzo podobne do podziałów uzyskanych przy pomocy Metody C&RT wyczerpującego poszukiwania podziałów jednowymiarowych, chociaż 1 huragan Trop przy węźle końcowym 2 został błędnie zaklasyfikowany jako Baro.

Struktura drzewa (barotrop.sta)
DRZEWA
KLASYFIKACYJNE
Węzły - potomkowie, liczności klas obserwowanych,
klasa przewidywana i warunki podziału każdego węzła
 
Węzeł
Lewa
gałąź
Prawa
gałąź
n w klasie
BARO
n w klasie
TROP
Przewidywana
klasa
Stała
podziału
Zmienna
podziału
1
2
3
4
5
2
 
4
 
 
3
 
5
 
 
19
  9
10
  0
10
18
  1
17
17
0
BARO
BARO
TROP
TROP
BARO
-63.4716
 
-67.7516
 
 
DŁUGOŚĆ
 
DŁUGOŚĆ
 
 

Skategoryzowany wykres rozrzutu dla Długości i Szerokości geograficznej pokazuje wyraźnie, dlaczego analiza dyskryminacyjna dała tak fatalny wynik przy przewidywaniu Klasy i dlaczego analiza oparta na drzewie klasyfikacyjnym wypadła tak dobrze.

Na wykresie tym widać wyraźnie, że nie ma silnej liniowej zależności między długością lub szerokością geograficzną a Klasą ani żadną możliwą kombinacją liniową długości i szerokości geograficznej a Klasą. Klasa nie jest funkcyjnie związana z długością lub szerokością geograficzną, przynajmniej w sensie liniowym. Podział LDF (Linear Discriminant Function Split - podział oparty na liniowej funkcji dyskryminacyjnej) pokazany na wykresie opiera się niemalże na "strzelaniu w ciemno" przy próbie oddzielenia przewidywanych huraganów Trop (powyżej linii podziału) od przewidywanych huraganów Baro (poniżej linii podziału). Podziały jednowymiarowe typu C&RT , ponieważ nie ograniczają się do jednej kombinacji liniowej wartości długości i szerokości geograficznej, umożliwiają znalezienie "punktów przecięcia" na wymiarze długości geograficznej, które pozwalają na najlepszą możliwą (w tym przypadku doskonałą) klasyfikację Klasy huraganu.

Teraz omówimy sytuację ilustrującą pułapki drzewa klasyfikacyjnego . Załóżmy, że mamy następujące dane na temat huraganów.

DATA: Barotro2.sta 3v
DŁUGOŚĆSZEROKOŚĆKLASA
59.00
59.50
60.00
60.50
61.00
61.00
61.50
61.50
62.00
63.00
63.50
64.00
64.50
65.00
65.00
65.00
65.50
65.50
65.50
66.00
66.00
66.00
66.50
66.50
66.50
67.00
67.50
68.00
68.50
69.00
69.00
69.50
69.50
70.00
70.50
71.00
71.50
17.00
21.00
12.00
16.00
13.00
15.00
17.00
19.00
14.00
15.00
19.00
12.00
16.00
12.00
15.00
17.00
16.00
19.00
21.00
13.00
14.00
17.00
17.00
18.00
21.00
14.00
18.00
14.00
18.00
13.00
15.00
17.00
19.00
12.00
16.00
17.00
21.00
BARO
BARO
TROP
BARO
TROP
TROP
BARO
BARO
TROP
TROP
BARO
TROP
TROP
TROP
TROP
BARO
TROP
BARO
BARO
TROP
TROP
BARO
BARO
BARO
BARO
TROP
BARO
TROP
BARO
TROP
TROP
TROP
BARO
TROP
TROP
TROP
BARO

Liniowa analiza dyskryminacyjna Klasy huraganu (Baro i Trop) przy użyciu długości i szerokości geograficznej jako predyktorów doprowadziła do poprawnego zaklasyfikowania wszystkich 37 huraganów. Analiza drzewa klasyfikacyjnego dla Klasy przy użyciu metody C&RT wyczerpującego poszukiwania podziałów jednowymiarowych także doprowadziła do poprawnego zaklasyfikowania wszystkich 37 huraganów, ale drzewo wymaga 5 podziałów dających 6 węzłów końcowych. Który wynik jest łatwiejszy do interpretacji? W przypadku liniowej analizy dyskryminacyjnej surowe współczynniki kanonicznej funkcji dyskryminacyjnej dla długości i szerokości geograficznej dla (jednej) funkcji dyskryminacyjnej wynoszą, odpowiednio, 0,122073 i -0,633124, a huragany z większymi wartościami długości i mniejszymi wartościami szerokości geograficznej zostały zaklasyfikowane jako Trop. Interpretacja mogłaby być taka, że huragany na zachodnim Atlantyku przy małych szerokościach geograficznych to prawdopodobnie huragany Trop, a huragany dalej na wschód Atlantyku przy większych szerokościach geograficznych to prawdopodobnie huragany Baro.

Poniżej znajduje się wykres drzewa tej analizy drzewa klasyfikacyjnego wykonanej przy użyciu metody C&RT wyczerpującego poszukiwania podziałów jednowymiarowych.

Można by opisać metodycznie podziały na tym drzewie klasyfikacyjnym , dokładnie tak jak w poprzednim przykładzie, ale ponieważ mamy tu tak dużo podziałów, interpretacja musiałaby być bardziej skomplikowana niż interpretacja jednej funkcji dyskryminacyjnej uzyskanej w za pomocą analizy dyskryminacyjnej.

Przypomnijmy jednak, że przy opisie elastyczności Drzew klasyfikacyjnych wspomniano, że ma on możliwość wykonywania Dyskryminacyjnych podziałów z wykorzystaniem kombinacji liniowych predyktorów porządkowych przy pomocy algorytmu zaczerpniętego z programu QUEST . Wykres drzewa analizy drzewa klasyfikacyjnego wykonanej przy pomocy podziałów kombinacji liniowych jest pokazany poniżej.

Zauważmy, że na tym drzewie tylko jeden podział prowadzi do doskonałego przewidywania. Wszystkie końcowe węzły są "czyste", nie zawierają błędnie zaklasyfikowanych huraganów. Podział z wykorzystaniem kombinacji liniowej węzła źródłowego na lewy węzeł podrzędny (potomek) i prawy węzeł podrzędny (potomek) jest opisany jako "F(0) -0,2342". Oznacza to, że jeżeli huragan ma wartość funkcji podziału (w skrócie F(0)) mniejszą lub równą -0,2342 to zostaje przypisany do węzła lewego potomka i zaklasyfikowany jako Baro, w innym przypadku zostaje przypisany do węzła prawego potomka i zaklasyfikowany jakoTrop. Współczynniki funkcji podziału (0,011741 dla długości geograficznej i -0,060896 dla szerokości) mają te same znaki i podobne względne wielkości do odpowiadających im współczynników liniowej funkcji dyskryminacyjnej uzyskanych przy pomocy liniowej analizy dyskryminacyjnej, zatem obie te analizy są w sensie funkcjonalnym identyczne, przynajmniej jeśli chodzi o przewidywanie Klasy huraganu.

Morał tej historii o zaletach i pułapkach drzew klasyfikacyjnych jest taki, że drzewa klasyfikacyjne są tylko tak dobre, jak wybór opcji analizy wykorzystanych do ich powstania. Przy poszukiwaniu dobrych modeli predykcyjnych niczym nie da się zastąpić dokładnego zrozumienia natury zależności między zmiennymi predykcyjnymi i zależnymi.

Przekonaliśmy się, że analizę drzew klasyfikacyjnych można scharakteryzować jako hierarchiczny, wysoce elastyczny zestaw technik służących do przewidywania przynależności przypadków lub obiektów do klas jakościowej zmiennej zależnej na podstawie pomiarów jednej lub kilku zmiennych predykcyjnych. Mając za sobą wstępne przygotowanie, możemy teraz przystąpić do bardziej szczegółowego omówienia metod obliczania drzew klasyfikacyjnych.

Opis podstawowego celu drzew klasyfikacyjnych znajduje się w części Podstawowe idee. Patrz także Techniki analizy eksploracyjnej i zgłębiania danych (data mining).

Indeks

Metody obliczeniowe

Proces wyliczania drzew klasyfikacyjnych może być scharakteryzowany przez cztery powiązane ze sobą etapy:

  1. Określenie kryterium trafności przewidywania ,
  2. Wybór podziałów ,
  3. Ustalenie reguły zatrzymywania podziału oraz
  4. Wybór "właściwej wielkości" drzewa .

Określenie kryterium trafności przewidywania

Celem analizy drzewa klasyfikacyjnego jest, mówiąc w skrócie, uzyskanie możliwie najbardziej trafnego przewidywania. Niestety trudno o operacyjną definicję trafności przewidywania. W celu rozwiązania problemu definicji trafności przewidywania, problem odwrócono i "najbardziej trafne przewidywanie" operacyjnie definiuje się jako to, które wymaga najmniejszych kosztów. Termin koszty nie powinien być mylnie rozumiany. W wielu typowych zastosowaniach koszty odnoszą się po prostu do proporcji przypadków błędnie zaklasyfikowanych. Pojęcie kosztów zostało wprowadzone jako uogólnienie, na szerszy zakres sytuacji przewidywania, idei, że najlepsze przewidywania charakteryzują się najmniejszym odsetkiem błędnych klasyfikacji.

W sytuacji gdy niektóre chybione przewidywania są bardziej szkodliwe niż inne lub gdy niektóre błędne prognozy mają miejsce częściej niż inne, pojawia się raczej potrzeba minimalizacji kosztów niż tylko problem proporcji błędnie zaklasyfikowanych przypadków. Dla gracza koszty przegrania jednego zakładu (lub przewidywania), na który gracz ten postawił cały swój majątek są większe niż koszty przegrania wielu zakładów (lub przewidywań), na które gracz postawił drobne sumy. I na odwrót, koszty utraty wielu małych zakładów mogą być większe niż koszty utraty kilku większych zakładów. Powinno się włożyć proporcjonalnie większy wysiłek w minimalizację strat zakładów, gdy straty (błędy w przewidywaniu) kosztują nas więcej.

Prawdopodobieństwa a priori. Minimalizacja kosztów nie odpowiada jednak minimalizacji proporcji przypadków zaklasyfikowanych błędnie, jeśli weźmie się prawdopodobieństwa a priori proporcjonalne do wielkości klas i koszty błędnych klasyfikacji równe dla każdej klasy. Najpierw zdefiniujemy prawdopodobieństwa a priori. Prawdopodobieństwa a priori określają, na ile jest prawdopodobne, bez żadnej wstępnej wiedzy na temat wartości zmiennych predykcyjnych w modelu, że dany przypadek lub obiekt należy do danej klasy. Na przykład, w badaniach pedagogicznych na temat przerywania nauki w szkołach średnich może się zdarzyć, że ogólnie, mniejszość uczniów przerywa naukę (tzn. istnieją różne stopy bazowe); zatem prawdopodobieństwo a priori, że uczeń przerwie naukę jest mniejsze niż prawdopodobieństwo, że uczeń będzie ją kontynuował.

Prawdopodobieństwa a priori stosowane w minimalizacji kosztów mogą poważnie wpływać na klasyfikację przypadków lub obiektów. Jeśli w badaniach nie interesuje nas zróżnicowanie stóp bazowych lub wiemy, że w każdej z klas znajduje się mniej więcej równa liczba przypadków, powinniśmy zastosować równe prawdopodobieństwa a priori. Jeśli zróżnicowane stopy bazowe znajdują odzwierciedlenie w licznościach klas (co miałoby miejsce w przypadku próby losowej), to należałoby użyć prawdopodobieństw a priori szacowanych przez proporcje klas w próbie. Jeśli wreszcie mamy pewną wiedzę na temat stóp bazowych (na przykład opieramy się na poprzednim badaniu), to określimy prawdopodobieństwa a priori zgodnie z tą wiedzą. Ogólnie chodzi o to, że względne wielkości prawdopodobieństw a priori przypisanych do każdej klasy mogą być wykorzystane do skorygowania "ważności" błędnych klasyfikacji dla każdej klasy. Minimalizacja kosztów odpowiada minimalizacji ogólnej proporcji przypadków zaklasyfikowanych błędnie, gdy weźmiemy prawdopodobieństwa a priori proporcjonalne do wielkości klas (a koszty błędnych klasyfikacji równe dla każdej klasy), ponieważ przewidywanie powinno być lepsze w przypadku większych klas, aby dać niższą ogólną stopę błędnych klasyfikacji.

Koszty błędnych klasyfikacji. Czasami, z powodów nie związanych ze względnymi wielkościami klas, pożądana jest bardziej trafna klasyfikacja w przypadku pewnych klas niż w przypadku innych. Niezależnie od względnej częstości bardziej pożądane może być rozpoznanie nosicieli choroby, którzy mogą zarażać innych niż tych nosicieli, którzy nie roznoszą choroby. Jeśli założymy, że niewiele tracimy, gdy unikamy osoby, która nie zaraża, a wiele tracimy, gdy nie unikamy osoby, która zaraża, powinniśmy określić wyższe koszty błędnej klasyfikacji w przypadku błędnej klasyfikacji zakaźnego nosiciela jako niezakaźnego niż w przypadku błędnej klasyfikacji osoby, która nie zaraża jako nosiciela zakaźnego. Powtórzmy jednak, że minimalizacja kosztów odpowiada minimalizacji proporcji przypadków zaklasyfikowanych błędnie, gdy bierze się prawdopodobieństwa a priori proporcjonalne do wielkości klas, a koszty błędnej klasyfikacji równe dla każdej klasy.

Wagi przypadków. Z problemem minimalizacji kosztów wiąże się także wykorzystanie wag przypadków zakodowanych w zmiennej ważącej jako mnożników przypadków dla zagregowanych zbiorów danych. Interesujące jest to, że alternatywą do stosowania wag przypadków dla zagregowanych zbiorów danych może być określenie odpowiednich prawdopodobieństw a priori i kosztów błędnej klasyfikacji. Można w ten sposób otrzymać te same wyniki unikając, jednocześnie dodatkowego przetwarzania wymaganego w analizie wielu przypadków z tymi samymi wartościami dla wszystkich zmiennych. Załóżmy, że w zagregowanym zbiorze danych z dwoma klasami o równej liczbie przypadków występują wagi równe 2 dla wszystkich przypadków w pierwszej klasie i wagi równe 3 dla wszystkich przypadków w drugiej klasie. Jeśli określimy prawdopodobieństwa a priori jako, odpowiednio, 0,4 i 0,6, wprowadzimy równe koszty błędnej klasyfikacji i przeanalizujemy te dane bez wag przypadków, otrzymamy takie same stopy błędnych klasyfikacji, jakie otrzymalibyśmy, gdybyśmy określili prawdopodobieństwa a priori oszacowane na podstawie wielkości klas, wprowadzili równe koszty błędnej klasyfikacji i przeanalizowali ten zagregowany zbiór danych przy użyciu wag przypadków. Te same stopy błędnych klasyfikacji otrzymalibyśmy także, gdybyśmy określili równe prawdopodobieństwa a priori oraz koszty błędnej klasyfikacji przypadków klasy 1 jako przypadków klasy 2 równe 2/3 kosztów błędnej klasyfikacji przypadków klasy 2 zakwalifikowanych jako przypadki klasy 1 i przeanalizowali te dane bez wag przypadków.

Zależności między prawdopodobieństwami a priori, kosztami błędnej klasyfikacji i wagami przypadków są dość skomplikowane niemal we wszystkich sytuacjach (patrz Breiman i in., 1984; Ripley, 1996). Jednak w analizach, w których minimalizacja kosztów odpowiada minimalizacji stopy błędnych klasyfikacji, kwestie te nie powinny rodzić problemów. Kwestie związane z prawdopodobieństwami a priori, kosztami błędnej klasyfikacji oraz wagami przypadków zostały tutaj poruszone w celu zilustrowania różnorodności sytuacji predykcyjnych, z którymi można sobie radzić przy pomocy pojęcia minimalizacji kosztów w porównaniu do raczej ograniczonych (choć być może typowych) sytuacji predykcyjnych, z którymi możemy sobie radzić stosując węższą (ale prostszą) ideę minimalizacji stóp błędnych klasyfikacji. Co więcej, minimalizacja kosztów jest podstawowym celem analizy drzew klasyfikacyjnych i bezpośrednio służy jej czwarty i ostatni podstawowy etap analizy drzewa klasyfikacyjnego. Na tym etapie, jako drzewo "właściwej wielkości" wybieramy to, które charakteryzuje się minimalnymi oszacowanymi kosztami. W zależności od typu problemu predykcyjnego, który chcemy rozwiązać, zrozumienie idei redukcji oszacowanych kosztów może być ważne dla zrozumienia wyników tej analizy.

Wybór podziałów

Drugi podstawowy etap w analizie drzewa klasyfikacyjnego polega na wybraniu podziałów w oparciu o zmienne predykcyjne, które są wykorzystane do przewidywania przynależności przypadków lub obiektów do klas wyznaczonych przez zmienne zależne. Nic dziwnego, że przy hierarchicznej naturze drzew klasyfikacyjnych podziały te są wybierane pojedynczo, począwszy od podziału przy węźle źródłowym; dalej następują podziały wynikowych węzłów-potomków, aż dzielenie zostaje przerwane, a węzły, które nie zostają podzielone stają się węzłami końcowymi. Poniżej omówione są trzy metody wyboru podziałów.

Dyskryminacyjne podziały jednowymiarowe. W przypadku metody dyskryminacyjnych podziałów jednowymiarowych, pierwszym krokiem podziału jest wyznaczenie, który końcowy węzeł bieżącego drzewa najlepiej podzielić oraz zmiennej predykcyjnej dla tego podziału. Dla każdego węzła końcowego oblicza się poziomy prawdopodobieństwa testowego p dla testów istotności zależności przynależności do klasy od poziomów każdej zmiennej predykcyjnej. W przypadku predyktorów nominalnych obliczane są wartości dla testów niezależności chi-kwadrat przynależności do klas i poziomów predyktora nominalnego, który występuje przy tym węźle. W przypadku predyktorów porządkowych oblicza się wartości p dla analiz wariancji ANOVA zależności klas od wartości predyktora porządkowego, który występuje przy tym węźle. Jeśli najmniejszy obliczony poziom p jest mniejszy od poziomu istotności skorygowanego zgodnie z nierównością Bonferroniego dla porównań wielokrotnych (domyślny poziom istotności wynosi 0,05, ale można określić inną wartość progową), to zmienna predykcyjna, dla której występuje ten najmniejszy poziom p zostaje wybrana do podziału odpowiadającego jej węzła. Jeśli nie wystąpi wartość p mniejsza niż progowy poziom, oblicza się wartości p dla testów statystycznych, które są odporne na niedotrzymanie założeń o rozkładzie, takich jak F Levene'a. Informacje na temat wyboru węzła i zmiennej predykcyjnej, gdy żadna wartość p nie jest mniejsza niż wartość progowa, znajdują się w pracy: Loh i Shih (1997).

Następny etap polega na wyznaczeniu podziału. W przypadku predyktorów porządkowych do utworzenia dwóch "superklas" dla danego węzła stosuje się algorytm grupowania metodą 2-średnich Hartigana i Wonga (1979, patrz także Analiza skupień ). Znajduje się dwa pierwiastki równania kwadratowego opisującego różnicę średnich predyktora porządkowego w "superklasach", a następnie oblicza się wartości podziału odpowiadające tym pierwiastkom. Wybiera się podział najbliższy średniej superklasy. W przypadku predyktorów nominalnych tworzy się zmienne zero-jedynkowe reprezentujące poziomy tych predyktorów, następnie stosuje się metody dekompozycji wartości osobliwej do przekształcenia zmiennych zero-jedynkowych na zbiór nieredundantnych predyktorów porządkowych. Potem wykorzystuje się procedury właściwe dla predyktorów porządkowych, a otrzymany podział jest "z powrotem odwzorowywany" na pierwotne poziomy zmiennej nominalnej i reprezentowany jako kontrast między dwoma zbiorami poziomów tej zmiennej nominalnej. Dalsze szczegóły dotyczące tych procedur można znaleźć w pracy: Loh i Shih (1997). Chociaż są to procedury skomplikowane, redukują one obciążenie w wyborze podziału, które pojawia się, gdy do wyboru podziałów stosujemy metodę C&RT (patrz C&RT). Jest to obciążenie w kierunku wyboru do podziałów zmiennych, które mają więcej poziomów, obciążenie, które może zniekształcić interpretację względnej ważności predyktorów w wyjaśnianiu odpowiedzi zakodowanych w zmiennej zależnej (Breiman i in., 1984).

Dyskryminacyjne podziały z wykorzystaniem kombinacji liniowych. Drugą metodą podziału są dyskryminacyjne podziały z wykorzystaniem kombinacji liniowych dla zmiennych porządkowych (chociaż zakłada się, że predyktory są mierzone co najmniej na skalach interwałowych ). Co ciekawe, przy metodzie tej traktuje się predyktory ciągłe, na podstawie których formuje się kombinacje liniowe, w podobny sposób jak traktuje się predyktory nominalne przy stosowaniu poprzedniej metody. Do przekształcenia ciągłych predyktorów w nowy zbiór predyktorów nieredundantnych stosuje się metody dekompozycji wartości osobliwej. Wprowadza się procedury tworzenia "superklas" i poszukiwania podziału najbliższego średniej "superklasy", a wyniki odwzorowuje się "z powrotem" na pierwotne predyktory ciągłe i reprezentuje jako podział jednowymiarowy dokonany na podstawie kombinacji liniowej zmiennych predykcyjnych.

Metoda C&RT wyczerpującego poszukiwania podziałów jednowymiarowych. Trzecią opcją wyboru podziału jest wyczerpujące poszukiwanie podziałów jednowymiarowych dla nominalnych lub porządkowych zmiennych predykcyjnych (patrz C&RT ). W tym przypadku sprawdzane są wszystkie możliwe podziały dla każdej zmiennej predykcyjnej w celu znalezienia podziału, przy którym następuje największa poprawa dobroci dopasowania (lub największa redukcja braku dopasowania). Co wyznacza dziedzinę możliwych podziałów przy danym węźle? Dla nominalnych zmiennych predykcyjnych z k poziomami występującymi przy danym węźle mamy 2(k -1) - 1 możliwych kontrastów między dwoma zbiorami poziomów tego predyktora. Dla predyktorów porządkowych z k różnymi poziomami występującymi przy danym węźle mamy k -1 środkowych punktów między różnymi poziomami. Widać zatem, że liczba możliwych podziałów, które muszą być przeanalizowane może być bardzo duża, jeśli będziemy mieli dużo predyktorów z wieloma poziomami, które muszą być analizowane przy wielu węzłach.

Jak określić poprawę dobroci dopasowania? Dostępne są trzy miary dobroci dopasowania. Miara Giniego zanieczyszczenia węzła osiąga wartość zero, gdy w danym węźle wystąpi tylko jedna klasa (przy prawdopodobieństwach a priori oszacowanych na podstawie wielkości klas oraz równych kosztach błędnej klasyfikacji miarę Giniego oblicza się jako sumę iloczynów wszystkich par proporcji klas w danym węźle; osiąga ona wartość maksymalną, gdy liczności klas w danym węźle są równe). Miara Giniego była preferowaną miarą dobroci dopasowania przez twórców programu C&RT (Breiman i in., 1984). Dwie pozostałe możliwości to chi-kwadrat , podobny do chi-kwadrat Bartletta (Bartlett, 1948) oraz G-kwadrat, podobny do chi-kwadrat największej wiarygodności stosowany w modelowaniu równań strukturalnych . Metoda C&RT wyczerpującego poszukiwania podziałów jednowymiarowych działa w ten sposób, że szuka się podziału, który maksymalizuje redukcję wartości wybranej miary dobroci dopasowania. Doskonałe dopasowanie oznacza doskonałą klasyfikację.

Ustalenie reguły zatrzymywania podziału

Trzeci etap analizy drzewa klasyfikacyjnego polega na rozstrzygnięciu, kiedy należy zakończyć dzielenie. Jedna z własności drzew klasyfikacyjnych polega na tym, że jeśli nie nałoży się ograniczenia na liczbę wykonywanych podziałów, ostatecznie dostanie się "czystą" klasyfikację, w której każdy końcowy węzeł będzie zawierał tylko jedną klasę przypadków lub obiektów. "Czysta" klasyfikacja jest jednak mało realistyczna. Nawet proste drzewo klasyfikacyjne, takie jak w przypadku sortera monet, może generować nieczyste klasyfikacje dla monet, które są zniekształcone lub gdy otwory w torze zmienią wielkość w wyniku zużycia. Można by temu zaradzić przez dalsze sortowanie monet, które wpadły do otworów, ale i tak w którymś momencie musielibyśmy zakończyć sortowanie i przyjąć, że monety zostały względnie dobrze posortowane.

Podobnie, jeśli obserwowane klasyfikacje przypadków w kategoriach zmiennej zależnej lub poziomy zmiennej predykcyjnej w analizie drzewa klasyfikacyjnego są mierzone z błędem lub zawierają "szum", to kontynuacja sortowania, aż do momentu uzyskania "czystych" węzłów końcowych jest nierealistyczna. Przytoczymy tu dwie opcje sterowania decyzją zakończenia procesu podziału. Obie te opcje są związane z wyborem reguły stopu określonej w analizie.

Minimalna liczność (n). Podziały mogą zostać zakończone, gdy wszystkie węzły końcowe są czyste lub zawierają nie więcej niż określoną minimalną liczbę przypadków lub obiektów. Pożądaną minimalną liczbę przypadków w węźle podajemy w polu Minimalna liczność (n), a podziały zostaną zatrzymane, gdy wszystkie węzły końcowe zawierające więcej niż jedną klasę będą miały nie więcej niż określoną liczbę przypadków lub obiektów.

Frakcja obiektów. Inna możliwość sterowania zakończeniem podziałów polega na dopuszczeniu do kontynuowana podziałów do czasu, gdy wszystkie węzły końcowe są czyste lub zawierają nie więcej przypadków niż określona minimalna frakcja liczności jednej lub więcej klas. Podajemy pożądaną minimalną frakcję obiektów, a jeśli prawdopodobieństwa a priori stosowane w analizie są równe i wielkości klas są równe, to dzielenie węzłów zostanie zakończone, gdy wszystkie węzły końcowe zawierające więcej niż jedną klasę, będą miały nie więcej przypadków niż określona frakcja wielkości klas dla jednej lub więcej klas. Jeśli prawdopodobieństwa a priori w analizie nie są równe, dzielenie zostanie zatrzymane, gdy wszystkie węzły końcowe zawierające więcej niż jedną klasę będą miały nie więcej przypadków niż określona frakcja dla jednej lub więcej klas.

Wybór "właściwej wielkości" drzewa

Po nocy spędzonej na wyścigach konnych pilny gracz wyznacza ogromne drzewo klasyfikacyjne z wieloma podziałami, które doskonale wyjaśnia wygraną, miejsce, przyjście w pierwszej trójce (lub poza nią) dla każdego konia i w każdej gonitwie. Oczekując, że stanie się bogaty, gracz bierze kopię wykresu drzewa na wyścigi następnego wieczoru. Korzystając z drzewa klasyfikacyjnego gracz przewiduje wyniki wszystkich gonitw, robi zakłady i opuszcza tor wyścigowy znacznie mniej wzbogacony niż przewidywał. Biedny gracz bezsensownie założył, że drzewo klasyfikacyjne obliczone na podstawie próby uczącej, której wyniki są wcześniej znane, równie dobrze sprawdzi się w przewidywaniu wyników w drugiej, niezależnej próbie testowej. Drzewo klasyfikacyjne naszego gracza kiepsko wypadło podczas oceny krzyżowej (cross-validation). Zysk gracza mógłby być większy, gdyby użył on mniejszego drzewa klasyfikacyjnego, które nie klasyfikowałoby doskonale danych w próbie uczącej, ale po którym można by oczekiwać równie dobrych przewidywań dla nowych danych (tj. w próbie testowej).

Można sformułować kilka uogólnień na temat tego, co stanowi drzewo klasyfikacyjne "właściwej wielkości". Wyjaśnienie znanych faktów powinno być dostatecznie złożone, ale jednocześnie powinno być na tyle proste, na ile to możliwe. Powinno wykorzystywać informacje, które zwiększają trafność przewidywań i pomijać informacje, które nie są w tym celu przydatne. Powinno ono, jeśli to możliwe, prowadzić do lepszego zrozumienia zjawisk, których dotyczy. Oczywiście stosuje się to do każdej teorii naukowej, więc musimy spróbować lepiej określić to, co składa się na "właściwą wielkość" drzewa klasyfikacyjnego. Jedna strategia polega na budowaniu drzewa do określonej "właściwej wielkości", gdzie właściwa wielkość jest wyznaczona przez użytkownika na podstawie wiedzy z poprzednich badań, informacji diagnostycznych uzyskanych w poprzednich analizach lub choćby intuicji. Druga strategia polega na wykorzystaniu do wyboru drzewa "właściwej wielkości" zbioru dobrze udokumentowanych, ustrukturowanych procedur, które opracowali Breiman i in. (1984). Procedury te nie są niezawodne, co przyznają Breiman i in. (1984), ale przynajmniej z procesu wyboru drzewa "właściwej wielkości" eliminują subiektywne sądy.

Bezpośrednie zatrzymywanie typu FACT. Zaczniemy od opisu pierwszej strategii, przy której sami określamy wielkość rozrostu drzewa klasyfikacyjnego . Strategia ta jest stosowana po wybraniu w analizie bezpośredniego zatrzymywania typu FACT jako Reguły stopu oraz po określeniu Frakcji obiektów , która pozwala drzewu rozrastać się do pożądanej wielkości. Jest kilka możliwości otrzymania informacji diagnostycznych określających sensowność wyboru wielkości drzewa. W szczególności, do wykonania sprawdzianu krzyżowego wybranego drzewa klasyfikacyjnego możemy wykorzystać trzy opcje.

Sprawdzian krzyżowy na podstawie próby testowej. Pierwszy i preferowany typ sprawdzania krzyżowego to sprawdzian krzyżowy na podstawie próby testowej. Przy tym typie testu drzewo klasyfikacyjne oblicza się na podstawie próby uczącej, a jego trafność przewidywania jest testowana przez zastosowanie go do przewidywania przynależności do klas w próbie testowej. Jeśli koszty w próbie testowej przewyższą koszty w próbie uczącej (pamiętajmy, koszty równają się proporcji przypadków błędnie zaklasyfikowanych, gdy prawdopodobieństwa a priorioszacowane, a koszty błędnej klasyfikacji są równe), to wskazuje to na słaby wynik i można się spodziewać, że drzewo innej wielkości mogłoby dać lepszy rezultat. Próby uczącą i testową można utworzyć gromadząc dwa niezależne zbiory danych lub, gdy mamy dużą próbę, wyodrębniając losową proporcję przypadków, powiedzmy jedną trzecią lub jedną drugą, jako próbę testową.

V-krotny sprawdzian krzyżowy. Można wykorzystywać również V-krotny sprawdzian krzyżowy . Ta metoda sprawdzania poprawności drzewa jest przydatna wtedy, gdy nie dysponujemy próbą testową, a próba ucząca jest za mała, aby wyodrębnić z niej próbę testową. Określona przez użytkownika wartość V dla V-krotnego sprawdzianu krzyżowego wyznacza liczbę podprób losowych, możliwie równych sobie wielkością, które są wyodrębnione z próby uczącej. Drzewo klasyfikacyjne określonej wielkości jest obliczane V razy, przy czym za każdym razem opuszcza się w obliczeniach jedną z podprób i wykorzystuje się ją jako próbę testową w sprawdzaniu krzyżowym , zatem każda podpróba jest użytaV - 1 razy w próbie uczącej i tylko jeden raz w charakterze próby testowej. Koszty sprawdzianu krzyżowego obliczone dla każdej z V prób testowych są następnie uśredniane i otrzymujemy V-krotną ocenę kosztów sprawdzianu krzyżowego.

Globalny sprawdzian krzyżowy. Przy globalnym sprawdzianie krzyżowym całą analizę powtarza się określoną liczbę razy eliminując część próby uczącej równą 1 dzielone przez liczbę powtórzeń. Każda wyeliminowana część próby jest wykorzystana jako próba testowa w sprawdzianie krzyżowym wybranego drzewa klasyfikacyjnego. Ten typ sprawdzianu krzyżowego nie jest prawdopodobnie bardziej przydatny niż V-krotny sprawdzian krzyżowy, gdy stosujemy bezpośrednie zatrzymywanie typu FACT, ale może być bardzo cenny jako metoda sprawdzania, gdy stosujemy automatyczne techniki wyboru drzewa (rozważania na ten temat prowadzą Breiman i in., 1984). Prowadzi nas to do drugiej z dwóch strategii, które mogą być stosowane do wyboru drzewa "właściwej wielkości", metody automatycznego wyboru drzewa w oparciu o technikę, którą opracowali Breiman i in. (1984), nazywaną przycinaniem na podstawie minimalizacji kosztów i złożoności drzewa w sprawdzianie krzyżowym.

Przycinanie na podstawie minimalizacji kosztów i złożoności drzewa w sprawdzianie krzyżowym. W zależności od Reguły stopu możemy wybrać różne metody przycinania. Przycinanie na podstawie minimalizacji kosztów i złożoności drzewa jest stosowane, jeśli zdecydujemy się jako regułę stopu zastosować przycięcie przy błędzie złej klasyfikacji, natomiast przycinanie na podstawie minimalizacji odchyleń i złożoności drzewa jest wykonywane, jeśli jako regułę stopu zastosujemy przycięcie przy odchyleniu. Opcje te różni jedynie miara błędu przewidywania. W przycinaniu przy błędzie złej klasyfikacji stosuje się koszty, o których już nieraz wspominaliśmy (a które równają się stopie błędnych klasyfikacji, gdy prawdopodobieństwa a prioriszacowane, a koszty błędnej klasyfikacjirówne). W przycinaniu przy odchyleniu stosuje się miarę, wprowadzoną w oparciu o zasadę największej wiarygodności, zwaną dewiacją (patrz Ripley, 1996). Skupimy się na przycinaniu w oparciu o koszty-złożoność na podstawie sprawdzianu krzyżowego (które zapoczątkowali Breiman i in., 1984), ponieważ przycinanie oparte na dewiacji-złożoności różni się jedynie miarą błędu przewidywania.

Koszty związane z przycinaniem koszt-złożoność są obliczane, gdy drzewo się rozrasta, począwszy od podziału przy węźle źródłowym, aż do momentu, gdy osiągnie maksymalną wielkość, wyznaczoną przez określoną minimalną liczność (n). Koszty dla próby uczącej są obliczane wtedy, gdy do drzewa zostaje dodany każdy następny podział, zatem sekwencja ogólnie malejących kosztów (odzwierciedlających lepszą klasyfikację) odpowiada liczbie podziałów drzewa. Koszty dla próby uczącej nazywa się kosztami resubstytucji, dla odróżnienia ich od kosztów sprawdzianu krzyżowego, ponieważ gdy do drzewa zostaje dodany każdy następny podział, wykonywany jest także V-krotny sprawdzian krzyżowy. Do obliczenia kosztów dla węzła źródłowego stosujemy oszacowane koszty sprawdzianu krzyżowego na podstawie V-krotnego sprawdzianu krzyżowego. Zauważmy, że można wziąć wielkość drzewa równą liczbie węzłów końcowych, ponieważ w przypadku drzew binarnych wielkość drzewa zaczyna się od jedności (przy węźle źródłowym) i wzrasta o jeden przy każdym następnym podziale. Zdefiniujmy teraz parametr zwany parametrem złożoności, którego początkowa wartość wynosi zero i dla każdego drzewa (łącznie z pierwszym, zawierającym tylko jeden węzeł źródłowy) obliczmy wartość funkcji zdefiniowanej jako koszty dla każdego drzewa plus parametr złożoności razy wielkość drzewa. Zwiększamy nieprzerwanie parametr złożoności, aż wartość funkcji dla największego drzewa przekroczy wartość funkcji dla mniejszego drzewa. Weźmy mniejsze drzewo jako nowe największe drzewo, powiększajmy dalej parametr złożoności, aż wartość funkcji dla największego drzewa przekroczy wartość funkcji dla mniejszego drzewa i postępujmy tak dalej, aż węzeł źródłowy będzie największym drzewem. (Czytelnicy, którym bliska jest analiza numeryczna rozpoznają w tym algorytmie zastosowanie funkcji kary. Funkcja ta jest liniową kombinacją kosztów, które ogólnie maleją wraz ze wzrostem drzewa, oraz wielkości drzewa, która liniowo wzrasta. Gdy wzrasta parametr złożoności, większe drzewa są coraz bardziej karane za ich złożoność, aż do momentu osiągnięcia progu, przy którym większa złożoność większego drzewa przewyższa wyższe koszty mniejszego drzewa.)

Sekwencja największych drzew uzyskanych przy pomocy tego algorytmu ma kilka interesujących własności. Są one zagnieżdżone, ponieważ kolejno przycinane drzewa zawierają wszystkie węzły następnego w kolejności mniejszego drzewa. Początkowo, przy przejściu od jednego do następnego w kolejności, mniejszego drzewa, wiele węzłów często zostaje przyciętych, ale przy dochodzeniu do węzła źródłowego przycina się mniej węzłów. Sekwencja największych drzew jest także przycinana optymalnie, ponieważ dla każdej wielkości drzewa w sekwencji nie ma innego drzewa tej samej wielkości, które miałoby mniejsze koszty. Uzasadnienia i wyjaśnienia tych własności znajdują się w: Breiman i in. (1984).

Wybór drzewa po przycięciu. Wybierzemy teraz drzewa "właściwej wielkości" z sekwencji drzew optymalnie przyciętych. Naturalnym kryterium są koszty sprawdzianu krzyżowego. Chociaż nie ma nic złego w wyborze drzewa z minimalnymi kosztami sprawdzianu krzyżowego jako drzewa "właściwej wielkości", to często może się zdarzyć, że będziemy mieli kilka drzew z kosztami sprawdzianu krzyżowego bliskimi minimum. Breiman i in. (1984) sugerują, aby jako drzewo "właściwej wielkości" wybrać drzewo najmniejszej wielkości (najmniej złożone), którego koszty sprawdzianu krzyżowego nie różnią się znacznie od minimalnych kosztów sprawdzianu krzyżowego. Proponują tutaj zasadę jednego błędu standardowego, tzn. jako drzewo "właściwej wielkości" wybieramy drzewo najmniejszych rozmiarów, którego koszty sprawdzianu krzyżowego nie przekraczają minimalnych kosztów sprawdzianu krzyżowego plus 1 błąd standardowy kosztów sprawdzianu krzyżowego dla drzewa o minimalnych kosztach sprawdzianu krzyżowego.

Szczególną zaletą procedury "automatycznego" wyboru drzewa jest to, że pomaga ona uniknąć nadmiernego "dopasowania" lub "niedopasowania" do danych. Poniżej znajduje się typowy wykres Kosztów resubstytucji i Kosztów sprawdzianu krzyżowego dla sekwencji kolejno przycinanych drzew.

Jak widać na tym wykresie, koszty resubstytucji (np. stopa błędnych klasyfikacji w próbie uczącej) mają tendencję do spadku wraz ze wzrostem wielkości drzewa. Z kolei koszty sprawdzianu krzyżowego szybko osiągają minimum, gdy wielkość drzewa na początku rośnie, ale faktycznie zaczynają wzrastać, gdy wielkość drzewa staje się bardzo duża. Zauważmy, że wybrane drzewo "właściwej wielkości" jest bliskie punktowi przegięcia krzywej, to znaczy bliskie punktowi, gdzie początkowy ostry spadek kosztów sprawdzianu krzyżowego przy wzroście wielkości drzewa zaczyna się wyrównywać. Procedura "automatycznego" wyboru drzewa jest przeznaczona do wyboru najprostszego (najmniejszego) drzewa z kosztami sprawdzianu krzyżowego bliskimi minimum, a tym samym unika straty trafności przewidywania, która jest wynikiem "niedopasowania" lub "nadmiernego" dopasowania do danych (zwróćmy uwagę na podobieństwo do logiki leżącej u podstaw wykorzystania "wykresu osypiska " do wyznaczenia liczby czynników interpretowanych w analizie czynnikowej ).

Jak widzieliśmy, przycinanie na podstawie minimalizacji kosztów i złożoności drzewa w sprawdzianie krzyżowym i późniejszy wyborów drzewa "właściwej wielkości" jest faktycznie procesem "automatycznym". Algorytmy podejmują wszystkie decyzje prowadzące do wyboru drzewa "właściwej wielkości", z wyjątkiem określenia wartości Reguły błędu standardowego. Przy wykorzystaniu procedur "automatycznych" pojawia się problem powtarzalności wyników, gdy powtórzenia mogą dotyczyć wyboru drzew o różnych wielkościach w różnych powtórzeniach przy danym procesie "automatycznego" wyboru. Tutaj bardzo pomocny może być globalny sprawdzian krzyżowy. Jak już wcześniej wyjaśniliśmy, w globalnym sprawdzianie krzyżowym całą analizę powtarza się określoną liczbę razy eliminując część przypadków, które zostaną użyte jako próba testowa w sprawdzianie krzyżowym wybranego drzewa klasyfikacyjnego. Jeśli średnie koszty dla prób testowych, zwane globalnymi kosztami sprawdzianu krzyżowego, przekraczają koszty sprawdzianu krzyżowego dla wybranego drzewa lub jeśli błąd standardowy globalnych kosztów sprawdzianu krzyżowego przekracza błąd standardowy kosztów sprawdzianu krzyżowego dla wybranego drzewa, to wskazuje to, że procedura "automatycznego" wyboru drzewa raczej dopuszcza zbyt dużą zmienność w wyborze drzewa niż wybiera spójnie drzewo o minimalnych oszacowanych kosztach.

Drzewa klasyfikacyjne i metody tradycyjne. Jeśli przyjrzymy się metodom stosowanym do tworzenia drzew klasyfikacyjnych, zobaczymy, że pod wieloma względami metody te zdecydowanie różnią się od tradycyjnych metod statystycznych wykorzystywanych do przewidywania przynależności do klasy wyznaczonej przez jakościową zmienną zależną. Wprowadzają one hierarchię przewidywań, czasami z wieloma przewidywaniami dla określonych przypadków, do przypisywania przypadków do klasy. Metody tradycyjne wykorzystują techniki jednoczesne w celu dokonania jednego i tylko jednego przewidywania przynależności do klasy dla każdego przypadku. Pod innymi względami, na przykład takimi, że jej celem jest trafne przewidywanie, analiza drzew klasyfikacyjnych nie różni się od metod tradycyjnych. Czas pokaże, czy analiza drzew klasyfikacyjnych zostanie zaakceptowana na równi z metodami tradycyjnymi.

Więcej podstawowych informacji na temat drzew klasyfikacyjnych znajdziemy w części Podstawowe idee . Natomiast w części Własności drzew klasyfikacyjnych możemy dowiedzieć się między innymi o hierarchicznej naturze i elastyczności drzew klasyfikacyjnych. Patrz także Techniki eksploracyjnej analizy danych i zgłębiania danych .

Indeks

Porównanie programów klasyfikacji danych przeznaczonych do tworzenia drzew klasyfikacyjnych

Do przewidywania przynależności przypadków lub obiektów do klas nominalnej zmiennej zależnej na podstawie pomiarów jednej lub wielu zmiennych predykcyjnych opracowano różnorodne programy. W poprzednim rozdziale, metody obliczeniowe , omówiliśmy programy QUEST (Loh & Shih, 1997) oraz C&RT (Breiman i in., 1984) służące do obliczania binarnych drzew klasyfikacyjnych w oparciu o podziały jednowymiarowe nominalnych zmiennych predykcyjnych, porządkowych zmiennych predykcyjnych (mierzonych co najmniej na skali porządkowej) lub kombinacji jednych i drugich typów predyktorów. Przybliżyliśmy także sposób obliczania drzew klasyfikacyjnych w oparciu o podziały z wykorzystaniem kombinacji liniowych dla zmiennych predykcyjnych mierzonych na skali interwałowej.

Niektóre programy do tworzenia drzew klasyfikacyjnych , takie jak FACT (Loh & Vanichestakul, 1988) i THAID (Morgan & Messenger, 1973, a także pokrewne programy AID do automatycznej detekcji interakcji [Automatic Interaction Detection], Morgan & Sonquist, 1963, i CHAID , do automatycznej detekcji interakcji w oparciu o chi-kwadrat (Chi-Square Automatic Interaction Detection], Kass, 1980) wykonują w czasie obliczania drzew klasyfikacyjnych raczej podziały wielopoziomowe niż podziały binarne. Przy podziale wielopoziomowym wykonuje się k - 1 podziałów (gdzie k jest liczbą poziomów zmiennej użytej do podziału), w porównaniu do podziału binarnego, przy którym wykonuje się jeden podział (niezależnie od liczby poziomów zmiennej użytej do podziału). Należy jednak zauważyć, że nie stanowi to przewagi podziałów wielopoziomowych, ponieważ każdy podział wielopoziomowy może być reprezentowany przez serię podziałów binarnych, natomiast podziały wielopoziomowe mogą mieć pewne wady. Przy podziałach wielopoziomowych zmienne predykcyjne mogą być użyte do podziału tylko raz, więc wynikowe drzewa klasyfikacyjne mogą być zbyt krótkie i nieinteresujące (Loh i Shih, 1997). Poważniejszym problemem jest jednak obciążenie wyboru zmiennych do podziałów. Obciążenie może wystąpić w dowolnym programie, takim jak THAID (Morgan i Sonquist, 1973), który stosuje wyczerpujące poszukiwanie podziałów (patrz Loh i Shih, 1997). Obciążenie w wyborze zmiennej polega na tendencji do wyboru do podziałów takich zmiennych, które mają więcej poziomów i może zniekształcić interpretację względnej ważności predyktorów w wyjaśnianiu odpowiedzi zakodowanych w zmiennej zależnej (Breiman i in., 1984).

Obciążenia w wyborze zmiennej można uniknąć stosując podział dyskryminacyjny (jednowymiarowy albo z wykorzystaniem kombinacji liniowej). Wykorzystuje się wtedy algorytmy programu QUEST (Loh i Shih, 1997) zabezpieczające przed obciążeniem wyboru zmiennej. Metodę C&RT wyczerpującego poszukiwania podziałów jednowymiarowych można wykorzystać, jeśli naszym celem jest znalezienie podziałów dających najlepszą możliwą klasyfikację w próbie uczącej (ale niekoniecznie w niezależnych próbach sprawdzianu krzyżowego). Do wykonania rzetelnych podziałów, przy dużej szybkości obliczeń poleca się opcje podziału dyskryminacyjnego. Więcej informacji znajdziemy w części Metody obliczeniowe .

Budowanie drzew w sposób interakcyjny. Oprócz techniki budowy drzew zaprezentowanej powyżej, istnieje też inna metoda tworzenia drzew, wykorzystująca wiedzę doświadczonego analityka o danym zagadnieniu. W metodzie tej dokonuje się "ręcznie", interakcyjnie, wyborów w trakcie konstruowania drzewa, mających na celu uzyskanie najlepszej zdolności predykcyjnej modelu, przy regresji, czy klasyfikacji. Innymi słowy, zamiast pozostawienia budowy drzewa skomplikowanym, lecz automatycznie działającym algorytmom, dodającym gałęzie do drzewa, dobierającym podziały, to użytkownik może zdecydować o wykorzystaniu pewnych zmiennych i o tym, jakich podziałów na nich dokonać, tworząc gałęzie. Umożliwia to użytkownikowi eksperymentowanie ze zmiennymi, z różnymi podejściami do zagadnienia, pozwalając zdobyć unikalną wiedzę o zagadnieniu, wynikającą z interakcji własnego doświadczenia z "doświadczeniem" zawartym w algorytmach. W praktyce, często łączy się podejście w pełni automatyczne budowania drzew, ze "świadomymi wyborami", bazującymi na eksperckiej wiedzy w danej dziedzinie. Budowę niektórych części drzew możemy zlecić automatycznym algorytmom, by ewentualnie później doprecyzowywać otrzymany model, modyfikując go wg własnego uznania (doświadczenia). Innym powodem ingerencji użytkownika będzie trudność w zdobyciu zmiennych, które algorytm wybrał do budowy niektórych gałęzi. Powiedzmy, na przykład, że algorytm jako użyteczną zmienną podziału wybrał Dochód, tymczasem mamy trudności w zdobyciu informacji o dochodach w następnej próbie, do której chcielibyśmy zastosować otrzymane drzewo (w celu wyszukania osób skłonnych do nabycia naszego produktu). Możemy wtedy wybrać jakąś zastępczą zmienną, taką która w jakimś stopniu mogłaby zastąpić znajomość dochodu klienta. Być może mogłoby to być Wykształcenie? A tą informację jest znacznie łatwiej zdobyć; ludzie chętniej mówią o swoim wykształceniu niż o swoich dochodach.






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.