Trees


OGÓLNE MODELE DRZEW KLASYFIKACYJNYCH I REGRESYJNYCH (GTrees)

Moduł ten zawiera kompletną implementacje metod CART® Breimana, Friedmana, Olshena i Stone'a. Ponadto moduł `GTrees ma też wiele rozszerzeń i opcji, jakich raczej nie spotyka się w typowych implementacjach tego algorytmu, a które są szczególnie przydatne w data mining.

Środowisko pracy użytkownika, definiowanie „modeli”. Dodatkowo, poza standardową analizą (wg Breimana i innych), implementacja omawianych metod w STATISTICA pozwala określać układy typu ANOVA/ANCOVA z ciągłymi lub skategoryzowanymi zmiennymi predykcyjnymi i ich interakcjami. Układy te określamy za pośrednictwem jednego z trzech dostępnych w programie alternatywnych środowisk, analogicznych do tego, co oferują GLM (Ogólne modele liniowe), GLZ (Uogólnione modele liniowe i nieliniowe), GRM (Ogólne modele regresji), GDA (Ogólne modele analizy dyskryminacyjnej)PLS (Modele cząstkowych najmniejszych kwadratów). Szczegółowy ich opis znaleźć można w rozdziałach odpowiadających tym modułom. W skrócie: układy typu ANOVA/ANCOVA dla predyktorów określa się w oknach dialogowych, za pomocą kreatorów lub składni poleceń. Przy tym składnia poleceń zachowuje zgodność pomiędzy modułami, tak że łatwo można stosować te same układy w zupełnie różnych analizach (np. porównując klasyfikację wykonaną w GDA z klasyfikacją wg GTrees ).

Przycinanie drzew, wybór, walidacja. Program ma bardzo wiele opcji sterujących budową drzew, opcji przycinania, jak i wyboru najlepiej dopasowanego rozwiązania. Dla ciągłych zmiennych zależnych (kryterialnych) przycinanie drzewa może bazować na wariancji albo być przycinaniem typu FACT. Natomiast dla zmiennych zależnych skategoryzowanych podstawą do przycinania może być liczba błędnych klasyfikacji, wariancja, można też zastosować przycinanie typu FACT. Użytkownik może określić maksymalną liczbę węzłów drzewa, jak i minimalne n dla węzła. Dostępne są opcje walidacji najlepszego drzewa decyzyjnego: poprzez V-krotne sprawdzenia krzyżowe lub poprzez użycie drzewa do nowych obserwacji pochodzących z próby walidacyjnej. Dla skategoryzowanych (kryterialnych) zmiennych zależnych, czyli w zagadnieniach klasyfikacyjnych, używać można wielu różnych miar do modyfikacji drzewa (tj. algorytmu klasyfikacji) i oceny jakości końcowego drzewa klasyfikacyjnego. Dostępne są opcje ustalania przez użytkownika prawdopodobieństw a priori klasyfikacji, jak i kosztu błędnych klasyfikacji; miary dopasowania, w tym miara Giniego, chi-kwadrat i G-kwadrat.

Brakujące dane i podziały zastępcze. Braki wartości w zmiennych predykcyjnych można „omijać”, pozwalając programowi wyznaczać podziały dla zmiennych zastępczych, tj. zmiennych podobnych do konkretnej zmiennej wyznaczającej dany podział (węzeł).

Układy typu ANOVA/ANCOVA. Dodatkowo, względem tradycyjnej analizy typu C&RT®, zmienne predykcyjne ciągłe i skategoryzowane można łączyć w układy typu ANOVA/ANCOVA i prowadzić analizę, używając macierzy eksperymentu. Można w ten sposób szacować i porównywać złożone modele predykcyjne oraz oceniać zdolność predykcyjną i klasyfikacyjną modeli otrzymanych przy użyciu różnych technik analitycznych (np. Ogólnych modeli liniowych, Uogólnionych modeli nieliniowych, Ogólnej analizy dyskryminacyjnej ).

Eksplorator drzewa. do przeglądania wynikowego drzewa (poza prostym wykresem drzewa) używać można intuicyjnego, interaktywnego eksploratora, który pozwala na zwijanie i rozwijanie węzłów i daje szybki dostęp do najistotniejszej informacji o danym węźle i odpowiedniej klasyfikacji. I tak na przykład klikając węzeł, otrzymujemy informację o liczbie prawidłowych i nieprawidłowych klasyfikacji w tym węźle. Eksplorator drzewa pozwala w bardzo efektywny, a jednocześnie intuicyjny sposób przeglądać drzewa o skomplikowanej strukturze za pomocą typowego w Windows mechanizmu przeglądania struktur hierarchicznych. Równocześnie wyświetlić można wiele eksploratorów zawierających końcowe drzewo i różne, odcięte drzewa składowe. Rozmieszczając różne drzewa obok siebie, porównywać można różne części drzewa i drzewa składowe. STATISTICA Eksplorator drzewa stanowi ważną innowację, pomocną przy interpretowaniu skomplikowanych drzew decyzyjnych.

Interakcyjne przeglądanie drzew. Udostępniono także opcje przeznaczone do interakcyjnego przeglądania drzew. Można to robić za pomocą narzędzi graficznego wyróżniania w STATISTICA lub przez umieszczenie dużych wykresów drzewa w obrębie przewijanego okna graficznego, w którym duże wykresy można badać za pomocą małego (przesuwalnego) okna.

Statystyki wyników. Moduł STATISTICA GTrees oferuje wiele opcji dotyczących wyników. Dla każdego węzła dostępne są wyniki podsumowujące, obliczane są szczegółowe statystyki opisujące klasyfikację (jak koszt klasyfikacji, zysk itd.) Bardzo efektywne podsumowanie charakterystyki odpowiedzi w zagadnieniach klasyfikacyjnych uzyskuje się dzięki unikalnym rozwiązaniom graficznym, obejmującym histogramy dla każdego węzła, szczegółowe wykresy podsumowujące dla zmiennych ciągłych (np. wykresy normalności, rozrzutu), wykresy z wieloma układami współrzędnych dla każdego węzła. Podobnie jak dla wszystkich innych procedur statystycznych w STATISTICA, tak i tu wszystkie wyniki liczbowe mogą być wejściem następnych analiz, co pozwala na dalszą eksplorację wyników i analizowanie obserwacji zaklasyfikowanych do konkretnych węzłów (można na przykład za pomocą modułu GTrees otrzymać wstępną klasyfikacje przypadków, by następnie użyć w GDA metody najlepszego podzbioru do znalezienia dodatkowych zmiennych, które mogłyby być pomocne w dalszej klasyfikacji).

Generatory kodów C (C++, C#), STATISTICA Visual Basic oraz SQL. Informacja zawarta w końcowym drzewie może zostać szybko dołączona do własnych programów lub zapytań za pomocą opcji generatora kodu języka C (C++, C#), STATISTICA Visual Basic lub zapytania w języku SQL. Kod języka STATISTICA Visual Basic zostanie wygenerowany w postaci szczególnie wygodnej do włączenia do własnych węzłów w programie STATISTICA Data Miner.

OGÓLNE MODELE CHAID (Chi-square Automatic Interaction Detection)

Podobnie jak to jest w Ogólnych modelach drzew klasyfikacyjnych i regresyjnych STATISTICA (patrz wyżej), tak i moduł Ogólne modele CHAID jest nie tylko kompletną implementacją oryginalnej techniki, lecz również jej rozszerzeniem o analizowanie układów typu ANOVA/ANCOVA.

Standardowa CHAIDStandardowa CHAID. Analiza CHAID może być wykonywana zarówno dla zmiennych zależnych ciągłych, jak i skategoryzowanych. Wiele opcji pozwala sterować budową drzew hierarchicznych. Użytkownik ma wpływ na minimalną liczbę obiektów w węźle podlegającym podziałowi, maksymalną liczbę węzłów, prawdopodobieństwa podziałów i łączenia kategorii, może też zażądać wyczerpującego przeszukania (Wyczerpująca CHAID ); obliczyć można statystykę walidacyjną V dla sprawdzenia stabilności końcowego rozwiązania; w zagadnieniach klasyfikacyjnych użytkownik może określić swe preferencje, podając własny koszt błędnych klasyfikacji.

Układy typu ANOVA/ANCOVA. Rozszerzeniem w stosunku do tradycyjnej analizy CHAID jest możliwość umieszczania w jednym planie typu ANOVA/ANCOVA zmiennych ciągłych i skategoryzowanych oraz wykonywania analizy na bazie macierzy eksperymentu. Pozwala to testować i porównywać, pod względem zdolności predykcyjnej i klasyfikacyjnej, złożone modele predykcyjne uzyskiwane za pomocą najróżniejszych technik analitycznych, takich jak Ogólne modele liniowe, Uogólnione modele liniowe, Ogólne modele drzew klasyfikacyjnych i regresyjnych itp.).

Eksplorator drzewaEksplorator drzewa. Podobnie jak to jest w przypadku drzew binarnych (patrz: GTrees), wyniki analizy CHAID również można przeglądać za pomocą Eksploratora drzewa STATISTICA. Intuicyjny, o unikalnych właściwościach eksplorator pozwala przeglądać złożone struktury drzew i porównywać wiele różnych rozwiązań (w wielu eksploratorach), stosując metody przeglądania hierarchicznych struktur zgodne z konwencjami Windows. Eksplorator drzewa STATISTICA jest ważną innowacją przydatną w interpretacjach skomplikowanych drzew decyzyjnych. Dodatkowe szczegóły na ten temat znaleźć można wyżej, w opisie eksploratora drzewa w kontekście modułu Ogólne modele drzew klasyfikacyjnych i regresyjnych (GTrees) .

Statystyki wyników. Moduł STATISTICA Ogólne modele CHAID oferuje wiele opcji dotyczących wyników. Dla każdego węzła dostępne są wyniki podsumowujące, obliczane są szczegółowe statystyki opisujące klasyfikację, koszt klasyfikacji itp. Bardzo efektywne podsumowanie charakterystyki odpowiedzi w zagadnieniach klasyfikacyjnych uzyskuje się dzięki ilustracji graficznej, obejmującej histogramy dla każdego węzła, szczegółowe wykresy podsumowujące dla zmiennych ciągłych (np. wykresy normalności, rozrzutu), wykresy z wieloma układami współrzędnych dla każdego węzła. Podobnie jak dla wszystkich innych procedur statystycznych w STATISTICA, tak i tu wszystkie wyniki liczbowe można poddawać dalszej analizie, co pozwala na dalszą eksplorację wyników i analizowanie obserwacji zaklasyfikowanych do konkretnych węzłów (można na przykład za pomocą modułu GTrees otrzymać wstępną klasyfikację przypadków, by następnie użyć w GDA metody najlepszego podzbioru do znalezienia dodatkowych zmiennych, które mogłyby być pomocne w dalszej klasyfikacji).

INTERAKCYJNE DRZEWA KLASYFIKACYJNE I REGRESYJNE

Oprócz metod automatycznej budowy drzewa (GTrees, CHAID), system STATISTICA Data Miner zawiera metody interakcyjnej budowy drzewa. Do budowy drzewa możemy wybrać metodę CHAID lub GTrees, a w każdym kroku reguła podziału może być sformułowana automatycznie lub przez użytkownika (który określa zmienną i warunek podziału). Użytkownik ma pełną kontrolę nad wszystkimi aspektami wyboru i oceny zmiennych wyznaczających podział, kategoryzacji wartości predyktorów itd. Moduł zawiera interakcyjne narzędzia budowy i przycinania drzewa, szybkiej oceny jakości drzewa klasyfikacyjnego lub regresyjnego oraz obliczania statystyk pomocniczych. Dzięki tym narzędziom możemy dogłębnie zbadać własności każdego rozwiązania. Interakcyjne drzewa są użyteczne zarówno w predykcyjnym data mining, jak i w eksploracyjnej analizie danych. Ponadto moduł ten zawiera narzędzia stosowania modeli dla nowych obserwacji (podobnie jak moduły GTreesCHAID ).

DRZEWA KLASYFIKACYJNE I REGRESYJNE ZE WZMACNIANIEM (BOOSTED TREES )

Najnowsze badania nad algorytmami statystycznymi i uczenia maszynowego wykazują, że dla pewnych „trudnych” zadań estymacji i predykcji, przewidywania generowane przez sekwencje stosunkowo prostych drzew są bliższe rzeczywistym wartościom, niż prognozy sieci neuronowych lub jednego, złożonego drzewa. Technikę polegająca na stosowaniu sekwencji prostych modeli, przy czym każdy kolejny model przykłada większą „wagę” do tych obserwacji, które zostały błędnie zaklasyfikowane przez poprzednie modele, nazywamy wzmacnianiem (ang. boosting). W skład systemu STATISTICA Data Miner wchodzi moduł Boosted Trees pozwalający zastosować wzmacnianie (boosting) do zadań predykcyjnego data mining. Użytkownik może w pełni sterować procedurą budowy modelu, na każdym jej etapie dostępne są szczegółowe podsumowania, pozwalające obserwować i oceniać postęp uzyskiwany na każdym kroku estymacji. Moduł udostępnia większość statystyk i wykresów wynikowych uzyskiwanych w modułach GTreesCHAID . Moduł dysponuje również funkcjami pozwalającymi stosować wzmocnione drzewo dla nowych danych.