Wprowadzenie do ogólnych modeli CHAID
Akronim CHAID oznacza Chi-squared Automatic Interaction Detector. Jest to jedna z najstarszych metod drzew klasyfikacyjnych, zaproponowana przez Kassa (1980; według Ripleya, 1996, algorytm CHAID jest następcą algorytmu THAID stworzonego przez Morgana i Messengera, 1973). CHAID nie buduje drzew binarnych (tzn. buduje drzewa, w których z węzłów mogą wychodzić więcej niż dwie gałęzie) i wykonuje to za pomocą stosunkowo prostego algorytmu, który nadaje się zwłaszcza do analizy dużych zbiorów danych. Ponieważ algorytm CHAID często daje efektywne tabele wielodzielcze (np. gdy klasyfikacji podlega zmienna zależna o wielu klasach, a zmienne niezależne też są jakościowe o wielu klasach), algorytm ten jest popularny w badaniach marketingowych i rynkowych w kontekście badań segmentacji rynku.
Obydwie metody CHAID i C&RT tworzą drzewa, w których każdy węzeł (oprócz liści) zawiera warunek podziału, celem jest optymalna predykcja (ilościowej zmiennej zależnej) lub klasyfikacja (jakościowej zmiennej zależnej). Obydwa rodzaje algorytmów stosować można do problemów regresyjnych oraz klasyfikacyjnych.
| Indeks |
Podstawowy algorytm budowania drzewa: CHAID i wyczerpujący CHAID
Akronim CHAID oznacza Chi-squared Automatic Interaction Detector (Automatyczny detektor interakcji za pomocą chi-kwadrat). Nazwa pochodzi od nazwy podstawowego algorytmu używanego do budowania drzew (nie-binarnych), który w problemach klasyfikacyjnych (gdzie zmienna zależna jest ze swej natury jakościowa) opiera się na teście Chi-kwadrat jako kryterium wyznaczenia kolejnego najlepszego podziału w każdym kroku, w przypadku problemów typu regresyjnego (ciągła zmienna zależna) program wylicza wartość testu F. Algorytm działa tak:
Przygotowanie predyktorów. Na wstępie tworzone są predyktory jakościowe z ilościowych poprzez podział rozkładu na pewną ilość kategorii tak, by do każdej wpadało w przybliżeniu tyle samo obserwacji. W przypadku predyktorów jakościowych klasy są już zdefiniowane w sposób "naturalny".
Łączenie kategorii. W kolejnym kroku przeglądane są po kolei predyktory i wyszukuje dla każdego z nich pary kategorii, które różnią się najmniej pod względem zmiennej zależnej. W przypadku problemów klasyfikacyjnych (gdzie zmienna zależna jest też jakościowa) ocena wykonywana jest przez obliczenie testu Chi-kwadrat (Pearsona), w przypadku problemów regresyjnych (gdzie zmienna zależna jest ilościowa) program oblicza wartość testu F. Jeśli test dla danej pary kategorii nie daje różnicy istotnej statystycznie na poziomie p dla łączenia, program łączy te kategorie i powtarza ten krok (tzn. szuka kolejnej pary kategorii, w której może znaleźć się też kategoria dopiero co powstała). Jeśli wartość p jest istotna statystycznie (mniejsza niż odpowiednia wartość poziomu p dla łączenia), program obliczy (opcjonalnie) poprawkę Bonferroniego p-value dla zbioru kategorii predyktora.
Wybór zmiennej do dzielenia. W kolejnym kroku program wybiera predyktor o najniższej wartości poziomu p (z poprawką), tzn. ten predyktor, który daje najbardziej istotny podział. Jeśli wartość poziomu p (z poprawką Bonferroniego) dla każdego predyktora jest niższa niż poziom p dla podziału, to dalsze podziały nie są wykonywane i węzeł jest liściem drzewa.
Proces jest powtarzany aż do momentu, gdy nie będą możliwe dalsze podziały (przy przyjętych wartościach p dla łączenia i dzielenia).
Algorytm CHAID i wyczerpujący CHAID. Wyczerpujący CHAID jest wersją podstawowego algorytmu CHAID, która wykonuje łączenie i dzielenie w sposób bardziej wyczerpujący, a tym samym obliczenia są dłuższe. Konkretnie, łączenie kategorii zmiennych ilościowych (bez odwoływania się do poziomu p dla łączenia) wykonywane jest aż do momentu uzyskania dwóch kategorii w każdym z predyktorów. Potem program działa tak, jak to jest opisane powyżej w Wybór zmiennej do dzielenia i wybiera spośród predyktorów ten, który daje podział najbardziej istotny. W przypadku dużych zbiorów danych, o wielu predyktorach ilościowych, ta wersja algorytmu może być czasochłonna.
| Indeks |
Podejście obliczeniowe ogólnych modeli CHAID
Przeglądanie dużych drzew: unikalne narzędzia zarządzania wynikami analiz. Przy klasyfikacji za pomocą drzew klasyfikacyjnych lub metod regresyjnych może się okazać, że drzewo uzyskane w wyniku analizy jest bardzo duże. W praktyce, jeśli dane są złożone i jeśli na przykład zawierają wiele różnych kategorii (w przypadku problemu klasyfikacyjnego) lub wiele potencjalnych predyktorów, drzewo wynikowe może być bardzo duże. Nie stanowi to problemu obliczeniowego, lecz problem przedstawienia drzewa w sposób umożliwiający wygodne korzystanie z niego przez analityka lub przedstawienie go "konsumentom" wyników badań.
Analiza układów typu ANCOVA. Klasyczny algorytm CHAID może korzystać z predyktorów ilościowych oraz jakościowych. Jednakże w praktycznych zastosowaniach nierzadko uwzględnia się zmienne tego typu w analizie układów, w sposób przypominający analizę kowariancji (ANCOVA) z efektami głównymi lub efektami interakcji dla predyktorów jakościowych i ilościowych. Ta metoda analizy układów typu ANCOVA jest stosunkowo nowa, obecnie dostępna jedynie w STATISTICA GCHAID oraz GC&RT. Łatwo jednak widać, w jaki sposób układy kodowane rozszerzają potężne techniki klasyfikacji i regresji o analizę danych z planów eksperymentu.
| Indeks |
CHAID, C&RT i QUEST
W przypadku problemów klasyfikacyjnych (jakościowa zmienna zależna), wszystkie trzy algorytmy nadają się do budowania drzewa do predykcji. QUEST jest zazwyczaj szybszy niż pozostałe dwa, jednak w przypadku dużych zbiorów danych wymaga większej pamięci i korzystanie z algorytmu QUEST do klasyfikacji dużych zbiorów danych może być niepraktyczne.
W problemach regresyjnych (ciągła zmienna zależna), algorytmu QUEST nie da się zastosować, pozostają CHAID i C&RT. CHAID tworzy drzewa nie-binarne, które są zwykle "szersze". Ta właściwość powoduje, że metoda CHAID jest bardzo popularna w badaniach marketingowych: CHAID często daje w wyniku wiele węzłów wychodzących z jednego, co łatwo przedstawić w prostej tabeli wielodzielczej o wielu kategoriach dla każdej zmiennej lub wymiaru tabeli. Taka prezentacja wyników jest zgodna z oczekiwaniami badacza rynku tworzącego segmentację. Na przykład, w wyniku możemy mieć podział zmiennej Przychód na 4 kategorie i grupy osób w tych czterech kategoriach będą różnić się zachowaniem rynkowym związanym z tą zmienną (np. najprawdopodobniej kupowaną marka samochodu). C&RT tworzy zawsze drzewa binarne, które czasami nie dadzą się w przejrzysty sposób przedstawić w postaci podsumowania.
Pod względem trafności predykcji trudno polecać w sposób szczególny którąś z tych metod, jest to nadal przedmiot badań. Z praktycznego punktu widzenia, najlepiej zastosować różne algorytmy, po czym porównać je, na przykład za pomocą interaktywnych drzew definiowanych przez użytkownika i następnie wybrać model najrozsądniejszy pod względem błędu predykcji. Omówienie różnych metod łączenie predykcji zob. na przykład Witten i Frank, 2000.
| Indeks |
