© Copyright StatSoft, Inc., 1984-2024
Przeszukaj Internetowy Podręcznik Statystyki
Ogólne modele CHAID


Wprowadzenie do ogólnych modeli CHAID

Akronim CHAID oznacza Chi-squared Automatic Interaction Detector. Jest to jedna z najstarszych metod drzew klasyfikacyjnych, zaproponowana przez Kassa (1980; według Ripleya, 1996, algorytm CHAID jest następcą algorytmu THAID stworzonego przez Morgana i Messengera, 1973). CHAID nie buduje drzew binarnych (tzn. buduje drzewa, w których z węzłów mogą wychodzić więcej niż dwie gałęzie) i wykonuje to za pomocą stosunkowo prostego algorytmu, który nadaje się zwłaszcza do analizy dużych zbiorów danych. Ponieważ algorytm CHAID często daje efektywne tabele wielodzielcze (np. gdy klasyfikacji podlega zmienna zależna o wielu klasach, a zmienne niezależne też są jakościowe o wielu klasach), algorytm ten jest popularny w badaniach marketingowych i rynkowych w kontekście badań segmentacji rynku.

Obydwie metody CHAID i C&RT tworzą drzewa, w których każdy węzeł (oprócz liści) zawiera warunek podziału, celem jest optymalna predykcja (ilościowej zmiennej zależnej) lub klasyfikacja (jakościowej zmiennej zależnej). Obydwa rodzaje algorytmów stosować można do problemów regresyjnych oraz klasyfikacyjnych.
Indeks

Podstawowy algorytm budowania drzewa: CHAID i wyczerpujący CHAID

Akronim CHAID oznacza Chi-squared Automatic Interaction Detector (Automatyczny detektor interakcji za pomocą chi-kwadrat). Nazwa pochodzi od nazwy podstawowego algorytmu używanego do budowania drzew (nie-binarnych), który w problemach klasyfikacyjnych (gdzie zmienna zależna jest ze swej natury jakościowa) opiera się na teście Chi-kwadrat jako kryterium wyznaczenia kolejnego najlepszego podziału w każdym kroku, w przypadku problemów typu regresyjnego (ciągła zmienna zależna) program wylicza wartość testu F. Algorytm działa tak:

Przygotowanie predyktorów. Na wstępie tworzone są predyktory jakościowe z ilościowych poprzez podział rozkładu na pewną ilość kategorii tak, by do każdej wpadało w przybliżeniu tyle samo obserwacji. W przypadku predyktorów jakościowych klasy są już zdefiniowane w sposób "naturalny".

Łączenie kategorii. W kolejnym kroku przeglądane są po kolei predyktory i wyszukuje dla każdego z nich pary kategorii, które różnią się najmniej pod względem zmiennej zależnej. W przypadku problemów klasyfikacyjnych (gdzie zmienna zależna jest też jakościowa) ocena wykonywana jest przez obliczenie testu Chi-kwadrat (Pearsona), w przypadku problemów regresyjnych (gdzie zmienna zależna jest ilościowa) program oblicza wartość testu F. Jeśli test dla danej pary kategorii nie daje różnicy istotnej statystycznie na poziomie p dla łączenia, program łączy te kategorie i powtarza ten krok (tzn. szuka kolejnej pary kategorii, w której może znaleźć się też kategoria dopiero co powstała). Jeśli wartość p jest istotna statystycznie (mniejsza niż odpowiednia wartość poziomu p dla łączenia), program obliczy (opcjonalnie) poprawkę Bonferroniego p-value dla zbioru kategorii predyktora.

Wybór zmiennej do dzielenia. W kolejnym kroku program wybiera predyktor o najniższej wartości poziomu p (z poprawką), tzn. ten predyktor, który daje najbardziej istotny podział. Jeśli wartość poziomu p (z poprawką Bonferroniego) dla każdego predyktora jest niższa niż poziom p dla podziału, to dalsze podziały nie są wykonywane i węzeł jest liściem drzewa.

Proces jest powtarzany aż do momentu, gdy nie będą możliwe dalsze podziały (przy przyjętych wartościach p dla łączenia i dzielenia).

Algorytm CHAID i wyczerpujący CHAID. Wyczerpujący CHAID jest wersją podstawowego algorytmu CHAID, która wykonuje łączenie i dzielenie w sposób bardziej wyczerpujący, a tym samym obliczenia są dłuższe. Konkretnie, łączenie kategorii zmiennych ilościowych (bez odwoływania się do poziomu p dla łączenia) wykonywane jest aż do momentu uzyskania dwóch kategorii w każdym z predyktorów. Potem program działa tak, jak to jest opisane powyżej w Wybór zmiennej do dzielenia i wybiera spośród predyktorów ten, który daje podział najbardziej istotny. W przypadku dużych zbiorów danych, o wielu predyktorach ilościowych, ta wersja algorytmu może być czasochłonna.
Indeks

Podejście obliczeniowe ogólnych modeli CHAID

Przeglądanie dużych drzew: unikalne narzędzia zarządzania wynikami analiz. Przy klasyfikacji za pomocą drzew klasyfikacyjnych lub metod regresyjnych może się okazać, że drzewo uzyskane w wyniku analizy jest bardzo duże. W praktyce, jeśli dane są złożone i jeśli na przykład zawierają wiele różnych kategorii (w przypadku problemu klasyfikacyjnego) lub wiele potencjalnych predyktorów, drzewo wynikowe może być bardzo duże. Nie stanowi to problemu obliczeniowego, lecz problem przedstawienia drzewa w sposób umożliwiający wygodne korzystanie z niego przez analityka lub przedstawienie go "konsumentom" wyników badań.

Analiza układów typu ANCOVA. Klasyczny algorytm CHAID może korzystać z predyktorów ilościowych oraz jakościowych. Jednakże w praktycznych zastosowaniach nierzadko uwzględnia się zmienne tego typu w analizie układów, w sposób przypominający analizę kowariancji (ANCOVA) z efektami głównymi lub efektami interakcji dla predyktorów jakościowych i ilościowych. Ta metoda analizy układów typu ANCOVA jest stosunkowo nowa, obecnie dostępna jedynie w STATISTICA GCHAID oraz GC&RT. Łatwo jednak widać, w jaki sposób układy kodowane rozszerzają potężne techniki klasyfikacji i regresji o analizę danych z planów eksperymentu.
Indeks

CHAID, C&RT i QUEST

W przypadku problemów klasyfikacyjnych (jakościowa zmienna zależna), wszystkie trzy algorytmy nadają się do budowania drzewa do predykcji. QUEST jest zazwyczaj szybszy niż pozostałe dwa, jednak w przypadku dużych zbiorów danych wymaga większej pamięci i korzystanie z algorytmu QUEST do klasyfikacji dużych zbiorów danych może być niepraktyczne.

W problemach regresyjnych (ciągła zmienna zależna), algorytmu QUEST nie da się zastosować, pozostają CHAID i C&RT. CHAID tworzy drzewa nie-binarne, które są zwykle "szersze". Ta właściwość powoduje, że metoda CHAID jest bardzo popularna w badaniach marketingowych: CHAID często daje w wyniku wiele węzłów wychodzących z jednego, co łatwo przedstawić w prostej tabeli wielodzielczej o wielu kategoriach dla każdej zmiennej lub wymiaru tabeli. Taka prezentacja wyników jest zgodna z oczekiwaniami badacza rynku tworzącego segmentację. Na przykład, w wyniku możemy mieć podział zmiennej Przychód na 4 kategorie i grupy osób w tych czterech kategoriach będą różnić się zachowaniem rynkowym związanym z tą zmienną (np. najprawdopodobniej kupowaną marka samochodu). C&RT tworzy zawsze drzewa binarne, które czasami nie dadzą się w przejrzysty sposób przedstawić w postaci podsumowania.

Pod względem trafności predykcji trudno polecać w sposób szczególny którąś z tych metod, jest to nadal przedmiot badań. Z praktycznego punktu widzenia, najlepiej zastosować różne algorytmy, po czym porównać je, na przykład za pomocą interaktywnych drzew definiowanych przez użytkownika i następnie wybrać model najrozsądniejszy pod względem błędu predykcji. Omówienie różnych metod łączenie predykcji zob. na przykład Witten i Frank, 2000.
Indeks






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.