Data Miner


DOBÓR I ELIMINACJA ZMIENNYCH

Niniejszy moduł umożliwia przeprowadzanie automatycznego doboru podzbiorów zmiennych ze skrajnie dużych zbiorów danych lub baz danych, połączonych w celu zdalnego przetwarzania (IDP). Może on operować na praktycznie nieograniczonej liczbie zmiennych; można sprawdzić dosłownie miliony zmiennych wejściowych w celu wyszukania predyktorów dla zagadnień regresyjnych lub klasyfikacyjnych. W szczególności program zawiera kilka opcji służących do wyboru zmiennych („cech”), które prawdopodobnie będą użyteczne w kolejnych analizach. Unikalne algorytmy zaimplementowane w module Dobór i eliminacja zmiennych pozwalają na dobór predyktorów jakościowych i ciągłych, które wykazują powiązanie z będącymi przedmiotem naszego zainteresowania zmiennymi zależnymi ciągłymi i skategoryzowanymi, niezależnie od tego, czy dana zależność jest prosta (np. liniowa) czy też złożona (np. nieliniowa lub niemonotoniczna). Dzięki temu wybór zmiennych nie jest zakłócany przez wstępne założenie rodzaju zależności. Dostępne są także różne bardziej zaawansowane opcje doboru zmiennych. Niniejszy moduł jest szczególnie użyteczny w połączeniu ze zdalnym przetwarzaniem baz danych (bez potrzeby kopiowania lub importowania danych wejściowych na lokalny komputer), kiedy może być wykorzystywany do przeszukiwania dużych list zmiennych wejściowych, doboru potencjalnych zmiennych niezależnych, zawierających informacje odnoszące się do interesującej nas analizy oraz automatycznego doboru tych zmiennych do dalszych analiz w obrębie innych węzłów projektu data mining. Podzbiory zmiennych wyłonione za pomocą modułu Dobór i eliminacja zmiennych mogą być następnie przedmiotem dokładniejszych poszukiwań najlepszych predyktorów z wykorzystaniem metod sieci neuronowych, MAR Splines, regresji wielorakiej lub CHAID. Omówione w tym akapicie funkcje ułatwiają pracę ze zbiorami danych o rozmiarach rzędu giga- i terabajtów (dodatkowe informacje można znaleźć w Porównaniu wydajności przetwarzania ogromnych plików danych).

ANALIZA KOSZYKOWA

Analiza koszykowa

Moduł ten jest pełną implementacją tzw. „algorytmu wykrywania a priori” („poszukiwania”) reguł powiązania typu: „klienci, którzy zamówili produkt A często zamawiają produkt B lub C”, „pracownicy, którzy dobrze oceniają rozwiązanie X, również często narzekają na rozwiązanie Y, ale zadowala ich rozwiązanie Z” (patrz Agrawal i Swami, 1993; Agrawal i Srikant, 1994; Han i Lakshmanan, 2001 oraz Witten i Frank, 2000). Moduł Analiza koszykowa umożliwia natychmiastowe przetwarzanie olbrzymich zbiorów danych w poszukiwaniu powiązań (współzależności), z wykorzystaniem zdefiniowanych wstępnie wartości „progowych” do wykrywania. Program w szczególności umożliwia wykrywanie współzależności lub powiązań występujących pomiędzy specyficznymi wartościami zmiennych skategoryzowanych w obrębie dużych zbiorów danych. Jest to zadanie występujące powszechnie w wielu projektach data mining, stosowanych do baz danych, zawierających rekordy z transakcjami dokonywanymi przez klientów (np. produkty zakupione przez każdego z klientów), a także w zagadnieniach analizy tekstu (text mining). Podobnie jak we wszystkich modułach programu STATISTICA, dane z zewnętrznych baz danych mogą być zdalnie przetwarzane (patrz technologia IDP), tak więc program jest przygotowany do efektywnego przetwarzania skrajnie dużych zadań analitycznych.

Analiza koszykowa - wykres

Wyniki mogą być wyświetlane w tabelach, a także na unikalnych wykresach 2W i 3W, na których mocne powiązania są wyróżniane grubymi liniami łączącymi odpowiednie pozycje.

Analiza koszykowa - wykres

INTERAKCYJNE DRĄŻENIE DANYCH (INTERACTIVE DRILL-DOWN EXPLORER)

Pierwszym krokiem wielu projektów data mining jest interakcyjne badanie danych, którego celem jest uzyskanie wstępnego „obrazu” cech (zmiennych) i ich związków. Zadaniem modułu Interakcyjne drążenie danych jest umożliwienie jednoczesnego tworzenia tabel i wykonywania graficznej, eksploracyjnej analizy danych, tak aby można było szybko przyjrzeć się rozkładowi badanych zmiennych, ich związkom z innymi zmiennymi i wykrycia obserwacji należących do konkretnych grup. 

Interakcyjne drążenie danych

Jak działa Interakcyjne drążenie danych. Określenie „drążenie danych” dobrze oddaje sposób działania tej metody data mining. Program pozwala wybierać obserwację poprzez wskazanie grup według wartości lub przedziałów wartości pewnej zmiennej (np. Płeć lub Średni zakup); w tym sensie drążymy dane, schodząc w coraz niższe pokłady lub poziomy danych, przeglądając coraz mniejsze podzbiory danych przy coraz bardziej złożonych warunkach wyboru obserwacji.

Drążenie „w górę”. Interakcyjna natura drążenia danych umożliwia nie tylko zagłębianie się w coraz bardziej szczegółowe grupy danych (z coraz bardziej złożonymi warunkami wyboru obserwacji do badanej grupy), ale również wędrówkę „w górę”: na każdym kroku możemy wybrać jedną ze zmiennych wyznaczających podzbiory i unieważnić określony dla niej warunek. Przy przetwarzaniu danych program uwzględni, że poszliśmy w „górę”.

Zastosowania Interakcyjnego drążenia danych. Przedstawiony wcześniej przykład jest bardzo prosty i pokazuje tylko podstawowe funkcje programu. Prawdziwą siłę modułu Interakcyjne drążenie danych stanowią różnorodne wyniki pomocnicze, które mogą być automatycznie na bieżąco aktualizowane podczas interakcyjnego drążenia danych: możemy wybrać badane zmienne i wyznaczać dla wskazanej grupy obserwacji:

  • statystyki opisowe i tabele liczności;
  • wykresy ramka-wąsy obrazujące rozkład zmiennych ciągłych;
  • macierzowe wykresy rozrzutu przedstawiające związki między zmiennymi ciągłymi;
  • wszystkie statystyki i wykresy dostępne w programie STATISTICA poprzez pobranie wyselekcjonowanej grupy do oddzielnego dokumentu;

Przykładowo możemy analizować zakupy dokonane przez klienta razem z różnymi cechami demograficznymi, badać skuteczność leku dla różnych terapii, grup wiekowych itp. lub wyodrębnić klientów prawdopodobnie zainteresowanych nowym produktem na podstawie dogłębnej analizy wcześniejszych klientów.

Interakcyjne drążenie danychOLAP (On-Line Analytic Processing). W swoich podstawach najprostsze funkcje Interakcyjnego drążenia danych (badanie wielowymiarowych tabel) są bardzo podobne do tych, które oferują narzędzia OLAP. Narzędzia OLAP służą do szybkiego pobierania danych zagregowanych (podsumowań) z baz danych (za pomocą odpowiednich zapytań) z wykorzystaniem zoptymalizowanych serwerów OLAP przeznaczonych dla konkretnej bazy danych (np. Oracle lub MS SQL Server) i są zdecydowanie bardziej wydajne niż tradycyjne (nieolapowe) przetwarzanie zapytań do baz danych. Główne przewagi Interakcyjnego drążenia danych nad aplikacjami typu OLAP to:

(a) ścisła współpraca z uniwersalnymi, zawartymi w STATISTICA, narzędziami podziału na grupy i środowiskiem eksploracyjnym (możliwości analityczne modułu Interakcyjne drążenie danych są znacznie większe i ogólniejsze niż dostępne w typowych aplikacjach OLAP. Interakcyjne drążenie danych pozwala m.in. drążyć „w górę” i przeglądać złożone wykresy, szczegółowe statystyki opisowe itd.)

(b) moduł ten współpracuje z bardzo wieloma systemami zarządzania bazą danych, a nie jest „przywiązany” do jakiegoś konkretnego systemu. Ponadto do pracy nie wymaga on specjalnego serwera OLAP (może pracować np. bezpośrednio na pliku danych STATISTICA lub relacyjnej bazie danych). Podsumowując: możemy połączyć się z bazą danych, korzystając ze zdalnego przetwarzania zapytań (IDP) i wydajnie wykonywać drążenie danych, bez względu na to, czy dostępny jest specjalistyczny serwer OLAP.

ANALIZA SKUPIEŃ UOGÓLNIONĄ METODĄ EM I K-ŚREDNICH

Ten moduł jest uogólnieniem metod dostępnych w module Analiza skupień pakietu STATISTICA. Procedury Analiza skupień uogólnioną metodą EM i k-średnich zostały zaprojektowane z myślą o przetwarzaniu ogromnych zbiorów danych. Skupienia mogą być definiowane w oparciu o wartości zmiennych ciągłych (liczbowych) i skategoryzowanych (jakościowych). Są to metody uczenia bez nauczyciela, stosowane do rozpoznawania wzorców i segmentacji, dla których można jednak zastosować metody wdrażania zazwyczaj wykorzystywane dla modeli predykcyjnych. Dzięki sprawdzianowi krzyżowemu można wyznaczyć i ocenić najlepszy układ skupień – program automatycznie określa najbardziej odpowiednią liczbę skupień (segmentów). Zaawansowana metoda EM jest czasem nazywana analizą skupień bazującą na prawdopodobieństwie lub statystyczną analizą skupień. Program wyznacza skupienia w oparciu o zmienne ciągłe i skategoryzowane, zakładając różnorodne rozkłady prawdopodobieństwa zmiennych uwzględnianych w analizie (według wyboru dokonanego przez użytkownika). Program udostępnia szczegółowe podsumowania analizy i wykresy (np. wykresy rozkładów dla metody EM). Ponadto dla każdej obserwacji obliczane są szczegółowe statystyki klasyfikacyjne. Wszystkie procedury omawianego modułu dostosowane są do przetwarzania dużych zbiorów danych, a wyniki ich działania przygotowane są do prowadzenia kolejnych analiz przynależności obiektów do skupień (segmentów). Uzyskiwane rozwiązanie można stosować dla nowych obiektów, również wykorzystując kod C (C++, C#), Visual Basic i PMML (XML).

UOGÓLNIONE MODELE ADDYTYWNE (GAM)

STATISTICA Uogólnione modele addytywne to implementacja metod rozwiniętych i spopularyzowanych przez Hastiego i Tibshiraniego w pracy „Generalized Additive Models” (Chapman & Hall/CRC Press, Londyn 1990); szczegółową dyskusję na temat tych metod można znaleźć w Schimek (2000). Zauważmy też, że  STATISTICA zawiera wszechstronny zestaw innych metod dopasowywania do danych modeli liniowych i nieliniowych, na przykład w modułach Estymacja nieliniowa, Ogólne modele liniowe, Ogólne modele drzew klasyfikacyjnych i regresyjnych itp. 

Rozkłady i funkcje wiążące. W programie można stosować wiele rozkładów dla opisania zmiennej zależnej. Podobnie wiele funkcji wiążących (ang. link function) może być użytych do opisu zależności zmiennej zależnej od predyktorów. Dostępne są następujące funkcje wiążące: 

Dla rozkładów normalnego, gamma i Poissona:

Funkcja logarytmiczna:f(z) = log(z)
Odwrotność:f(z) = 1/z
Identyczność:f(z) = z

Dla rozkładu dwumianowego:

Funkcja logit:f(z)=log(z/(1-z))

Wygładzanie na wykresie rozrzutu. Program do wyznaczenia optymalnego przekształcenia zmiennych predykcyjnych używa funkcji sklejanych trzeciego stopnia, z liczbą stopni swobody wybieraną przez użytkownika.

Statystyki wynikowe. Dla ułatwienia weryfikacji adekwatności modelu, oceny dopasowania i interpretacji wyników program podaje kompletny zestaw statystyk wynikowych: zapis przebiegu iteracji przy dopasowywaniu modelu, statystyki podsumowujące (włączając ogólne R-kwadrat obliczone ze statystyki odchyleń), liczbę stopni swobody modelu, szczegółowe statystyki obserwacji wpływających na wynikową odpowiedź, reszty i wygładzanie zmiennych predykcyjnych. Na wynikowych wykresach przeglądać można zależność obserwowanych odpowiedzi od reszt odpowiedzi, przewidywanych wartości od reszt, histogramy wartości obserwowanych i resztowych. Dostępne są wykresy normalności reszt, wykresy reszt cząstkowych dla każdej zmiennej predykcyjnej i wykresy funkcji sklejanych trzeciego stopnia wygładzających dopasowanie końcowego rozwiązania.

Losowy las (Random Forests)

Moduł STATISTICA Losowy las realizuje algorytm Random Forest opracowany przez Breimana. Losowy las nadaje się do rozwiązywania zarówno zadań klasyfikacyjnych, jak i regresyjnych. W metodzie tej do przewidywania wartości zmiennej zależnej stosujemy zespół wielu, stosunkowo prostych, drzew decyzyjnych. Każde z tych drzew przewiduje wartość zmiennej zależnej na podstawie zmiennych niezależnych (predyktorów), a przewidywanie całego modelu wyznaczane jest przez uśrednianie albo głosowanie. Użytkownik może sterować procesem tworzenia modelu. Możemy m.in. określić złożoność drzew składowych, maksymalną liczbę drzew tworzących model i kryterium zakończenia procesu uczenia. STATISTICA Random Forest może pracować na bardzo dużych zbiorach danych, z ogromną liczbą zmiennych niezależnych (predyktorów) bez konieczności ich usuwania. W skład wyników wchodzą statystyki i wykresy podobne jak w przypadku modułu STATISTICA GTrees. Dostępne są również narzędzia do stosowania modelu dla nowych obiektów.

MULTIVARIATE ADAPTIVE REGRESSION SPLINES (MAR Splines)

Moduł STATISTICA MAR Splines (Multivariate Adaptive Regression Splines) wykorzystuje metodę rekurencyjnego podziału przestrzeni cech do budowy modelu regresyjnego w postaci krzywych składanych, zaproponowaną przez Friedmana (1991;Multivariate Adaptive Regression Splines, Annals of Statistics, 19, 1-141). W systemie STATISTICA Data Miner metoda ta została udoskonalona, tak aby można ją było stosować dla problemów Multivariate Adaptive Regression SPLINES klasyfikacyjnych i regresyjnych dla predyktorów ciągłych i skategoryzowanych.

Metodę MAR Splines można traktować jako rozwinięcie drzew regresyjnych i regresji wielorakiej. Moduł MAR Splines (Multivariate Adaptive Regression Splines) został zaprojektowany do analizy dużych zbiorów danych. Jakość uzyskanego modelu można ocenić za pomocą dużej liczby wynikowych statystyk i wykresów.

Generatory kodów C (C++, C#), STATISTICA Visual Basic, PMML. Model można szybko wbudować we własny program, korzystając z generatora kodu C (C++, C#), STATISTICA Visual Basic lub PMML (bazującego na XML). Kod STATISTICA Visual Basic w szczególności nadaje się bardzo dobrze do wykorzystania we własnych węzłach STATISTICA Data Miner. Natomiast pliki PMML (Predictive Models Markup Language) mogą być wykorzystane w module Szybkie wdrażanie modeli predykcyjnych do wydajnego obliczania wartości przewidywanych dla nawet bardzo dużych zbiorów danych. PMML jest standardem pozwalającym przenieść modele ze standardowej wersji STATISTICA Data Miner do wersji klient-serwer (STATISTICA Enterprise Server) i odwrotnie.

INNE METODY UCZENIA MASZYN (Machine Learning)

W skład modułu Inne metody uczenia maszyn (Machine Learning) wchodzi zestaw zaawansowanych metod modelowania dla zagadnień regresyjnych i klasyfikacyjnych przy wielu zmiennych niezależnych (predyktorach) i zależnych. Metody te to:

  • Naiwny klasyfikator Bayesa
  • Metoda wektorów nośnych (ang. Support Vector Machines, SVM)
  • Metoda k-najbliższych sąsiadów
    Poniżej przedstawiono podstawowe informacje o metodach modułu Inne metody uczenia maszyn (Machine Learning).

Metoda wektorów nośnych (SVM). Ta metoda rozwiązywania problemów regresyjnych i klasyfikacyjnych polega na budowaniu nieliniowych granic decyzyjnych (oddzielających obszary w przestrzeni predyktorów, odpowiadające różnym wartościom zmiennej zależnej). Ze względu na właściwości przestrzeni cech (predyktorów) metoda SVM wykazuje dużą elastyczność przy rozwiązywaniu zadań klasyfikacyjnych i regresyjnych o różnej złożoności. Algorytm SVM zaimplementowany w STATISTICA umożliwia stosowanie czterech typów modeli SVM z różnymi funkcjami bazowymi i jądrowymi: liniową wielomianową, RBF i sigmoidalną. Ponadto pozwala radzić sobie z danymi niezrównoważonymi. Czasami stosuje się również nazwy Metoda wektorów wspierającychMetoda wektorów podpierających.

Naiwny klasyfikator Bayesa (Naive Bayes). Jest to ogólnie przyjęta metoda zaprojektowana dla zadań klasyfikacyjnych. Metoda ta ma proste założenie: przyjmujemy, że rozkład cech (predyktorów) w klasach jest niezależny. Naiwny model Bayesa jest efektywny, łatwy w użyciu i interpretacji. Podejście to jest szczególnie odpowiednie przy dużej liczbie predyktorów. W praktyce Naiwny klasyfikator Bayesa często daje dużo trafniejsze przewidywania niż inne, wyrafinowane metody. Implementacja tej metody w STATISTICA Data Miner umożliwia wykorzystywanie różnych rozkładów warunkowych zmiennych niezależnych (normalnego, lognormalnego, gamma i Poissona).

Metoda k-najbliższych sąsiadów. Jest to metoda, w której zamiast dopasowywać model, wyszukujemy podobne obiekty. Metody takie nazywane są pamięciowymi (memory-based) lub analogowymi. Podstawą tej metody jest intuicyjne przeświadczenie, że podobne obiekty trafią do tej samej klasy. Przewidywania metody k-najbliższych sąsiadów wyznaczane są na podstawie k obiektów z próby uczącej, które są najbardziej podobne do obiektu, dla którego wyznaczamy wartość zmiennej zależnej. W przypadku zadań klasyfikacyjnych wykorzystywane jest głosowanie (voting), a dla problemów regresyjnych uśrednianie odpowiedzi dla k obiektów.

ANALIZA SKŁADOWYCH NIEZALEŻNYCH.

Moduł STATISTICA Independent Component Analysis (ICA) zawarty w systemie STATISTICA Data Miner służy do filtrowania sygnałów za pomocą dobrze sprawdzonej i niezawodnej techniki statystycznej znanej jako Analiza niezależnych składowych (Independent Component Analysis). Zastosowana implementacja tej metody pozwala rozwiązywać problemy separacji sygnałów metodami jednoczesnego wyodrębniania i deflacji, wstępnie przetwarzać dane, a także stosować rozwiązanie dla nowych danych. Dobroć dopasowania modelu można oceniać za pomocą wielu statystyk i wykresów.

OCENA DOBROCI DOPASOWANIA.

Moduł ten pozwala na obliczanie różnych statystyk określających dobroć dopasowania dla odpowiedzi o charakterze ciągłym i skategoryzowanym (w przypadku zagadnień regresyjnych i klasyfikacyjnych). Moduł ten jest przeznaczony w szczególności dla zastosowań w zakresie data mining, do uwzględniania w projektach „porównawczej oceny modeli” jako narzędzie do wyboru najlepszego rozwiązania. Program w charakterze wejścia wykorzystuje prognozowane wartości i klasyfikacje, obliczane za pomocą dowolnego z modułów STATISTICA przeznaczonych do zagadnień regresyjnych lub klasyfikacyjnych, i oblicza cały szereg statystyk dopasowania, jak również przedstawia graficzne podsumowania dla każdej dopasowanej odpowiedzi lub klasyfikacji. Statystyki dobroci dopasowania w przypadku ciągłych zmiennych zależnych obejmują: odchylenie liczone metodą najmniejszych kwadratów (LSD), odchylenie przeciętne, błąd kwadratowy względny, błąd całkowity względny oraz współczynnik korelacji. Dla zagadnień klasyfikacyjnych (w przypadku skategoryzowanych zmiennych zależnych) program oblicza wartości statystyki Chi-kwadratG-kwadrat (odpowiednik statystyki chi-kwadrat, ale oparty na ilorazie wiarygodności), procent niezgodności (wskaźnik błędnych klasyfikacji), kwadrat funkcji straty oraz statystykę utraty informacji.

SZYBKIE WDRAŻANIE MODELI PREDYKCYJNYCH.

Moduł ten wczytuje jeden lub wiele plików PMML (Predictive Models Markup Language) z zapisanymi modelami i bardzo szybko (w jednym przebiegu) stosuje te modele dla bardzo dużej liczby obiektów (obserwacji). W systemie STATISTICA Data Miner można generować pliki PMML (Predictive Models Markup Language) dla większości procedur predykcyjnego data mining, jak również dla Analizy skupień uogólnioną metodą EM i k-średnich. PMML to bazujący na XML (Extensible Markup Language) standard, który jest w szczególności bardzo użyteczny przy wdrażaniu modeli w architekturze klient-serwer (wykorzystującej STATISTICA Enterprise Server).

Szybkie wdrażanie modeli predykcyjnych

Moduł Szybkie wdrażanie modeli predykcyjnych (Rapid Deployment of Predictive Models) jest najszybszą i najwydajniejszą metodą obliczania wartości przewidywanych na podstawie oszacowanych wcześniej modeli. Ogólne postacie wszystkich typów modeli są zaprogramowane i skompilowane jako wysoce zoptymalizowane procedury. Kod PMML stanowi wyłącznie źródło wartości parametrów dla procedur obliczeniowych. Dzięki temu moduł Szybkie wdrażanie modeli predykcyjnych bardzo szybko wyznacza przewidywane wartości, przynależność do klas lub skupień w jednym przebiegu przez dane.

W istocie trudno jest uzyskać lepszą wydajność obliczeń, nawet pisząc własny program w języku C++ (korzystając z kodu C wygenerowanego przez odpowiedni moduł).

Warto zwrócić uwagę, że moduł Szybkie wdrażanie modeli predykcyjnych automatycznie oblicza statystyki podsumowujące każdy model, a jeśli znane są wartości rzeczywiste, to wyznaczane są również wskaźniki jakości dopasowania dla każdego modelu (m.in. wykresy zysku (gain chart), przyrostu (lift chart) dla klasyfikacji z dwiema i więcej kategoriami).

Warto przeczytać:

Portal data miningPortal data mining