© Copyright StatSoft, Inc., 1984-2024
Przeszukaj Internetowy Podręcznik Statystyki
Metody uczenia maszyn


Metody uczenia maszyn - wprowadzenie

Metody uczenia maszyn zawiera zaawansowane metody statystyczne do rozwiązywania zagadnień regresyjnych jak i klasyfikacyjnych, w których występuje wiele zmiennych wejściowych i wyjściowych. Są tu Wektory nośne (Support Vector Machines - SVM), służące do regresji i klasyfikacji, Naiwny klasyfikator Bayesa (Naive Bayes), jak sama nazwa wskazuje, realizujący klasyfikację, oraz Metoda k-najbliższych sąsiadów (K-Nearest Neighbours - KNN) pozwalająca wykonywać regresję i klasyfikację. Szczegółowe omówienie tych metod znaleźć można w pracy Hastie, Tibshirani i Freedman (2001); a pełne omówienie wektorów nośnych, w pracy Cristianini i Shawe-Taylor (2000).

Wektory nośne (Support Vector Machines - SVM)

Tą metodą wykonuje się regresję i klasyfikację, konstruując nieliniowe granice decyzyjne. Z samej natury przestrzeni cech (predyktorów), w której budowane są granice, wynika, że metoda wektorów nośnych jest bardzo elastyczna w podejściu do problemów regresji i klasyfikacji, o różnych stopniach złożoności. Istnieje kilka typów wektorów nośnych, z różnymi funkcjami bazowymi: liniową, wielomianową, RBF (radialne funkcje bazowe) i sigmoidalną.

Naiwny klasyfikator Bayesa

Jest to szeroko stosowana metoda, pierwotnie zaprojektowana dla zadań klasyfikacyjnych. Prostota tej metody, wynikająca z założenia niezależności statystycznej zmiennych, powoduje, że jest ona bardzo efektywnym narzędziem klasyfikującym, łatwym w użyciu i interpretowaniu wyników. Ten prosty klasyfikator Bayesowski jest szczególnie odpowiedni przy dużej liczbie wymiarów przestrzeni zmiennych wejściowych (czyli wielu zmiennych - problem wymiarowości). Z podanych wyżej powodów Naiwny klasyfikator może być często lepszy od wymyślnych metod klasyfikacji. Jest wiele sposobów modelowania rozkładów warunkowych zmiennych wejściowych, włączając w to rozkład normalny, lognormalny, gamma i Poissona.

K-najbliższych sąsiadów (K-Nearest Neighbors - KNN)

K-najbliższych sąsiadów to implementacja pamięciowej (memory-based) metody, która w przeciwieństwie do innych metod statystycznych, nie wymaga uczenia (nie dopasowuje do danych modelu). Jest tu stosowana idea prototypów. Zakłada się, co jest intuicyjnie jasne, że podobne obiekty są w tej samej klasie. Predykcja przynależności do klasy nowego obiektu bazuje więc na porównaniu ze zbiorem przykładowych (prototypowych) obiektów. Przy klasyfikacji decyduje głosowanie (voting) najbliższych K sąsiadów, przy regresji natomiast oblicza się średnie.
Indeks






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.