Naiwny klasyfikator Bayesowski, bazujący na twierdzeniu Bayesa, nadaje się szczególnie do problemów o bardzo wielu wymiarach na wejściu. Mimo prostoty metody, często działa ona lepiej od innych, bardzo skomplikowanych metod klasyfikujących.

Dla ilustracji koncepcji Naiwnej metody Bayesa, rozpatrzmy przykład z powyższego rysunku. Jak widać, mamy tu obiekty zielone i czerwone. Naszym zadaniem będzie zaklasyfikowanie nowego obiektu, który może się tu pojawić.
Ponieważ zielonych kółek jest dwa razy więcej niż czerwonych, rozsądnie będzie przyjąć, że nowy obiekt (którego jeszcze nie mamy) będzie miał dwa razy większe prawdopodobieństwo bycia zielonym niż czerwonym. W analizie Bayesowskiej, takie prawdopodobieństwa nazywane są prawdopodobieństwami a priori. Prawdopodobieństwa a priori wynikają z posiadanych, wcześniejszych (a priori) obserwacji. W tym wypadku, chodzi o procent zielonych względem czerwonych. Prawdopodobieństwa a priori często służą do przewidywania klasy nieznanych przypadków, zanim one się pojawią.
Możemy więc napisać:

Jako, że wszystkich obiektów jest 60, zielonych 40, a czerwonych 20, to prawdopodobieństwa a priori przynależności do odpowiednich klas będą wynosiły:

Mając obliczone prawdopodobieństwa a priori, jesteśmy gotowi do zaklasyfikowania nowego obiektu (kółko białe). Ponieważ obiekty są dobrze pogrupowane sensownie będzie założyć, że im więcej jest zielonych (albo czerwonych) obiektów w pobliżu nowego obiektu, tym bardziej prawdopodobne jest, że obiekt ten ma kolor zielony (czerwony). Narysujmy więc okrąg wokół nowego obiektu, taki by obejmował, wstępnie zadaną liczbę obiektów (niezależnie od ich klasy). Teraz będziemy mogli policzyć, ile wewnątrz okręgu jest zielonych, a ile czerwonych kółek. Skąd obliczymy wielkość, którą można nazwać szansą:

Jasne jest, że w powyższym przykładzie szansa, że X będzie czerwone jest większa niż szansa, że X będzie zielone. Tak więc:

Mimo, że prawdopodobieństwo a priori wskazuje, że X raczej będzie zielone (bo zielonych jest dwa razy więcej niż czerwonych), to szanse są odwrotne, ze względu na bliskość czerwonych. Końcowa klasyfikacja w analizie Bayesowskiej bazuje na obu informacjach, wg reguły Bayesa (Thomas Bayes 1702-1761).

W rezultacie klasyfikujemy X jako czerwone, gdyż większe jest prawdopodobieństwo a posteriori takiej właśnie przynależności.
Uwaga. Podane wyżej prawdopodobieństwa nie były normalizowane. Nie jest to konieczne przy klasyfikacji, gdyż czynnik normalizacyjny byłby ten sam dla wszystkich klas.
| Indeks |
Uwagi techniczne
Powyższy przykład miał charakter intuicyjny, jego celem było ułatwienie zrozumienia naiwnej metody klasyfikacyjnej Bayesa. Obecnie podane zostaną pewne techniczne szczegóły. Naiwna metoda Bayesa jest w stanie analizować dowolna liczbę zmiennych niezależnych, ciągłych i skategoryzowanych. Dla danego zbioru zmiennych, X = {x1,x2,...,xd}, otrzymać chcemy wartość prawdopodobieństwa a posteriori przypadku Cj spośród możliwych C = {c1,c2,...,cd}. Innymi słowy, X to predyktory, a C jest zbiorem wartości zależnej zmiennej skategoryzowanej. Wg reguły Bayesa:

gdzie p(Cj | x1,x2,...,xd) jest prawdopodobieństwem a posteriori przynależności do klasy, tzn. prawdopodobieństwem, że X należy do Cj. Ponieważ naiwny klasyfikator Bayesa zakłada, że warunkowe prawdopodobieństwa dla zmiennych niezależnych są wzajemnie, statystycznie niezależne, możemy szansę zapisać jako iloczyn:

a prawdopodobieństwo a posteriori w postaci:

Za pomocą reguły Bayesa, nowy przypadek X etykietujemy nazwą klasy Cj, która ma największe prawdopdobieństwo a posteriori.
Założenie o wzajemnej niezależności predyktorów (zmiennych niezależnych) nie zawsze jest całkiem ścisłe. Jednak upraszcza ono klasyfikację w zupełnie zasadniczy sposób, jako że można wtedy warunkowe gęstości prawdopodobieństwa dla klas p(xk | Cj) obliczyć osobno dla każdej zmiennej, co redukuje zadanie wielowymiarowe do szeregu jednowymiarowych. Przede wszystkim jednak, założenie to nie wydaje się mieć bardzo wielkiego wpływu na prawdopdobieństwa a posteriori, szczególnie w pobliżu granic decyzyjnych, czyli w sumie nie ma wielkiego wpływu na klasyfikację.
Naiwna metoda Bayesa udostępnia użytkownikowi, do wyboru, w konkretnym zagadnieniu, kilka podejść do modelowania. Jest tu rozkład prawdopodobieństwa normalny, lognormalny, gamma i Poissona:

Występujące w powyższych wzorach indeksy k i j interpretujemy następująco (weźmy na przykład ľkj z rozkładu normalnego). Dla k=1 i j=2, ľ12 jest po prostu średnią rozkładu pierwszej zmiennej niezależnej, pod warunkiem, że mamy drugą kategorię C1 zmiennej zależnej. Oznacza to, że ľ12 jest średnią z tych wartości pierwszej zmiennej niezależnej, dla których zmienna zależna ma wartość odpowiadającą drugiej klasie C1. Podobnie, σ12 to odchylenie standardowe rozkładu normalnego pierwszej zmiennej niezależnej, przy drugiej klasie C2 w zmiennej zależnej. Tak też p(xk | Cj) jest rozkładem k-tej zmiennej niezależnej, dla przypadków, gdy zmienna zależna przyjmuje wartość j-tą Cj.
Uwaga. Rozkład Poissona jest tu traktowany jako ciągły, gdyż dotyczy on zmiennej porządkowej, a nie typowej kategorialnej. W tym ostatnim przypadku używa się rozkładów dyskretnych o wartościach proporcjonalnych do odpowiednich częstości warunkowych w danych uczących.
| Indeks |
