
Metody nadzorowane – gdy znamy odpowiedź
W zadaniach nadzorowanych mamy do czynienia z sytuacją, w której dla każdej obserwacji znamy wynik, który chcemy przewidywać – czyli tzw. etykietę. To może być konkretna wartość liczbowa (np. dochód, wiek) albo kategoria (np. tak/nie, chory/zdrowy, kupił/nie kupił).
Model uczy się na podstawie tych znanych przykładów: analizuje, jakie cechy (zmienne wejściowe) prowadzą do określonego wyniku. Po nauczeniu się zależności, potrafi przewidywać wynik dla nowych, nieznanych przypadków.
To trochę jak nauka za pomocą testów z odpowiedziami – najpierw pokazujemy uczniowi zadania z rozwiązaniami, a potem sprawdzamy, jak poradzi sobie z nowymi pytaniami.
Typowe zadania metod nadzorowanych:
- Regresja – gdy chcemy przewidzieć wartość liczbową.
Przykłady:
-
- przewidywanie ceny mieszkania na podstawie powierzchni, lokalizacji i roku budowy,
- szacowanie długości pobytu pacjenta w szpitalu,
- prognozowanie sprzedaży w kolejnym kwartale.

- Klasyfikacja – gdy chcemy przypisać nowy przypadek do jednej z ustalonych kategorii.
Przykłady:
-
- określenie, czy klient odejdzie czy zostanie,
- rozpoznanie, czy wiadomość to spam czy nie,
- diagnoza, czy pacjent ma daną chorobę czy nie.

Praktyczny przykład? Jesteś analitykiem w firmie oferującej subskrypcje online (np. serwis streamingowy). Masz dane o zachowaniach klientów:
- ile razy logują się w tygodniu,
- jak długo oglądają treści,
- jakie kategorie ich interesują,
- od ilu miesięcy korzystają z usługi.
Dodatkowo masz informację, czy klient zrezygnował z subskrypcji w ciągu ostatnich 3 miesięcy – to Twoja etykieta, czyli wartość, którą chcesz przewidzieć. Celem jest zbudowanie modelu, który na podstawie zachowań klientów przewidzi ryzyko rezygnacji (churnu). Dzięki temu możesz:
- wcześniej zidentyfikować klientów zagrożonych odejściem,
- uruchomić działania retencyjne (np. wysłać spersonalizowaną ofertę, rabat, przypomnienie),
- zoptymalizować działania marketingowe.
To klasyczne zadanie klasyfikacji – masz dane historyczne, w których znasz „odpowiedź”, a model uczy się na tej podstawie rozpoznawać wzorce prowadzące do odejścia. Efekt? Możesz podejmować proaktywne decyzje biznesowe na podstawie prognoz, zamiast reagować dopiero po tym, jak klient odszedł.
Metody nienadzorowane – gdy szukamy struktury
W zadaniach nienadzorowanych nie mamy gotowej odpowiedzi, której model ma się nauczyć. Nie wiemy z góry, jakie są „właściwe” kategorie, grupy czy wzorce – chcemy je dopiero odkryć. Naszym celem jest zrozumienie struktury danych, znalezienie podobieństw, wykrycie anomalii lub uproszczenie informacji. To trochę jak patrzenie na tłum ludzi i próba dostrzeżenia, kto do kogo jest podobny, mimo że nikt nie ma tabliczki z etykietą „sportowiec” czy „rodzic z dzieckiem”. Analizujemy dane i próbujemy naturalnie podzielić je na sensowne grupy.
Typowe zadania uczenia nienadzorowanego:
- Analiza skupień – znajdowanie grup obserwacji, które są do siebie podobne.
Przykłady:
-
- segmentacja klientów w marketingu,
- podział dokumentów według tematyki,
- grupowanie genów według podobieństwa ekspresji.
- Redukcja wymiarów – upraszczanie dużej liczby zmiennych przy zachowaniu istotnych informacji.
Przykłady:- przygotowanie danych do wizualizacji (np. PCA, t-SNE),
- usuwanie szumu lub korelacji między cechami.
- Wykrywanie anomalii – identyfikacja obserwacji, które „odstają” od reszty.
Przykłady:- wykrywanie oszustw płatniczych,
- identyfikacja błędów pomiarowych,
- znajdowanie nietypowych zachowań użytkowników.

Przykład praktyczny:
Masz dane o klientach sklepu internetowego:
- liczba wizyt na stronie,
- czas spędzony w sklepie,
- liczba produktów w koszyku,
- średnia wartość zamówienia.
Nie masz informacji, kto jest lojalnym klientem, kto tylko przegląda, a kto kupuje okazjonalnie. Chcesz jednak stworzyć segmenty klientów, aby dostosować komunikację marketingową i oferty. To klasyczne zadanie analizy skupień – czyli nienadzorowane. Na podstawie podobieństwa zachowań klienci zostaną automatycznie przypisani do grup: np. „często kupujący”, „przeglądacze” i „okazjonalni klienci”. Segmentacja pozwala np. kierować newsletter tylko do osób aktywnych lub zaproponować rabat tym, którzy rzadko wracają.
W metodach nienadzorowanych nie mamy etykiet, więc trudniej jednoznacznie ocenić „jakość” wyników. Często opieramy się na intuicji biznesowej, wizualizacjach lub tzw. miarach wewnętrznych (np. wskaźnik sylwetkowy a analizie skupień). Kluczem do sukcesu jest dobre przygotowanie danych – np. przekształcenie zmiennych, usunięcie wartości odstających, standaryzacja. Zadania nienadzorowane mogą być też świetnym narzędziem eksploracji danych na wczesnym etapie projektu – gdy jeszcze nie wiemy, co w danych „siedzi”, ale chcemy wyciągnąć pierwsze wnioski.
A co, jeśli nie wiadomo, z jakim zadaniem mamy do czynienia?
Choć rozróżnienie na zadania nadzorowane i nienadzorowane wydaje się proste w teorii, w praktyce wiele problemów analitycznych nie daje się łatwo zaklasyfikować na pierwszy rzut oka. Często mamy intuicję, że „to chyba klasyfikacja”, albo „to wygląda na segmentację” – ale dopiero głębsze zrozumienie danych i celów biznesowych pozwala podjąć właściwą decyzję. Poniżej przedstawiam kilka nieoczywistych przykładów z praktyki biznesowej, które pokazują, jak ważne jest zadanie sobie kluczowego pytania: Czy naprawdę wiem, co chcę przewidzieć? I czy mam dane, które to umożliwiają?
- Analiza opinii klientów
Firma e-commerce otrzymuje codziennie setki opinii klientów o produktach – w formie komentarzy tekstowych typu: „Produkt świetny, ale dostawa trwała zbyt długo.”, „Zamówienie przyszło uszkodzone, ale szybko dostałem nowy – polecam!”, „Nie polecam – wygląda inaczej niż na zdjęciach.”
Zespół zarządzający doświadczeniem klienta chce:
- Zrozumieć główne tematy i problemy pojawiające się w opiniach – np. czy klienci narzekają częściej na jakość, czas dostawy, opakowanie czy coś innego.
- Ocenić, które opinie są „negatywne” i mogą wymagać reakcji – np. interwencji obsługi klienta lub zmiany w procesie.
Na pierwszy rzut oka – klasyczna analiza opinii. Ale czy to metody nadzorowane czy nienadzorowane?
Jeśli nie mamy etykiet opisujących opinie (np. pozytywna/negatywna), nie możemy od razu użyć klasyfikatora – zaczynamy od podejścia nienadzorowanego, np. analizy skupień lub modelowania tematów, by odkryć dominujące treści. Dopiero gdy część opinii zostanie ręcznie oznaczona, możemy przejść do modelu nadzorowanego, który automatycznie sklasyfikuje nowe wpisy. To przykład zadania hybrydowego, gdzie typ analizy zależy od etapu projektu i dostępnych danych. I dowód na to, że zanim wybierzemy algorytm, musimy dobrze zrozumieć dane i cel analizy. Dlaczego ten przykład jest nieoczywisty? Bo na pierwszy rzut oka „ocena opinii” może kojarzyć się z klasyfikacją (czyli metodą nadzorowaną), ale bez wcześniejszej wiedzy o strukturze tych danych i bez etykiet – nie da się rozpocząć od modelu predykcyjnego. Trzeba najpierw poznać dane, a dopiero potem zdecydować, jakiego typu model jest odpowiedni.
Wykrywanie awarii maszyny produkcyjnej
Firma produkcyjna monitoruje pracę swoich maszyn w czasie rzeczywistym. Zbierane są dane sensoryczne, m.in.:
- temperatura silnika,
- poziom wibracji,
- prędkość obrotowa,
- ciśnienie,
- poziom hałasu,
- oraz inne sygnały diagnostyczne.
Celem jest szybkie wykrycie awarii lub ich zapowiedzi, zanim dojdzie do zatrzymania linii produkcyjnej i kosztownych przestojów. Operatorzy zgłaszają, że czasem maszyna „dziwnie działa”, ale nie zawsze kończy się to rzeczywistą awarią. Baza danych zawiera setki tysięcy rekordów z pomiarami, ale tylko nieliczne przypadki faktycznych awarii są oznaczone – jeśli w ogóle.
To klasyczny przypadek, w którym intuicja biznesowa brzmi klasyfikacja: „Chcemy wiedzieć, czy maszyna zaraz się zepsuje – tak czy nie”. Ale rzeczywistość danych podpowiada coś zupełnie innego.
- Podejście nadzorowane: Jest możliwe, jeśli mamy dużo dobrze opisanych przypadków awarii – tzn. wiemy dokładnie, kiedy wystąpiły. Możemy wtedy zbudować klasyfikator, który uczy się na danych historycznych i przewiduje przyszłe przypadki. Problem? Takie dane są rzadkie, nierównomierne i trudne do zbalansowania. W dodatku awarie mogą mieć różne przyczyny i przebiegi – model może nie uogólniać poprawnie.
- Podejście nienadzorowane: Idealne, gdy chcemy wykrywać „nietypowe” zachowania maszyny, nawet jeśli nie mamy jeszcze etykiety „awaria”. Model uczy się wzorca „normalnego” działania i wykrywa odchylenia, które mogą oznaczać nadchodzącą awarię i uruchomić alert wcześniej – bez potrzeby oznaczania danych.
Ostatecznie lepszym wyborem jest podejście nienadzorowane – bo dane o awariach są rzadkie, a przyczyny zróżnicowane. Takie modele uczą się, jak wygląda normalna praca maszyny, i sygnalizują odchylenia. To dobry przykład problemu, który brzmi jak klasyfikacja, ale w praktyce lepiej działa w trybie uczenia nienadzorowanego. To kolejny przykład, gdzie nie da się dobrze dobrać metody bez zrozumienia danych i realiów operacyjnych.
Wykrywanie podejrzanych transakcji e-commerce
Firma prowadząca platformę zakupową chce zidentyfikować podejrzane transakcje, które mogą być wynikiem: oszustwa (fraud), pomyłki systemowej, celowego nadużycia (np. wyłudzenie rabatów) lub nietypowego zachowania (np. hurtowe zakupy z konta klienta indywidualnego).
Dysponujemy danymi transakcyjnymi, m.in.:
- wartość koszyka,
- liczba produktów,
- godzina zakupu,
- lokalizacja IP vs. adres dostawy,
- metoda płatności,
- historia zakupów klienta.
Celem firmy jest wykrywanie „dziwnych” transakcji w czasie rzeczywistym, aby np.: automatycznie je oznaczyć do weryfikacji, czasowo je wstrzymać, skierować do dodatkowej autoryzacji.
Metoda nadzorowane czy nienadzorowana? To zależy – i właśnie dlatego ten przypadek jest tak ciekawy (i podchwytliwy):
- Podejście nadzorowane: Możliwe tylko wtedy, gdy mamy historyczne dane z oznaczeniem, które transakcje były faktycznie nieprawidłowe. Można wtedy zbudować klasyfikator, np. regresję logistyczną lub XGBoost, który nauczy się na przeszłości i przewidzi, czy nowa transakcja to potencjalny fraud. Problem?
Takie dane są rzadkie i często niekompletne – tylko niewielka część oszustw jest wykrywana i oznaczana, a fałszywe oznaczenia (false positives i false negatives) są trudne do kontrolowania. To oznacza, że model może nauczyć się zbyt wąskich wzorców lub wprowadzać uprzedzenia. - Podejście nienadzorowane: Wykorzystujemy algorytmy, które szukają transakcji znacząco różniących się od „normalnych”, bez potrzeby wcześniejszych etykiet. To podejście jest często bardziej realistyczne na starcie projektu, gdy nie mamy jeszcze pewności, co właściwie jest anomalią. Zamiast przewidywać „oszustwa”, wykrywamy, co zachowuje się inaczej niż reszta – i dopiero potem analizujemy te przypadki ręcznie lub półautomatycznie.
Choć intuicyjnie „fraud detection” może wydawać się klasyfikacją (czyli metodą nadzorowaną), w rzeczywistości to często zadanie nienadzorowane – szczególnie na początku, gdy nie znamy jeszcze typów oszustw.
Podsumowanie
Jak pokazują przedstawione przykłady, skuteczna analiza danych nie zaczyna się od wyboru algorytmu, lecz od dogłębnego zrozumienia problemu i świadomego przełożenia go na język analizy danych. To właśnie ten etap – często pomijany lub niedoceniany – ma decydujący wpływ na sens i wartość końcowego wyniku.
Rozróżnienie na zadania nadzorowane i nienadzorowane może wydawać się teoretycznie proste, ale w praktyce wymaga uważnego spojrzenia na dane, cele biznesowe i ograniczenia projektu. Czasem coś, co wygląda jak klasyfikacja, okazuje się analizą skupień, a model predykcyjny nie ma sensu bez wcześniejszego odkrycia struktury danych. Dlatego zanim wybierzesz narzędzia i techniki, zatrzymaj się, zadaj właściwe pytania, sprawdź, czy masz etykietę, czy dopiero chcesz ją odkryć i dopiero wtedy zdecyduj, jakiego podejścia użyć. Bo w analizie danych – podobnie jak w dobrej diagnostyce – nie chodzi o to, by znaleźć odpowiedź, ale by odpowiedzieć na właściwe pytanie.
Autorka: Anna Wilk, kierownik zespołu analizy danych w StatSoft