Jak przygotowanie danych wpływa na wyniki analizy skupień? Case study

Ilustracja przedstawiająca zestresowanego człowieka nad komputerem z wykresami i danymi, otoczonego znakami ostrzegawczymi, symbolizująca problem z danymi.W świecie wszechobecnych danych, decyzje biznesowe coraz częściej opierają się na zaawansowanych analizach statystycznych. Ale czy zastanawiałeś się kiedyś, co dzieje się, gdy dane wejściowe nie są odpowiednio przygotowane? Nawet najlepsze algorytmy nie gwarantują rzetelnych wyników, jeśli dane wejściowe nie zostały odpowiednio przygotowane. Przekształcenie danych jest kluczowym krokiem, który może znacząco wpłynąć na poprawność i interpretację wyników analiz.

W tym artykule omówimy, dlaczego przekształcenia danych są tak ważne oraz jakie błędy mogą wynikać z ich braku lub niewłaściwego zastosowania, szczególnie w kontekście analizy skupień.

Czym są przekształcenia danych?

Przekształcenie danych to proces dostosowania surowych wartości do wymagań analizy. Jest to szczególnie istotne w analizie skupień, gdzie jakość i postać danych wejściowych determinują sposób grupowania obserwacji. Algorytmy takie jak k-średnich, hierarchiczna analiza skupień czy DBSCAN obliczają odległości między punktami w wielowymiarowej przestrzeni. Jeśli dane nie zostaną odpowiednio przekształcone, wyniki analizy mogą być nieprawidłowe, trudne do interpretacji lub wręcz mylące.

Przekształcenia danych obejmują najczęściej następujące czynności:

  • Skalowanie danych, np. normalizacja – sprowadzenie wartości zmiennych do porównywalnego zakresu (np. 0-1). Gdy zmienne mają różne jednostki miary lub zakresy, zmienne z dużymi wartościami (np. przychód w tysiącach złotych) mogą zdominować analizę, ignorując zmienne o mniejszych wartościach (np. liczba transakcji na poziomie 1–10).  Wyniki skupień będą zniekształcone, ponieważ odległości między punktami będą głównie zależeć od tej jednej zmiennej, co może prowadzić do sztucznego podziału klientów wyłącznie na podstawie ich przychodów, a zignorowane zostaną inne cechy opisujące klientów.
  • Standaryzacja – przekształcenie danych, aby miały określoną średnią i odchylenie standardowe (np. średnia = 0, odchylenie standardowe = 1). Ten rodzaj przekształcenia, podobnie jak normalizacja, eliminuje różnice w rozkładach zmiennych, które mogą wynikać z ich różnych jednostek miary i różnych wariancji.
  • Usuwanie wartości odstających – eliminacja anomalii, które mogą zaburzać wyniki analizy. Szczególnie ważne jest to w metodzie k-średnich, gdyż środki skupień (centroidy) obliczane są jako średnie arytmetyczne, a jak wiemy średnia jest miarą bardzo wrażliwą na obserwacje odstające.  Konsekwencją może być przesunięcie skupienia w kierunku wartości odstających lub nawet utworzenie osobnego skupienia tylko dla outlierów, ignorując bardziej istotne wzorce w danych. Przykładowo, w danych o klientach, jeden klient z wyjątkowo dużym przychodem (np. 10-krotnie większym niż średnia), może sprawić, że całe skupienie będzie obracać się wokół tej anomalii.

Złe przekształcenia

Nie tylko brak przekształceń, ale także wybór nieodpowiedniego przekształcenia może prowadzić do zniekształconych wyników. Przykładem może być tutaj nadmierna normalizacja, która sprowadza wszystkie zmienne do tego samego zakresu (np. od 0 do 1) niezależnie od ich rzeczywistej interpretacji. Może to prowadzić do utraty ważnych różnic między obserwacjami, które są kluczowe dla kontekstu biznesowego.

Przykład 1

Wyobraźmy sobie, że firma analizuje dane dotyczące klientów pod kątem dwóch zmiennych: Tygodniowe wydatki (w zł), Liczba transakcji tygodniowo (liczba zakupów).

Tabela 1 Tabela przedstawiające oryginalne dane dotyczące klientów.

Tabela przedstawiająca dane klientów A, B, C, D wraz z ich tygodniowymi wydatkami w złotych oraz liczbą transakcji tygodniowo.

Normalizujemy każdą zmienną według wzoru:

Wzór matematyczny na normalizację min-max: 'X minus X min, dzielone przez X max minus X min'.

Po normalizacji różnice między klientami stają się mniej wyraźne, zwłaszcza w przypadku klientów A i C.

Tabela 2 Tabela przedstawiające znormalizowane dane.

Tabela przedstawiająca znormalizowane tygodniowe wydatki i liczbę transakcji dla klientów A, B, C, D po procesie normalizacji danych.

Zobaczmy, jak to wpływa na odległości między punktami w przestrzeni dwuwymiarowej.

Odległości liczone są w przestrzeni rzeczywistych wartości (np. Euklidesowej):

  • Klient A i Klient B:

Wzór matematyczny obliczający pierwiastek kwadratowy z sumy kwadratów różnic (10-10000) i (1-10), z wynikiem w przybliżeniu 9990.

  • Klient A i Klient C:

Wzór matematyczny obliczający pierwiastek kwadratowy z sumy kwadratów różnic (10-500) i (1-5), z wynikiem w przybliżeniu 490.

Różnice są bardzo wyraźne – Klient B jest dużo bardziej różny od Klienta A niż Klient C.

Odległości między klientami (po normalizacji):

  • Klient A i Klient B:

Wzór matematyczny obliczający pierwiastek kwadratowy z sumy kwadratów różnic (0.000-1.000) i (0.000-1.000), z wynikiem w przybliżeniu 1.414.

  • Klient A i Klient C:

Wzór matematyczny obliczający pierwiastek kwadratowy z sumy kwadratów różnic (0.000-0.049) i (0.000-0.444), z wynikiem w przybliżeniu 0.447.

Po normalizacji różnice między klientami wydają się być znacznie mniejsze, co może prowadzić do tego, że Klient B i Klient C zostaną uznani za podobnych.

Przykład ten pokazuje, że utracone zostały istotne różnice, co może prowadzić do powstania niewłaściwych grup klientów, w których osoby o dużych i małych wydatkach znajdą się w tych samych skupieniach. Klient A (10 zł/tydzień) i Klient B (10 000 zł/tydzień) zostają sprowadzeni do podobnej przestrzeni, mimo że w rzeczywistości reprezentują skrajnie różne grupy docelowe. Lepszym rozwiązaniem w tej sytuacji byłoby zastosowanie standaryzacji albo transformacji logarytmicznej dla zmiennych o dużym rozrzucie wartości (np. Wydatki).

Innym problemem może być nie pochylenie się nad problemem obserwacji odstających, może spowodować, że wartości odstające zdominują analizę. Dobrze ilustruje to poniższy przykład.

Przykład 2

Analizujemy miesięczne zużycie gazu wśród klientów. Standardowi klienci wykazują sezonowy wzorzec: najwyższe zużycie zimą, najniższe latem. W zestawie danych pojawia się jednak dwóch dużych odbiorów, którzy zużywają gaz w ilościach wielokrotnie przewyższających innych klientów.

Wykres liniowy 'Segmentacja klientów z wyraźnym podziałem na ekstremalne outliery' przedstawiający zmiany w zużyciu gazu (m³) w ciągu 12 miesięcy przez klientów 1-6 oraz dwóch klientów odstających.

W przedstawionej segmentacji widzimy, jak obecność wartości odstających wymusza sztuczne podziały, które nie mają naturalnego odzwierciedlenia w danych. Normalnie oczekiwalibyśmy, że segmenty będą wynikały z rzeczywistych wzorców zużycia – np. niskiego, średniego i wysokiego zużycia gazu. Jednak obecność skrajnych wartości (outlierów) sprawia, że granice między segmentami zostają zdeformowane, a struktura grup przestaje być intuicyjna. Zamiast logicznego podziału, mamy:

  • Szeroką kategorię „standardowych klientów”, w której znalazły się zarówno osoby o niskim, jak i średnim zużyciu. W rzeczywistości te dwie grupy powinny być traktowane osobno, ale wpływ odstających wartości podniósł środek skupienia na tyle, że różnice między nimi uległy zatarciu.
  • Pierwszego outliera, którego wysokie zużycie powoduje, że naturalnie nie pasuje do standardowej grupy, ale jeszcze mógłby być analizowany jako górna granica typowych klientów.
  • Ekstremalnego outliera, którego wartości są tak skrajnie wysokie, że całkowicie dominują wykres i analizy. Ten pojedynczy klient ma tak duże zużycie, że przesuwa średnie i wpływa na klasyfikację pozostałych klientów, zmieniając ich pozycję w segmentacji.

Taka sytuacja jest problematyczna w analizie, ponieważ zniekształca rzeczywisty obraz klientów – zamiast trzech naturalnych segmentów mamy jeden szeroki oraz dwa sztucznie wydzielone outliery oraz utrudnia podejmowanie decyzji biznesowych – firma może błędnie wnioskować, że większość klientów mieści się w jednej grupie, podczas gdy w rzeczywistości różnice w ich zużyciu są znaczne. Może prowadzić to także do błędnych strategii marketingowych. Jeśli firma opracuje ofertę na podstawie tej segmentacji, może niewłaściwie dopasować usługi, np. oferując klientom ze średniego segmentu taryfy przeznaczone dla klientów o bardzo niskim lub bardzo wysokim zużyciu.

To świetny przykład na to, jak wartości odstające mogą wymuszać podziały, które zamiast poprawnie odwzorowywać dane, jedynie dostosowują się do anomalii, prowadząc do błędnych interpretacji i decyzji.

Jak unikać tych błędów związanych z brakiem lub wyborem nieodpowiedniego przekształcenia?

Przede wszystkim, przed przekształceniem należy dokładnie zrozumieć dane, z którymi pracujemy oraz wykonać wstępną eksplorację danych. Wykresy (np. histogramy lub wykresy ramka-wąsy) pomogą ocenić czy dane są jednorodne, czy mają rozkład skośny lub wartości odstające. Te ostatnie mogą być widoczne na wykresach ramka-wąsy lub w statystykach opisowych (wartości skrajne, np. 1 i 99 percentyl). Warto jednak zastanowić się czy outliery reprezentują błędy w danych czy istotne informacje, które należy uwzględnić w analizie (np. klientów VIP). Ważna jest też ocena zakresu i jednostek miary różnych zmiennych.

Należy zastanowić się też nad przekształceniami dopasowanymi do algorytmu. Metoda k-średnich używa odległości euklidesowej, która jest wrażliwa na skalę i zakres zmiennych, dlatego normalizacja czy standarzyacja (zwłaszcza dla zmiennych o dużym rozrzucie) danych są niezbędne.  W metodach hierarchicznych skalowanie również odgrywa kluczową rolę, ale można dodatkowo rozważyć różne miary odległości (np. Minkowski, Manhattan), które mogą być mniej wrażliwe na zakres zmiennych.

Warto rozważyć różne przekształcenia. Nie ma uniwersalnego rozwiązania – dlatego warto porównać wyniki analizy uzyskane przy różnych przekształceniach (normalizacja, standaryzacja, logarytmowanie). Przy ocenie, należy zastanowić się czy wyniki są zgodne z intuicją biznesową – czy segmenty mają logiczne uzasadnienie i dobrze odwzorowują rzeczywistość. Bardzo pomocne mogą być wykresy, które porównują wyniki analizy skupień i pozwalają zobaczyć czy przekształcenia poprawiły jakość podziału. Dla danych wielowymiarowych można korzystać ze specjalnych technik redukcji wymiaru takich jak PCA, t-SNE lub UMAP.

Podsumowanie

Przekształcenie danych jest jednym z kluczowych etapów analizy danych, a jego znaczenie nie może być przecenione. Bez odpowiedniego przygotowania dane mogą wprowadzać analityków w błąd, co skutkuje tworzeniem nielogicznych lub sztucznych grup, ignorowaniem istotnych wzorców, a w konsekwencji – podejmowaniem błędnych decyzji biznesowych. Takie błędy mogą kosztować firmy nie tylko czas i pieniądze, ale także zaufanie klientów.

Przemyślane podejście do przekształceń, dostosowanie ich do wymagań stosowanych algorytmów i testowanie różnych metod pozwala zwiększyć dokładność i wiarygodność wyników. Właściwie przekształcone dane otwierają drzwi do lepszej interpretacji rzeczywistości i podejmowania trafnych decyzji, które przekładają się na sukces biznesowy.

Czy Twoje dane są gotowe na analizę? Jeśli nie jesteś pewien, skontaktuj się z ekspertem lub zadbaj o solidne przygotowanie danych przed uruchomieniem algorytmów analitycznych!

Autorka: Anna Wilk, Kierownik zespołu analizy danych w StatSoft

Wróć do aktualności

Masz pytania?

Porozmawiaj z nami!

Jesteśmy tutaj, aby pomóc i rozwiać wszystkie Twoje wątpliwości. Wypełnij formularz, napisz do nas maila lub zadzwoń – odpowiemy najszybciej, jak to możliwe!

    Przejdź do treści