© Copyright StatSoft, Inc., 1984-2024
Przeszukaj Internetowy Podręcznik Statystyki
Wybrane graficzne techniki analityczne

Typy wykresów
Wykresy 2W
  Słupkowe/kolumnowe
  Słupkowe poziomu odchylenia
  Słupkowe poziome/Lewa
  Słupkowe poziome/Prawa
  Słupkowe/Góra
  Słupkowe
  Ramkowe
  Odchyleń od normalności
  Normalności połówkowej
  Wiszące słupki
  Histogramy
  Liniowe (Zmienne)
  Kołowe
  Normalności
  Prawdopodobieństwo
-prawdopodobieństwo

  Kwantyl-kwantyl
  Zakresu
  Rozrzutu
  Sekwencyjne/nakładane
  Rozrzutu Voronoia

Wykresy XYZ 3W
  Warstwicowe
  Odchylenia
  Rozrzutu
  Przestrzenny
  Spektralny
  Toru

Wykresy sekwencyjne 3W
  Histogramy dwóch zmiennych
  Słupkowe
  Zakresu
  Warstwicowy/dyskretny
  Warstwicowy
  Powierzchniowy sekwencyjny
  Linie rzutu
  Powierzchniowy (z danych surowych)

4W/Wykresy trójkątne
  Rozrzutu
  Trójkątne
  Warstwicowy/Obszary
  Warstwicowy/Linie
  Odchyleń
  Przestrzenne

Skategoryzowane wykresy 2W
  Odchyleń od normalności
  Normalności połówkowej
  Normalności
  Prawdopodobieństwo
-prawdopodobieństwo

  Kwantyl-kwantyl
Skategoryzowane wykresy 3W
  Warstwicowe
  Odchyleń
  Rozrzutu
  Przestrzenne
  Spektralne
  Powierzchniowe

Skategoryzowane wykresy trójkątne
  Warstwicowy/Obszary
  Warstwicowy/Linie
  Rozrzutu

nW/Wykresy obrazkowe
  Twarze Chernoffa
  Kolumny
  Linie
  Koła
  Wielokąty
  Profile
  Gwiazdy
  Promienie

Wykresy macierzowe
  Wykresów kolumnowych
  Wykresów liniowych
  Wykresów rozrzutu

Wybrane techniki wizualizacji

Wykresy skategoryzowane

Jest to jedna z najważniejszych a jednocześnie bardzo efektywnych metod analitycznych o charakterze ogólnym, wymagająca podzielenia zbioru danych na kategorie w celu porównania układów danych pomiędzy otrzymanymi podzbiorami. Ta powszechnie używana technika jest znana pod wieloma określeniami (takimi jak analiza przekrojowa, grupowanie, kategoryzacja) i jest wykorzystywana zarówno w eksploracyjnej analizie danych jak i testowaniu hipotez. Na przykład: dodatni związek pomiędzy wiekiem oraz ryzykiem wystąpienia ataku serca może być inny u kobiet niż u mężczyzn (silniejszy u mężczyzn). Domniemywany związek pomiędzy zażywaniem określonego leku a spadkiem poziomu cholesterolu może występować tylko u kobiet z niskim ciśnieniem i tylko u kobiet trzydziesto- i czterdziesto- letnich. Wskaźniki wydolności procesu lub histogramy rozkładu wydolności mogą różnić się w różnych okresach czasu w przypadku różnych operatorów. Współczynniki regresji mogą różnić się w przypadku różnych grup eksperymentalnych.

Istnieje wiele technik obliczeniowych, wykorzystujących technikę grupowania i przeznaczonych do ilościowego ujmowania różnic wykazanych pomiędzy grupami (np. ANOVA/MANOVA ). Jednakże techniki graficzne (takie jak omawiane wykresy skategoryzowane ) mają wyjątkowe zalety, nie do zastąpienia przez jakąkolwiek metodę obliczeniową. Mogą one ujawniać układy, trudne do ilościowego ujęcia (np. złożone interakcje, wyjątki i anomalie), są unikalnym, wielowymiarowym, ogólnym podejściem analitycznym służącym do eksploracji lub "zgłębiania " danych.

Czym są wykresy skategoryzowane?

Ten rodzaj wykresu (termin wykresy skategoryzowane został po raz pierwszy użyty w programie STATISTICA przez firmę StatSoft w 1990 roku; wcześniej Becker, Cleveland i Clark w firmie Bell Labs stosowali nazwę wykresy kratowe [trellis graphs]) umożliwia tworzenie serii wykresów 2W, 3W lub nW (takich jak histogramy , wykresy rozrzutu , wykresy liniowe , wykresy powierzchniowe , wykresy trójkątne itp.) po jednym dla każdej z wybranych kategorii przypadków (tzn. podzbioru danych), np. ankietowani z Nowego Jorku, Chicago, Dallas itd. Te "składowe" wykresy są umieszczane kolejno na jednym wykresie, umożliwiając przeprowadzanie porównań pomiędzy układami danych przedstawionymi na wykresie dla każdej z wymaganych grup (np. miast).

Przy wyborze podzbiorów można wykorzystywać cały szereg metod; najprostszą z nich jest zastosowanie zmiennej grupującej (np. zmiennej Miasto, z trzema wartościami: Nowy Jork, Chicago i Dallas). Przykładowy wykres zamieszczony poniżej pokazuje histogramy zmiennej przedstawiającej poziomy stresu, które określali u siebie sami ankietowani w każdym z trzech miast.

Na podstawie danych możemy wyciągnąć wniosek, że mieszkańcy Dallas uważają się za mniej zestresowanych, podczas gdy charakterystyczne wzorce (rozkłady) stresu podawane w Nowym Jorku i Chicago są podobne.

Wykresy skategoryzowane w pewnych programach (np., STATISTICA) umożliwiają także przeprowadzanie kategoryzacji dwudzielczej lub wielodzielczej gdzie przy tworzeniu podzbiorów wykorzystuje się nie tylko jedno kryterium (np. Miasto) lecz dwa lub większą ich liczbę (np. Miasto i Pora dnia). Dwudzielcze wykresy skategoryzowane mogą być traktowane jak "klasyfikacje krzyżowe wykresów", gdzie każdy wykres składowy reprezentuje przekrój przez jeden poziom zmiennej grupującej (np. Miasto) oraz jeden poziom innej zmiennej grupującej (np. Pora dnia).

Dodanie drugiego czynnika pozwala stwierdzić, że charakterystyczne układy stresu podawane w Nowym Jorku i Chicago są w rzeczywistości całkiem inne gdy weźmie się pod uwagę Porę dnia, podczas gdy w przypadku Dallas czynnik Pora dnia nie ma większego znaczenia.

Wykresy skategoryzowane a wykresy macierzowe. Wykresy macierzowe również pozwalają tworzyć wykresy złożone z wielu wykresów składowych, jednakże każdy z tych składowych wykresów opiera się na tym samym zbiorze przypadków a wykresy są tworzone dla wszystkich kombinacji zmiennych podanych na jednej lub dwóch listach. Wykresy skategoryzowane wymagają wybrania zmiennych, które normalnie byłyby wybierane dla wykresów nieskategoryzowanych odpowiedniego typu (np. dwie zmienne dla wykresu rozrzutu). Jednakże w przypadku wykresów skategoryzowanych musimy również określić przynajmniej jedną zmienną grupującą (lub pewne kryteria wykorzystywane przy przydzielaniu obserwacji do odpowiednich kategorii) zawierającą informację o grupowej przynależności każdego z przypadków (np. Chicago, Dallas). Ta zmienna grupująca nie zostanie bezpośrednio umieszczona na wykresie (tzn. nie będzie wykreślana) ale posłuży jako kryterium przy rozdziale analizowanych przypadków do wykreślenia na oddzielnych wykresach. Jak to zilustrowano powyżej, dla każdej grupy (kategorii) określonej przez zmienną grupującą zostanie utworzony jeden wykres.

Skalowanie wspólne a skalowanie niezależne. Dla każdego z pojedynczych wykresów skategoryzowanych można zastosować skalowanie w oparciu o odrębny zakres wartości (skale niezależne)

lub do wszystkich możemy zastosować wspólną skalę na tyle szeroką, aby objąć wszystkie wartości na wszystkich wykresach składowych.

Wspólne skale umożliwiają analitykowi przeprowadzanie porównań zakresów i rozkładów wartości pomiędzy kategoriami. Jednak w przypadku gdy zakresy wartości na składowych wykresach znacznie się różnią, wówczas niektóre z nich mogą być trudne do odczytania. Użycie skalowania niezależnego może ułatwić dostrzeżenie trendów i określonych układów obserwacji występujących w obrębie poszczególnych kategorii, ale może z kolei znacznie utrudnić porównania zakresów wartości pomiędzy kategoriami.

Metody kategoryzacji

Jest pięć ogólnych metod kategoryzacji wartości, niżej pokrótce omówionych: tryb całkowity, kategorie, granice, kody i podzbiory wielowarunkowe. Metody te maja zastosowanie zarówno do kategoryzowania przypadków dzieląc je na różne składowe wykresy, jak i do podziału przypadków wewnątrz jednego wykresu, np. na różne przedziały słupków histogramu .

Tryb całkowity. W tej metodzie obcinane są (o ile występują) części ułamkowe wartości wybranej zmiennej grupującej . Każda z tak otrzymanych liczb całkowitych tworzy osobną kategorię (i w rezultacie wykres).

Kategorie. W tej metodzie podaje się liczbę kategorii. Program podzieli cały zakres wartości wybranej zmiennej grupującej (od wartości minimalnej do maksymalnej) na wybraną liczbę przedziałów o równej długości.

Granice. W tej metodzie wprowadza się listę granic dla wybranej zmiennej (przedziały mogą więc być różnej długości). Np. "mniej niż -10", "więcej lub -10 ale mniej niż 0", "więcej lub 0 ale mniej niż 10" i "więcej lub 10").

Kody. Metody tej używa się gdy mamy zmienną grupującą zawierającą "kody " (np. mężczyźni, kobiety), które maja określać kategorie.

Podzbiory wielowarunkowe. Ta metoda kategoryzacji umożliwia zdefiniowanie własnych kategorii, przy czym użyć do tego można więcej niż jednej zmiennej. Można tu określić nie tylko przedziały zmienności ale wręcz konkretne "zdarzenia", zdefiniowane przez kombinacje wartości różnych zmiennych (przez warunki zawierające dowolne z dostępnych w pliku danych zmiennych). Można np. uzyskać kategorię "Kobiety zamożne" wykorzystując zmienną Płeć i zmienną Dochód.

Histogramy

Histogramy , ogólnie rzecz biorąc, służą do analizy rozkładów liczebności wartości zmiennych. Wykres rozkładu liczebności pokazuje, które konkretne wartości lub zakresy wartości zmiennej występują najczęściej, jak są one rozmieszczone, czy większość obserwacji jest skoncentrowana wokół średniej , czy rozkład jest symetryczny czy skośny , wielomodalny (ma dwa lub więcej maksimów) czy jednomodalny . Histogramy umożliwiają także ocenę podobieństwa rozkładu empirycznego do rozkładu teoretycznego lub oczekiwanego.

Skategoryzowane histogramy umożliwiają tworzenie histogramów z podziałem względem jednej lub dwóch zmiennych kategoryzujących lub względem dowolnego jednego lub dwóch zbiorów logicznych warunków kategoryzacji (poprzez kategoryzację metodą podzbiorów wielowarunkowych) (zob. Metody kategoryzacji ).

Są dwa główne powody, dla których interesujemy się rozkładami liczebności.

Często pierwszym krokiem przy analizie nowego zbioru danych jest utworzenie histogramów wszystkich zmiennych.

Histogramy a analiza przekrojowa.Skategoryzowane histogramy dostarczają podobnych informacji jak analiza przekrojowa (np. średnia , mediana , wartość minimalna i maksymalna, zróżnicowanie wartości itd.; zob. Statystyki podstawowe i tabele ). Chociaż liczbowe wartości statystyk opisowych są łatwiejsze do odczytywania w tabeli, to jednak całościowy kształt i ogólna charakterystyka rozkładu jest znacznie łatwiejsza do oceny na wykresie. Wykres daje jakościową informację o rozkładzie, która nie może być przedstawiona za pomocą jakiegokolwiek pojedynczego wskaźnika liczbowego. Przykładowo ogólna skośność rozkładu dochodów może wskazywać na to, że większość ludzi ma poziom dochodu znacznie bliższy minimum niż maksimum. Ponadto, kiedy uwzględnimy płeć i pochodzenie, charakterystyka rozkładu dochodów może okazać się bardziej wyraźna w podgrupach. Mimo iż podobną informację zawiera współczynnik skośności , to jednak charakterystyka rozkładu jest zazwyczaj znacznie łatwiej percypowana i zapamiętywana z histogramu . Histogram ujawnia nierównomierności odzwierciedlające ważne fakty na temat szczegółowej stratyfikacji społecznej badanej populacji lub anomalii występujących w rozkładzie dochodów, spowodowanych reformą podatkową.

Skategoryzowane histogramy i wykresy rozrzutu. Użytecznym zastosowaniem metod kategoryzacji dla zmiennej ciągłej jest przedstawienie współzależności pomiędzy trzema zmiennymi. Popatrzmy na poniższy wykres rozrzutu dwóch zmiennych Ładunek 1 i Ładunek 2.

Przypuśćmy, że chcielibyśmy dodać trzecią zmienną (Wyjście) i badać jej rozkład na różnych poziomach łącznego rozkładu zmiennych Ładunek 1 i Ładunek 2. Można w tym celu utworzyć następujący wykres:

Na wykresie tym obydwie zmienne Ładunek 1 i Ładunek 2 zostały skategoryzowane na 5 przedziałów, a dla każdej kombinacji kategorii został wykreślony rozkład zmiennej Wyjście. Zauważmy, że "ramka" (w kształcie równoległoboku) obejmuje na obydwu pokazanych powyżej wykresach w przybliżeniu te same obserwacje (przypadki).

Wykresy rozrzutu

Ogólnie rzecz ujmując, dwuwymiarowe wykresy rozrzutu są używane do wizualizacji relacji pomiędzy dwiema zmiennymi X i Y (np. masą ciała i wzrostem). Pary wartości reprezentowane są na wykresach rozrzutu przez punkty w dwuwymiarowej przestrzeni, gdzie osie reprezentują zmienne. Jeśli dwie zmienne są silnie powiązane, wówczas punkty danych tworzą regularny kształt (np. linię prostą lub wyraźną krzywą). Jeśli zmienne nie są ze sobą powiązane, punkty na wykresie tworzą okrągłą "chmurę".

Skategoryzowany wykres rozrzutu umożliwia tworzenie wykresów rozrzutu skategoryzowanych względem jednej lub dwóch zmiennych. Korzystając z podzbiorów wielowarunkowych, można także skategoryzować wykresy rozrzutu na bazie logicznych warunków wyboru (zob.Metody kategoryzacji ), które definiują każdą kategorię lub grupę obserwacji.

Skategoryzowane wykresy rozrzutu to skuteczna technika eksploracyjna i analityczna, służąca do badania powiązań pomiędzy dwiema lub większą liczbą zmiennych w obrębie różnych podgrup.

Jednorodność dwuwymiarowych rozkładów (typ zależności między zmiennymi). Wykresy rozrzutu są zazwyczaj wykorzystywane do wykrywania i rozpoznawania charakteru zależności pomiędzy dwiema zmiennymi (np. ciśnieniem krwi i poziomem cholesterolu), gdyż dają one znacznie więcej informacji niż sam współczynnik korelacji .

Współczynnik korelacji może dać fałszywy obraz zależności na przykład z powodu niejednorodności próby. Wyobraźmy sobie sytuację, w której współczynnik korelacji został obliczony na podstawie danych pochodzących z dwóch różnych grup eksperymentalnych, a fakt ten został zignorowany w momencie obliczania korelacji. Załóżmy, że w jednej z grup obydwie zmienne mają wyższe wartości i dlatego dane z każdej z grup tworzą na wykresie rozrzutu osobne "chmury" (jak to pokazano poniżej).

W przykładzie tym otrzymany wysoki poziom korelacji związany jest wyłącznie z pojawieniem się dwóch grup i nie oznacza żadnej "prawdziwej" relacji pomiędzy dwiema zmiennymi. Korelacja praktycznie jest równa 0, jeśli popatrzy się osobno na każdą z grup.

Jeśli podejrzewamy wystąpienie takiego układu, a wiemy, jak rozróżnić podzbiory danych, wówczas utworzenie skategoryzowanego wykresu rozrzutu

może dać bardziej realistyczny obraz siły powiązań pomiędzy zmiennymi X i Y, przedstawiając niezależnie obie grupy przypadków.

Zależności nieliniowe. Innym aspektem współzależności pomiędzy zmiennymi, który może być badany na wykresach rozrzutu , jest nieliniowość. Nie istnieją "automatyczne" lub łatwe do stosowania testy, które byłyby przeznaczone do pomiaru nieliniowych powiązań pomiędzy zmiennymi. Standardowy współczynnik korelacji r Pearsona mierzy tylko zależności liniowe; niektóre nieparametryczne współczynniki korelacji, takie jak współczynnik R Spearmana mogą mierzyć związki nieliniowe, ale tylko te o charakterze monotonicznym. Badanie wykresów rozrzutu umożliwia identyfikację kształtu powiązań, dzięki czemu można później wybrać odpowiednie przekształcenie danych, aby doprowadzić do liniowości związków pomiędzy zmiennymi lub wybrać stosowny model nieliniowy, który ma zostać dopasowany do danych.

Więcej informacji zob.: Statystyki podstawowe i tabele , Statystyki nieparametryczne , Regresja wieloraka i Estymacja nieliniowa .

Wykresy normalności

Mamy trzy typy wykresów: normalności , normalności połówkowej i odchyleń od normalności . Wykresy normalności są prostym sposobem wizualnego sprawdzania zgodności danych z rozkładem normalnym.

Dzięki skategoryzowanym wykresom normalności, w prosty sposób można ocenić jak bardzo rozkład danej zmiennej jest zbliżony do rozkładu normalnego w różnych podgrupach.

Skategoryzowane wykresy normalności są wygodnym narzędziem badania jendorodności grup ze względu na normalność.

Wykresy kwantyl-kwantyl

Skategoryzowany wykres kwantyl-kwantyl (K-K) jest pomocny przy znajdowaniu najlepiej dopasowanego rozkładu spośród danej rodziny rozkładów.

Za pomocą skategoryzowanego wykresu K-K tworzymy serię standardowych wykresów kwantyl-kwantyl (K-K), po jednym dla każdej z kategorii określonych poprzez jedną lub dwie (X i Y) zmienne kategoryzujące (lub przez podzbiory wielowarunkowe, patrz Metody kategoryzacji ). Przykłady rozkładów, dla których są wykresy K-K: wykładniczy , wartości ekstremalnych , normalny , Rayleigh'a , Beta , Gamma , log-normalny i Weibulla .

Wykresy prawdopodobieństwo-prawdopodobieństwo

Skategoryzowany wykres prawdopodobieństwo-prawdopodobieństwo (P-P) pozwala określić jak dobrze dany rozkład teoretyczny odzwierciedla rozkład danych empirycznych. Wykres ten zawiera serię standardowych wykresów prawdopodobieństwo-prawdopodobieństwo (P-P), po jednym dla każdej z kategorii określonych poprzez jedną lub dwie (X i Y) zmienne kategoryzujące (lub przez podzbiory wielowarunkowe, patrz Metody kategoryzacji ).

Na wykresie P-P dystrybuanta empiryczna (odsetek niebrakujących wartości x) jest wykreślana względem dystrybuanty teoretycznej, w celu oceny dopasowania rozkładu teoretycznego do danych empirycznych. Jeśli wszystkie punkty na wykresie układają się wzdłuż prostej wówczas możemy wnioskować, że rozkład teoretyczny stanowi dobre dopasowanie dla rozkładu empirycznego.

Jeśli natomiast punkty nie wypadają na linii przekątnej wówczas możemy wykorzystać ten wykres do wizualnej oceny fragmentów w których dane podlegają danemu rozkładowi oraz miejsc w których dane nie podlegają danemu rozkładowi (np. w przypadku gdy punkty układają się w kształcie litery S wzdłuż przekątnej wówczas dane mogą wymagać przekształcenia).

Wykresy liniowe

Na wykresach liniowych pojedyncze punkty danych są połączone linią. Wykresy tego typu stanowią prosty sposób wizualnej prezentacji sekwencji wielu wartości (np. kursy na giełdzie papierów wartościowych w funkcji liczby dni). Skategoryzowane wykresy liniowe są użyteczne wówczas, jeżeli chcemy takie dane skategoryzować względem pewnej zmiennej grupującej (np. kursy zamknięcia na giełdzie w poniedziałki, wtorki itd.) lub też za pomocą innych warunków logicznych zawierających jedną lub więcej zmiennych (np., kursy zamknięcia tylko dla tych dni, kiedy indeks giełdowy WIG i dwa inne indeksy wzrosły, w odróżnieniu od wszystkich innych kursów zamknięcia; patrz Metody kategoryzacji ).

Wykresy ramka-wąsy

Na wykresach ramka-wąsy zakresy zmienności wybranej zmiennej (lub zmiennych) rysowane są osobno dla grup przypadków określonych przez zmienną kategoryzującą (grupującą) lub kategorii zdefiniowanych przez podzbiory wielowarunkowe. Nazwa ramka-wąsy (ang. box-plot) została po raz pierwszy użyta przez Tukey'a w 1970 r.

Miary tendencji centralnej (mediana lub średnia ) i zmienności (np. kwartyle , błąd standardowy lub odchylenie standardowe ) obliczane są dla każdej grupy obserwacji, a ich wartości wizualizowane są na jeden z pięciu sposobów: (Ramki-wąsy , Wąsy , Ramki , Kolumny , lub Maks-Min-Zamknięcie). Pokazywane mogą być też wartości odstające (zob. niżej punkt dotyczący wartości odstających i ekstremalnych ).

Przykładowo, na poniższym wykresie, wartości odstające (w tym przypadku, punkty większe lub mniejsze niż 1,5 razy rozstęp kwartylowy) wyznaczają szczególnie "niefortunne" odchylenia dla jednej kombinacji czynników:

Jednakże, na poniższym wykresie, nie widać żadnych odstających czy ekstremalnych wartości.

Mamy dwa typowe zastosowania wykresów ramka-wąsy : (a) porównywanie zakresów wartości pomiędzy grupami przypadków (np. zakresy cen danego rodzaju produktu u różnych dostawców) i (b) porównywanie rozkładów czy zmienności w grupach lub próbkach (przedstawiając średnią jako punkt, błędy standardowe jako ramki, a odchylenia standardowe "jako wąsy").

Wykresy takie pozwalają na pierwszy rzut oka ocenić stopień zależności pomiędzy zmienną zależną (wykreślaną) a zmienną grupującą. W szczególności, mając zmienną o rozkładzie normalnym i pamiętając jaka część obserwacji wpada w przedział ±1 albo ±2 sigma (zob. Podstawowe pojęcia ), łatwo można ocenić wyniki doświadczenia, stwierdzając, że na przykład 95% przypadków grupy A należy do innego zakresu niż 95% przypadków grupy C.

Co więcej, tak zwane średnie po ucinaniu (nazwa ta została wprowadzona przez Tukey'a w 1962 r.) mogą zostać wykreślone poprzez wykluczenie podanego przez użytkownika procentu przypadków, będących ekstremalnymi wartościami rozkładu tych danych (tzw. ogon).

Wykresy kołowe

Wykres kołowy należy do najczęściej stosowanych rodzajów wykresów służących do prezentacji części (udziałów, procentu) pewnej całości. Wykres ten umożliwia wykreślenie koła podzielonego na podstawie jednej lub więcej zmiennych (np. zmiennych grupujących , jak np. płeć), lub też skategoryzowanego względem pewnego warunku logicznego, który określa podzbiory wielowarunkowe (zob. Metody kategoryzacji ).

Od tej pory w naszych rozważaniach, mówiąc o skategoryzowanym wykresie kołowym będziemy mieć na myśli wykres kołowy liczności (a nie wykres kołowy wartości ). Ten typ wykresu kołowego interpretuje dane tak jak histogram. Wszystkie wartości wybranej zmiennej kategoryzowane są zgodnie z wybraną techniką, a następnie względne liczności w kategoriach ilustrowane są przez wielkość wycinków koła. Tak więc wykresy kołowe stanowią alternatywę dla histogramów liczebności (zob. rozdział Skategoryzowane histogramy ).

Obrazkowe wykresy kołowe. Innym, przydatnym zastosowaniem skategoryzowanych wykresów kołowych jest prezentacja względnej częstości rozkładu zmiennej w każdym punkcie łącznego rozkładu dwóch innych zmiennych. Poniżej zaprezentowany został przykład:

Zauważmy, że wycinki wykreślone są jedynie w "miejscach", gdzie są dane. Dlatego powyższy wykres przyjmuje wygląd wykresu rozrzutu (dla zmiennych L1 oraz L2), z indywidualnymi wycinkami o postaci punktów. Jednakże, uzupełniając informacje dotyczące prostego wykresu rozrzutu , każdy wycinek pokazuje względny rozkład trzeciej zmiennej w odpowiednim punkcie (tzn. niska, średnia i wysoka jakość).

Wykresy brakujących danych i spoza zakresu

Ten wykres tworzy serię standardowych wykresów, po jednym dla każdej z kategorii określonych poprzez zmienną grupującą lub przez podzbiory wielowarunkowe (patrz Metody kategoryzacji ). Wykresy te pozwalają zobaczyć brakujące dane i wartości, które wykraczają poza określony przez użytkownika zakres. Pomagają one szukać skupisk takich "nieprawidłowych" punktów w różnych kategoriach przypadków.

Wykresy takie są użyteczne w eksploracyjnej analizie danych do określania zasięgu brakujących danych (lub danych poza zakresem) oraz do oceny, czy skupiska tych danych pojawiają się losowo czy regularnie.

Wykresy trójwymiarowe

Ten rodzaj wykresów umożliwia tworzenie wykresów rozrzutu 3W (wykres przestrzenny , wykres spektralny , wykres odchylenia i wykresów toru ), wykresów warstwicowych oraz wykresów powierzchniowych 3W dla podzbiorów danych za pomocą określonych kategorii wybranej zmiennej lub innej logicznej kategoryzacji obserwacji (patrz Metody kategoryzacji ). Głównym celem tego wykresu jest ułatwienie porównań pomiędzy grupami lub też kategoryzowanie związku pomiędzy trzema lub większą ilością zmiennych.

Zastosowania. Ogólnie mówiąc, wykresy XYZ 3W wizualizują interakcyjne powiązania pomiędzy trzema zmiennymi. Różne sposoby kategoryzacji danych umożliwiają przeglądanie tych współzależności w powiązaniu z pewnym dodatkowym kryterium (które posłużyło do kategoryzacji przypadków).

Na podstawie skategoryzowanych wykresów powierzchniowych pokazanych poniżej (oraz ich warstwicowych odpowiedników) można wywnioskować, że ustawienie poziomu tolerancji pewnego urządzenia nie wpływa na badane powiązania pomiędzy pomiarami (Zależn1, Zależn2 oraz Wysokość) dopóki poziom ten nie jest 3.

Efekt jest lepiej widoczny, jeśli zastosujemy wykresy warstwicowe.

Wykresy trójkątne

Skategoryzowane wykresy trójkątne mogą być wykorzystywane do badania zależności pomiędzy trzema lub większą liczbą wymiarów, gdzie trzy z tych wymiarów reprezentują składniki mieszaniny (tzn. wartości trzech zmiennych dodają się do wartości stałej dla każdego przypadku).

W przypadku wykresów trójkątnych do wykreślania czterech (lub większej liczby) zmiennych (składników X, Y i Z oraz efektów V1, V2 itd.) w dwóch wymiarach (trójkątne wykresy rozrzutu lub warstwicowe) lub w trzech wymiarach (trójkątne wykresy rozrzutu 3W lub wykresy powierzchniowe) wykorzystywane są trójkątne układy współrzędnych. W celu utworzenia wykresu trójkątnego względne proporcje każdego z trzech składników (dla każdego z przypadku) są tak ograniczane, aby dodawały się do tej samej wartości (np. 1).

W przypadku skategoryzowanych wykresów trójkątnych dla każdego poziomu zmiennej grupującej (lub zdefiniowanego przez użytkownika podzbioru danych) wykreślany jest jeden wykres składowy a wszystkie wykresy składowe są rozmieszczone na jednym wykresie aby umożliwić dokonywanie porównań pomiędzy podzbiorami (kategoriami) danych.

Zastosowania. Jednym z typowych zastosowań tego wykresu jest sytuacja kiedy reakcja chemiczna zależy od wzajemnej relacji pomiędzy trzema składnikami, które są zmieniane w celu określenia optymalnej kombinacji tych składników (np. w układach planu dla mieszaniny ). Wykres ten znajduje również zastosowanie w sytuacjach, gdy związki między powiązanymi zmiennymi chcemy porównać względem kategorii lub podzbiorów danych.

Indeks


Wyróżnianie

Prawdopodobnie najbardziej znaną i najwcześniej szeroko wykorzystywaną techniką, w sposób jednoznaczny identyfikowaną z graficzną eksploracyjną analizą danych jest technika wyróżniania. Jest to rodzaj interaktywnej techniki, pozwalającej na wybieranie bezpośrednio na wykresie określonych punktów lub podzbiorów danych i identyfikowanie ich (wspólnych) charakterystyk lub badanie ich wpływu na powiązania zachodzące pomiędzy odpowiednimi zmiennymi (np. na macierzowym wykresie rozrzutu ) lub do identyfikacji (np. podkreślenia) wartości odstających .

Relacje pomiędzy zmiennymi mogą być wizualizowane przy zastosowaniu dopasowanych funkcji (np. linii 2W lub powierzchni 3W) oraz odpowiadających im przedziałom ufności. Dzięki temu można na przykład, badać zmiany tych funkcji przy interakcyjnym (tymczasowym) usuwaniu lub dodawaniu określonych podzbiorów danych. Przykładem wyróżniania może być wybranie (podświetlenie) na macierzowym wykresie rozrzutu wszystkich punktów należących do pewnej grupy (np. "osoby o średnim przychodzie", zob. podświetlone podzbiory w górnym prawym wykresie składowym zamieszczonym poniżej):

Dzięki temu możemy zobaczyć, w jaki sposób wyglądają zależności między zmiennymi (np. korelacja między wartością "aktywów" a "zadłużeniem") dla punktów należących do tej grupy i pozostałych punktów.

Korzystając z animowanego wyróżniania możemy zbadać, jak wyglądają zależności między zmiennymi dla różnych zakresów wybranej zmiennej (zmiennej kategoryzującej). W animowanym wyróżnianiu obszar wyboru punktów przesuwa się w obrębie zakresu wartości zmiennej wyznaczającej grupy (może to być np. wartość przychodu lub wartości przychodu podzielona na trzy kategorie).

[Animated Brushing][3D Animated Brushing]

Indeks


Wygładzanie rozkładów dwuwymiarowych

Trójwymiarowe histogramy służą do wizualizacji liczebności klasyfikacji krzyżowej dwóch zmiennych. Histogramy takie można traktować jak połączenie dwóch zwykłych histogramów otrzymanych dla każdej zmiennej z osobna. Połączenie polega na iloczynie logicznym przynależności do kategorii dla jednej i drugiej zmiennej. W najczęściej stosowanym formacie tego wykresu dla każdej "komórki" tabeli dwudzielczej rysowany jest trójwymiarowy słupek, a jego wysokość reprezentuje liczebność wartości odpowiedniej komórki tej tabeli. Dla każdej z dwóch zmiennych histogramu 3W zastosować można różne metody kategoryzacji.

Jeśli posiadany program umożliwia wygładzanie, to możemy dopasowywać powierzchnię do trójwymiarowych wykresów liczebności dwóch zmiennych. Tak więc każdy histogram 3W może zostać przekształcony w wygładzoną powierzchnię. Technika ta jest mało użyteczna, jeśli zostanie zastosowana do prostego układu skategoryzowanych danych (takiego jak histogram, który został pokazany powyżej).

Jednak zastosowana do bardziej złożonych układów (jak pokazany niżej)

może być cenną techniką eksploracyjną, umożliwiającą wykrycie regularności, które są znacznie słabiej wyeksponowane na standardowych histogramach 3W (zob. fale widoczne na powyższym wykresie wygładzonym).

Indeks


Kompresja warstwowa

Jeśli używamy kompresji warstwowej, wykres główny zostaje zmniejszony tak, aby było miejsce dla wykresów brzegowych u góry i po prawej stronie obszaru wyświetlania wykresu (i dla miniaturowego wykresu w rogu). Te małe wykresy brzegowe przedstawiają poziomo i pionowo skompresowany obraz głównego wykresu.

W przypadku wykresów 2W, kompresja warstwowa jest techniką eksploracyjnej analizy danych, która ułatwia identyfikację ukrytych trendów i wzorów w 2-wymiarowym zbiorze danych. Przykładowo, na poniższej ilustracji

(przykład omawiany przez Cleveland'a, 1993), jest widoczne iż liczba plam słonecznych w każdym cyklu rozpada się wolniej niż rośnie na początku każdej dekady. Ta tendencja nie jest widoczna jeśli wykreślamy jedynie standardowe linie; jednakże skompresowany wykres odkrywa niewidoczne wzory.

Indeks


Projekcje trójwymiarowych zbiorów danych

Wykresy powierzchniowe wygenerowane przez projektowane powierzchnie (stworzone z wielowymiarowych zbiorów danych, zazwyczaj o trzech zmiennych) są użyteczną metodą do eksplorowania i analitycznego sprawdzenia kształtu powierzchni.

W porównaniu z wykresami powierzchniowymi mogą one być jednak mniej efektywne w poglądowej wizualizacji ogólnego kształtu trójwymiarowych struktur danych.

Ich główna przewaga polega na tym, że umożliwiają dokładne badanie i analizę kształtu powierzchni.

(wykresy warstwicowe wyświetlają serię poziomych przekrojów powierzchni bez zniekształceń perspektywicznych).

Indeks


Wykresy obrazkowe

Wykresy obrazkowe przedstawiają przypadki (obserwacje) w postaci wielowymiarowych symboli i są potężną, chociaż nie łatwą w użyciu, techniką eksploracyjną. Podstawową ideą tej metody jest wykorzystanie zdolności człowieka do "automatycznego" postrzegania złożonych związków między wieloma cechami (zmiennymi), o ile podobne relacje między cechami występują dla wielu obiektów (w tym przypadku "obrazków"). W niektórych sytuacjach obserwacja (lub "odczucie"), że niektóre obiekty są "w jakimś stopniu podobne" do siebie następuje zanim obserwator (badacz) jest w stanie określić, które zmienne odpowiadają za obserwowaną niejednorodność (patrz Lewicki, Hill, Czyzewska, 1992). Dalsza analiza intuicyjnie dostrzeżonej struktury może doprowadzić do wykrycia natury istotnych zależności między zmiennymi.

Istotą wykresów obrazkowych jest przedstawienie poszczególnych przypadków w postaci obiektów graficznych, na których wartości zmiennych są przypisane określonym własnościom lub wymiarom obiektu. Sposób przypisania zmiennych polega na tym, by ogólny wygląd obiektu jak najlepiej odzwierciedlał konfigurację wartości.

Tak więc obiekty stanowią wizualne reprezentacje konfiguracji wartości zmiennych, które mogą zostać łatwo rozpoznane przez obserwatora. Analiza takich obrazków może być pomocna przy wykrywaniu grup przypadków cechujących się prostymi zależnościami, jak również interakcjami pomiędzy zmiennymi.

Analiza wykresów obrazkowych

Wzorcowy schemat analizy wykresów obrazkowych składa się z pięciu etapów:

  1. Wybór kolejności analizowanych zmiennych. W wielu przypadkach losowy dobór początkowej kolejności jest najlepszym rozwiązaniem. Możemy również próbować wprowadzać zmienne w oparciu o ich kolejność w równaniu regresji wielorakiej , wielkości ładunków czynnikowych dla interpretowanych czynników (patrz rozdział Analiza czynnikowa ) lub wyniki innej podobnej techniki wielowymiarowej. Metoda taka może uprościć i ujednolicić ogólny wygląd obrazków, co ułatwi identyfikację mniej wyraźnych struktur. Jednak niektóre interakcyjne układy mogą jednocześnie stać się trudniejsze do znalezienia. Nie ma tu prostej reguły, można jedynie radzić, by najpierw próbować szybszych metod (losowy dobór), a następnie bardziej skomplikowanych.
  2. Poszukiwanie potencjalnych prawidłowości, takich jak podobieństwa pomiędzy grupami obrazków, odstających danych lub powiązań pomiędzy różnymi cechami obrazków (np. "jeśli dwa pierwsze promienie gwiazdy są długie, wówczas jeden lub dwa promienie z drugiej strony są najczęściej krótkie"). Dla tego etapu zalecić można wykres cykliczny .
  3. W przypadku natrafienia na prawidłowości należy próbować je zidentyfikować za pomocą zmiennych, których te prawidłowości dotyczą.
  4. Zmiana przypisania zmiennych do cech obrazków (lub przejście do jednego z sekwencyjnych wykresów obrazkowych ) dla zweryfikowania zidentyfikowanej struktury powiązań (np. przesunięcie odpowiednich aspektów bliżej siebie dla ułatwienia dalszych porównań). W niektórych przypadkach na końcu tego etapu zalecane jest odrzucenie zmiennych, które nic nie wnoszą do znalezionej struktury.
  5. Na końcu należy zastosować ilościową metodę (np. metodę regresji , estymacji nieliniowej , analizę funkcji dyskryminacyjnych lub analizę skupień ) do sprawdzenia i ilościowego określenia zidentyfikowanej struktury lub przynajmniej niektórych jej aspektów.

Podział wykresów obrazkowych

Większość wykresów obrazkowych można przypisać do jednej z dwóch kategorii: cykliczne lub sekwencyjne.

Obrazki cykliczne. Wykresy obrazkowe cykliczne (wykresy gwiazdowe, promieniowe, wielokątów) mają postać "koła ze szprychami", gdzie wartości zmiennych są reprezentowane przez odległości pomiędzy środkiem a brzegiem wykresu.

Obrazki te umożliwiają identyfikację interakcyjnych powiązań między zmiennymi, ponieważ ogólny kształt obrazka może odpowiadać pewnemu rozróżnialnemu schematowi wizualizującemu wielowymiarową konfigurację wartości zmiennych.

Do przełożenia takiego "ogólnego schematu" na określone modele (w kategoriach powiązań pomiędzy zmiennymi) lub sprawdzenia przynależności określonych obserwacji do układu może się okazać pomocne przejście na jeden z sekwencyjnych wykresów obrazkowych , co może być bardziej efektywne, gdy wie się już, czego szukać.

Obrazki sekwencyjne. W przypadku wykresów obrazkowych sekwencyjnych (obrazki kolumnowe, profilowe, liniowe) stosowany jest prostszy format, gdzie pojedyncze obrazki to małe wykresy sekwencyjne (różnych typów).

Wartości kolejnych zmiennych są reprezentowane na tych wykresach przez wysokość kolejnych punktów nad podstawą (np. wysokość kolumn, jak wyżej). Wykresy te mogą być mniej efektywne jako narzędzie wstępnego, eksploracyjnego etapu analizy, ponieważ obrazki mogą wyglądać dość podobnie. Jednakże, jak wcześniej wspomniano, mogą być pomocne w trakcie fazy, gdy niektóre hipotetyczne układy zostały już ujawnione i zachodzi potrzeba ich sprawdzenia lub wyrażenia w terminach powiązań pomiędzy pojedynczymi zmiennymi.

Obrazki kołowe. Wykresy obrazkowe kołowe są czymś pośrednim pomiędzy dwoma poprzednimi kategoriami. Wszystkie obrazki mają tu kształt koła, dzielonego jak tort, według wartości kolejnych zmiennych.

Z funkcjonalnego punktu widzenia wykresy te należą raczej do kategorii sekwencyjnych niż cyklicznych, choć nadają się do obydwu rodzajów zastosowań.

Twarze Chernoffa. Ten rodzaj wykresu obrazkowego tworzy samodzielną kategorię. Przypadki są tu wizualizowane przez twarze, w taki sposób, że względne wartości zmiennych reprezentowane są przez wielkość lub pozycję różnych elementy ludzkiej twarzy.

Ze względu na unikalne własności technika ta jest uważana przez niektórych badaczy za najbardziej zaawansowaną wielowymiarową technikę eksploracyjną (choć jest w tym może nieco przesady), która uwidacznia ukryte układy wzajemnych powiązań między zmiennymi, niemożliwe do wykrycia w żaden inny sposób. Jednocześnie trzeba przyznać, że metoda twarzy Chernoffa nie jest najłatwiejsza do stosowania i wymaga dużej liczby prób z przypisywaniem zmiennych do cech twarzy. Patrz także Techniki Data Mining .

Standaryzacja wartości

Oprócz wyjątkowych przypadków, gdy chcemy, aby obrazki odzwierciedlały ogólne różnice zakresów wartości pomiędzy zmiennymi, wartości zmiennych powinny zostać na wstępie zestandaryzowane, aby zapewnić zgodność zakresów wartości w obrębie obrazka. Ze względu na to, że największe wartości definiują ogólny punkt odniesienia skalowania dla obrazków, to w przypadku wystąpienia zmiennych o wartościach dużo niższych mogą one nie pojawić się w ogóle, np. na wykresie gwiazdowym promienie reprezentujące takie zmienne mogą być zbyt krótkie, aby były w ogóle widoczne.

Zastosowania

Ogólnie rzecz biorąc, wykresy obrazkowe mają zastosowanie (1) w sytuacjach, gdy chcemy znaleźć systematyczne układy lub grupy obserwacji oraz (2) gdy poszukujemy wielowymiarowych powiązań między kilkoma zmiennymi. Pierwszy rodzaj zastosowań jest podobny do analizy skupień , tzn. może być wykorzystywany do klasyfikacji obserwacji.

Przypuśćmy na przykład, że zajmujemy się badaniem osobowości artystów i zebraliśmy odpowiedzi pewnej liczby artystów w kwestionariuszach do badania osobowości. Wykres obrazkowy może pomóc nam ustalić występowanie naturalnych grup artystów na podstawie określonych układów odpowiedzi na różne pytania (np. możemy stwierdzić, że niektórzy artyści są twórczy, niezdyscyplinowani i niezależni, podczas gdy druga grupa jest szczególnie inteligentna, zdyscyplinowana i nastawiona na zdobywanie powszechnego uznania).

Drugi typ zastosowania - poszukiwanie powiązań pomiędzy zmiennymi - jest bardziej podobny do analizy czynnikowej ; tzn. może polegać na wykrywaniu, które zmienne wykazują tendencję "do współwystępowania". Przypuśćmy, że badamy sposób, w jaki ludzie postrzegają samochody. Kilku badanych wypełniło szczegółowe kwestionariusze, oceniając różne marki samochodów ze względu na kilka cech. W zbiorze danych dla każdego z samochodów (wprowadzonego w charakterze przypadku) zapisano średnie wskaźniki dla każdej z badanych cech (wprowadzonych jako zmienne).

Oglądając następnie twarze Chernoffa (twarz reprezentuje samochód), możemy np. zauważyć, że uśmiechnięte twarze wydają się mieć uszy wysoko. Jeśli do uśmiechu została przypisana cena, a maksymalna szybkość do położenia ucha, wówczas nasze "odkrycie" oznacza, że szybkie samochody są droższe. Jest to oczywiście tylko prosty przykład; w rzeczywistej, eksploracyjnej analizie danych mogą się uwidaczniać dodatkowe złożone powiązania pomiędzy zmiennymi.

Wykresy spokrewnione

Wykresy macierzowe przedstawiają współzależności pomiędzy wieloma zmiennymi. Jeśli program umożliwia zaznaczenie wybranych podzbiorów, wykres macierzowy może być stosowany alternatywnie do wykresów obrazkowych, gdyż dostarcza podobnych informacji./P>

Do badania współzależności pomiędzy dwoma zmiennymi możemy wykorzystać zwykły wykres rozrzutu 2W , jeżeli tylko posiadane oprogramowanie pozwala na tworzenie i identyfikowanie zdefiniowanych przez użytkownika podzbiorów na wykresie rozrzutu. Podobnie, przy badaniu zależności pomiędzy trzema zmiennymi, wykres rozrzutu 3W może być stosowany jako alternatywa wykresów obrazkowych.

Rodzaje wykresów

Mamy wiele rodzajów wykresów obrazkowych.

Twarze Chernoffa. Dla każdego przypadku jest rysowany oddzielny obrazek "twarzy". Do kształtów i wielkości pojedynczych rysów twarzy (np. długości nosa, kąta brwi, szerokości twarzy) przypisywane są względne wartości wybranych zmiennych dla każdego przypadku.

Więcej informacji znajdziemy w części Twarze Chernoffa w Podziale wykresów obrazkowych .

Gwiazdy. Gwiazdy należą do obrazków cyklicznych . Względne wartości wybranych zmiennych dla każdego przypadku reprezentowane są przez długości ramion gwiazdy (zgodnie z ruchem wskazówek zegara, począwszy od godziny 12:00). Końce ramion są połączone linią.

Promienie. Promienie należą do obrazków cyklicznych . Dla każdego przypadku wykreślany jest oddzielny obrazek złożony z promieni i linii łączących promienie (przy większej liczbie zmiennych obrazek ten przypomina gwiazdę lub słońce). Każdy promień odpowiada jednej z wybranych zmiennych (zgodnie z ruchem wskazówek zegara, począwszy od godziny 12:00), przy czym długość promienia reprezentuje rozstęp zmiennej. Wartości zmiennych dla każdego przypadku są połączone linią (poprzeczną), przy czym wartości minimalnej zmiennej odpowiada punkt, z którego wychodzą promienie, a maksymalnej koniec promienia.

Wielokąty. Wielokąty należą do obrazków cyklicznych . Dla każdego przypadku wykreślany jest wykres kołowy, przy czym względnym wartościom kolejnych zmiennych odpowiada odległość od środka wielokąta do wierzchołka wielokąta (zgodnie z ruchem wskazówek zegara, począwszy od godziny 12:00).

Koła. Koła należą do obrazków cyklicznych . Dla każdego przypadku wykreślany jest wykres kołowy, przy czym wartościom kolejnych zmiennych odpowiada wielkość wycinka koła (zgodnie z ruchem wskazówek zegara, począwszy od godziny 12:00).

Kolumny. Kolumny należą do obrazków sekwencyjnych . Dla każdego przypadku wykreślany jest pojedynczy wykres kolumnowy; względne wartości wybranych zmiennych dla każdego przypadku reprezentowane są przez wysokość kolejnych kolumn.

Linie. Linie należą do obrazków sekwencyjnych .

Dla każdego przypadku wykreślany jest pojedynczy wykres liniowy (łamana); względne wartości wybranych zmiennych dla każdego przypadku reprezentowane są przez wysokość kolejnych punktów załamania linii powyżej linii bazowej.

Profile. Profile należą do obrazków sekwencyjnych . Dla każdego przypadku wykreślany jest pojedynczy wykres powierzchniowy; względne wartości wybranych zmiennych dla każdego przypadku reprezentowane są przez wysokość kolejnych szczytów profilu powyżej linii bazowej.

Zaznaczanie obrazków

Jeśli program umożliwia zdefiniowanie podzbiorów wielowarunkowych, bardzo przydatne jest wyznaczenie przypadków, których ikony będą wyróżnione (przez otoczenie ramką) na wykresie.

Wzory ramek służących do wyróżniania wybranych podzbiorów powinny być wykazane w legendzie wraz z warunkami selekcji przypadków. Poniższy wykres prezentuje przykład wyróżnionych podzbiorów.

Wszystkie przypadki (obserwacje) spełniające warunki określające Podzbiór 1 (tzn. przypadki, dla których wartości zmiennej Iristype są takie same jak zmiennej Setosa i których liczba przypadków jest mniejsza niż 100) zostały wyróżnione (tzn. odpowiadające im ikony zostały otoczone ramkami).

Wszystkie przypadki spełniające warunki określające Podzbiór 2 (tzn. przypadki, dla których wartości zmiennej Iristype są równe wartościom zmiennej Virginic i których liczba przypadków jest mniejsza niż 100) zostały wyróżnione innym rodzajem ramek.

Indeks


Redukcja danych

Czasami nanoszenie na wykres bardzo dużego zbioru danych może przysłonić występujący tam wzór (por. animację poniżej). Jeśli mamy bardzo duży plik z danymi, to bardziej opłacalne może być naniesienie na wykres jedynie podzbioru danych, aby występujący tam wzór nie został "zakryty" przez zbyt dużą liczbę punktów.

[Data Reduction Animation]

Niektóre programy oferują metody służące do redukcji danych (lub też optymalizacji danych), które mogą być przydatne w takich przypadkach. Metody te umożliwiają ustalenie liczby całkowitej n, mniejszej od liczby obserwacji zawartych w pliku. Następnie program losowo wybierze w przybliżeniu n przypadków ze wszystkich dostępnych obserwacji i narysuje wykres jedynie na podstawie wyselekcjonowanych przypadków.

Zauważmy, że takie metody redukcji zbiorów danych pobierają losową próbkę z danego zbioru. Oczywiście, "natura" takich metod redukcji danych jest całkowicie odmienna niż wówczas, gdy dokonujemy redukcji danych tylko do określonego podzbioru lub dzielimy dane na podgrupy w oparciu o jasno określone kryteria (np. płeć, region czy poziom cholesterolu). Te ostatnie metody mogą być implementowane interaktywnie (np. korzystając z animowanego wyróżniania ), lub inną techniką (np. wykresy skategoryzowane lub warunki selekcji). Wszystkie te metody mogą ponadto wspomagać identyfikację wzorów w dużych zbiorach danych.

Indeks


Obracanie widoku danych (w przestrzeni 3W)

Zmiana punktu widzenia wykresu rozrzutu 3W (np. wykresów prostych , spektralnych lub przestrzennych ) może okazać się efektywną techniką eksploracyjną, ponieważ umożliwia ujrzenie wzorów, które są zasłonięte, jeśli nie patrzymy na "chmurę" punktów pod właściwym kątem (zob. animacja poniżej).

[Animacja - obracanie widoku danych]

Niektóre programy oferują interakcyjną zmianę perspektywy, rotację i stałą kontrolę obrotów, które mogą zostać wykorzystane w takich przypadkach. Te techniki umożliwiają odnalezienie takiej perspektywy i kąta widzenia wykresu, które niosą ze sobą jak najwięcej informacji. Ponadto mamy stałą kontrolę poziomej i pionowej rotacji wykresu.

Jeżeli te udogodnienia są użyteczne w eksploracyjnej analizie danych , mogą być również całkiem przydatne w badaniu przestrzeni czynników (patrz Analiza czynnikowa ) lub składowych głównych (patrz Skalowanie wielowymiarowe ).

Indeks







© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.