STATISTICA Text Miner


STATISTICA Text Miner jest rozszerzeniem systemu STATISTICA Data Miner, służącym do przekształcania pozbawionych struktury tekstów w użyteczną wiedzę, wspomagającą podejmowanie decyzji.

W projektach data mining wykorzystuje się dane o różnej postaci – nie zawsze mają one strukturę umożliwiającą łatwe wykonanie analizy. STATISTICA Text Miner wgłębia się w dane, które nie mają tradycyjnej struktury „arkusza danych”, i odnaj­duje w nich użyteczną informację. STATISTICA Text Miner umożliwia m.in. badanie zawartości witryn internetowych, dużych repozytoriów dokumentów, budowanie modeli predyk­cyj­nych na podstawie nieobrobionych tekstów i danych innego typu.

STATISTICA Text Miner jest rozszerzeniem systemu STATISTICA Data Miner, służącym do przekształcania pozbawionych struktury tekstów w użyteczna wiedzę, wspomagającą podejmowanie decyzji. W projektach data mining wykorzystuje się dane o różnej postaci – nie zawsze mają one strukturę umożliwiającą łatwe wykonanie analizy. System STATISTICA Text Miner wgłębia się w dane, które nie mają tradycyjnej struktury „arkusza danych” i odnajduje w nich użyteczną informację.

Narzędzia pobierania, selekcji i analizySystem STATISTICA Text Miner można bez trudności łączyć z innymi programami z rodziny STATISTICA. Podobnie jak inne produkty StatSoft, STATISTICA Text Miner zawiera wyjątkowo szeroki zestaw metod o bardzo dużych możliwościach w dziedzinie, dla której został przygotowany (tzn. W text mining). Metody te zostały zaimplementowane ze szczególną uwagą poświęconą skalowalności i wydajności, a także z zastosowaniem technologii wielowątkowej zapewniającej maksymalne wykorzystanie mocy obliczeniowej maszyn wieloprocesorowych.

Podobnie jak system STATISTICA Data Miner, STATISTICA Text Miner zaprojektowano jako otwarte oprogramowanie data mining. Narzędzia pobierania, selekcji i analizy można stosować nie tylko w odniesieniu do dokumentów tekstowych i stron WWW, ale również do klasyfikacji, segmentacji i innych sposobów analizy danych pozbawionych struktury, takich jak (wstępnie obrobione) obrazy, pliki dźwiękowe itd.

Zachęcamy do zapoznania się z wprowadzeniem do text miningprzykładem wykonywania text mining w STATISTICA Text Miner

Najważniejsze możliwości STATISTICA Text Miner:

Odczytywanie dokumentów

 • System zawiera narzędzia dostępu do dokumentów tekstowych w formatach tekstowym (.txt), Adobe Acrobat (.pdf), PostScript (.ps), HTML i XML (powszechnie wykorzystywane w Internecie) oraz formatach Microsoft Office (.doc i .rtf).
 • Środowisko użytkownika umożliwia łatwy wybór dużej ilości dokumentów (np. za pomocą symboli zastępczych i w obrębie wybranego drzewa podkatalogów).
 • System może, poczynając od wybranej strony WWW, wędrować przez wszystkie połączone z nią strony, a także strony połączone z  tymi stronami (tzw. „Web-crawling”). Wszystkie dokumenty wchodzące w skład takiego drzewa odwołań zostaną uwzględnione w analizie, aż do zadanego poziomu „zagłębienia” (liczby kroków, które trzeba wykonać, aby dotrzeć do danej strony WWW).
 • Nazwy plików i adresy stron (URL) mogą być również odczytywane ze zmiennej tekstowej w pliku STATISTICA. System właściwie traktuje zmienne z danymi (liczbowymi lub tekstowymi) i zmienne z odwołaniami do plików i stron. Dzięki temu można w poszczególnych obserwacjach przechowywać zarówno dane liczbowe, jak i duże dokumenty tekstowe, a co za tym idzie wykonywać poprawną analizę „mieszanych” danych (zawierających np. wiek, wzrost i wagę pacjenta oraz tekstowy opis objawów sporządzony przez lekarza).
 • Wygodne i uniwersalne procedury importu list nazw dokumentów lub adresów stron (URL) do arkusza STATISTICA.

Przetwarzanie dokumentów

  Dokumenty mogą być wstępnie przetwarzane (faktycznie analiza i wstępne przetwarzanie może odbywać się równolegle):

 • Pomijanie nieistotnych słów. Możemy pomijać słowa i frazy, które są popularne, ale bezużyteczne w danej analizie (np. takie jak „się”, spójniki „i”, „lub” itp.)
 • Redukcja do rdzenia (ang. „stemming”). Polega ona na utożsamieniu różnych form gramatycznych wyrazów (angielskie słowa „traveled” i „traveling” utożsamia się z „travel”).
 • STATISTICA Text Miner wykonuje redukcję do rdzenia dla dokumentów w językach: holenderskim, angielskim, francuskim, niemieckim, włoskim, portugalskim, hiszpańskim, szwedzkim (w sprawie innych języków prosimy o kontakt). Listy redukowanych słów są dostępne do edycji przez użytkownika; ponadto program umożliwia stosunkowo łatwe dodawanie obsługi innych języków.
 • Po wstępnym przetworzeniu tekstów program zlicza wystąpienia wyrazów we wszystkich dokumentach. Uzyskane w ten sposób dane surowe są podstawą dalszych („liczbowych”) analiz.
 • Przed utworzeniem pliku danych STATISTICA z liczbami wystąpień wyrazów można zastosować różne przekształcenia, przykładowo liczba wystąpień słowa w dokumencie może zostać podzielona przez długość dokumentu lub zlogarytmowana. Ponadto można zastosować różnorodne algorytmy wyboru cech, w tym rozkład według wartości osobliwych (SVD, singular value decomposition).
 • Wynikowy plik danych z wartościami liczbowymi (np. wartościami wymiarów SVD, surowymi licznościami, częstościami względnymi, częstościami najpopularniejszych wyrazów itp.) jest gotowy do analizy.
 • Informacje wydobyte z tekstu mogą zostać zapisane do pliku lub do bazy danych (zob. IDP).

Analiza dokumentów
Narzędzia pobierania, selekcji i analizy

  Do uzyskanych w powyższy sposób danych (liczbowej reprezentacji zawartości dokumentów) możemy zastosować wszystkie metody analityczne:

 • Proste podsumowania mogą wskazać najczęściej używane słowa.
 • Po zastosowaniu SVD (np. poprzez analizę składowych głównych) uzyskuje się mapę dokumentów, służącą do oceny podobieństwa dokumentów itp.
 • Mapowanie dokumentów w oparciu o liczności wyrazów umożliwia uzyskanie mapy podobieństwa jednocześnie między dokumentami i słowami.
 • Analiza skupień (metody EM i k-średnich) identyfikuje grupy podobnych dokumentów.
 • Predykcyjny data mining umożliwia znajdowanie związku między liczbową reprezentacją dokumentu a interesującymi cechami, np. diagnozą medyczną, informacją, czy dana transakcja była zgodna z prawem itp.
 • Kluczowe etapy analizy wymagające intensywnego przetwarzania danych zostały wdrożone z wykorzystaniem technologii wielowątkowej, aby uzyskać maksymalne wykorzystanie maszyn wieloprocesorowych.

Współpraca z programami STATISTICA, STATISTICA Data MinerSTATISTICA Enterprise Server

Oprogramowanie do text mining jest w pełni zintegrowane ze STATISTICA: nie jest to produkt innego wytwórcy, luźno połączony ze STATISTICA! z tego powodu STATISTICA Text Miner jest wyjątkowym rozwiązaniem: narzędzia text mining są „jeszcze jednym modułem” wbudowanym w środowisko STATISTICA Data Miner, STATISTICA Enterprise Server lub własnej aplikacji bazującej na STATISTICA (z użyciem SVB; przykładowo aplikacja będzie regularnie odczytywać dane z hurtowni danych za pomocą IDP, następnie wykonywać analizy i udostępniać je w Internecie za pomocą STATISTICA Enterprise Server, tak że będą z nich mogły korzystać uprawnione osoby na całym świecie).