Statistica
Dane Wiedza Sukces

STATISTICA Text Miner

STATISTICA Text Miner jest rozszerzeniem systemu STATISTICA Data Miner, służącym do przekształcania pozbawionych struktury tekstów w użyteczną wiedzę, wspomagającą podejmowanie decyzji.

W projektach data mining wykorzystuje się dane o różnej postaci – nie zawsze mają one strukturę umożliwiającą łatwe wykonanie analizy. STATISTICA Text Miner wgłębia się w dane, które nie mają tradycyjnej struktury „arkusza danych”, i odnaj­duje w nich użyteczną informację. STATISTICA Text Miner umożliwia m.in. badanie zawartości witryn internetowych, dużych repozytoriów dokumentów, budowanie modeli predyk­cyj­nych na podstawie nieobrobionych tekstów i danych innego typu.

STATISTICA Text Miner jest rozszerzeniem systemu STATISTICA Data Miner, służącym do przekształcania pozbawionych struktury tekstów w użyteczna wiedzę, wspomagającą podejmowanie decyzji. W projektach data mining wykorzystuje się dane o różnej postaci - nie zawsze mają one strukturę umożliwiającą łatwe wykonanie analizy. System STATISTICA Text Miner wgłębia się w dane, które nie mają tradycyjnej struktury "arkusza danych" i odnajduje w nich użyteczną informację.

Narzędzia pobierania, selekcji i analizySystem STATISTICA Text Miner można bez trudności łączyć z innymi programami z rodziny STATISTICA. Podobnie jak inne produkty StatSoft, STATISTICA Text Miner zawiera wyjątkowo szeroki zestaw metod o bardzo dużych możliwościach w dziedzinie, dla której został przygotowany (tzn. W text mining). Metody te zostały zaimplementowane ze szczególną uwagą poświęconą skalowalności i wydajności, a także z zastosowaniem technologii wielowątkowej zapewniającej maksymalne wykorzystanie mocy obliczeniowej maszyn wieloprocesorowych.

Podobnie jak system STATISTICA Data Miner, STATISTICA Text Miner zaprojektowano jako otwarte oprogramowanie data mining. Narzędzia pobierania, selekcji i analizy można stosować nie tylko w odniesieniu do dokumentów tekstowych i stron WWW, ale również do klasyfikacji, segmentacji i innych sposobów analizy danych pozbawionych struktury, takich jak (wstępnie obrobione) obrazy, pliki dźwiękowe itd.

Zachęcamy do zapoznania się z wprowadzeniem do text miningprzykładem wykonywania text mining w STATISTICA Text Miner

Najważniejsze możliwości STATISTICA Text Miner:

Odczytywanie dokumentów
  • System zawiera narzędzia dostępu do dokumentów tekstowych w formatach tekstowym (.txt), Adobe Acrobat (.pdf), PostScript (.ps), HTML i XML (powszechnie wykorzystywane w Internecie) oraz formatach Microsoft Office (.doc i .rtf).
  • Środowisko użytkownika umożliwia łatwy wybór dużej ilości dokumentów (np. za pomocą symboli zastępczych i w obrębie wybranego drzewa podkatalogów).
  • System może, poczynając od wybranej strony WWW, wędrować przez wszystkie połączone z nią strony, a także strony połączone z  tymi stronami (tzw. "Web-crawling"). Wszystkie dokumenty wchodzące w skład takiego drzewa odwołań zostaną uwzględnione w analizie, aż do zadanego poziomu "zagłębienia" (liczby kroków, które trzeba wykonać, aby dotrzeć do danej strony WWW).
  • Nazwy plików i adresy stron (URL) mogą być również odczytywane ze zmiennej tekstowej w pliku STATISTICA. System właściwie traktuje zmienne z danymi (liczbowymi lub tekstowymi) i zmienne z odwołaniami do plików i stron. Dzięki temu można w poszczególnych obserwacjach przechowywać zarówno dane liczbowe, jak i duże dokumenty tekstowe, a co za tym idzie wykonywać poprawną analizę "mieszanych" danych (zawierających np. wiek, wzrost i wagę pacjenta oraz tekstowy opis objawów sporządzony przez lekarza).
  • Wygodne i uniwersalne procedury importu list nazw dokumentów lub adresów stron (URL) do arkusza STATISTICA.
Przetwarzanie dokumentów
    Dokumenty mogą być wstępnie przetwarzane (faktycznie analiza i wstępne przetwarzanie może odbywać się równolegle):
  • Pomijanie nieistotnych słów. Możemy pomijać słowa i frazy, które są popularne, ale bezużyteczne w danej analizie (np. takie jak "się", spójniki "i", "lub" itp.)
  • Redukcja do rdzenia (ang. "stemming"). Polega ona na utożsamieniu różnych form gramatycznych wyrazów (angielskie słowa "traveled" i "traveling" utożsamia się z "travel").
  • STATISTICA Text Miner wykonuje redukcję do rdzenia dla dokumentów w językach: holenderskim, angielskim, francuskim, niemieckim, włoskim, portugalskim, hiszpańskim, szwedzkim (w sprawie innych języków prosimy o kontakt). Listy redukowanych słów są dostępne do edycji przez użytkownika; ponadto program umożliwia stosunkowo łatwe dodawanie obsługi innych języków.
  • Po wstępnym przetworzeniu tekstów program zlicza wystąpienia wyrazów we wszystkich dokumentach. Uzyskane w ten sposób dane surowe są podstawą dalszych ("liczbowych") analiz.
  • Przed utworzeniem pliku danych STATISTICA z liczbami wystąpień wyrazów można zastosować różne przekształcenia, przykładowo liczba wystąpień słowa w dokumencie może zostać podzielona przez długość dokumentu lub zlogarytmowana. Ponadto można zastosować różnorodne algorytmy wyboru cech, w tym rozkład według wartości osobliwych (SVD, singular value decomposition).
  • Wynikowy plik danych z wartościami liczbowymi (np. wartościami wymiarów SVD, surowymi licznościami, częstościami względnymi, częstościami najpopularniejszych wyrazów itp.) jest gotowy do analizy.
  • Informacje wydobyte z tekstu mogą zostać zapisane do pliku lub do bazy danych (zob. IDP).
Analiza dokumentów
Narzędzia pobierania, selekcji i analizy
    Do uzyskanych w powyższy sposób danych (liczbowej reprezentacji zawartości dokumentów) możemy zastosować wszystkie metody analityczne:
  • Proste podsumowania mogą wskazać najczęściej używane słowa.
  • Po zastosowaniu SVD (np. poprzez analizę składowych głównych) uzyskuje się mapę dokumentów, służącą do oceny podobieństwa dokumentów itp.
  • Mapowanie dokumentów w oparciu o liczności wyrazów umożliwia uzyskanie mapy podobieństwa jednocześnie między dokumentami i słowami.
  • Analiza skupień (metody EM i k-średnich) identyfikuje grupy podobnych dokumentów.
  • Predykcyjny data mining umożliwia znajdowanie związku między liczbową reprezentacją dokumentu a interesującymi cechami, np. diagnozą medyczną, informacją, czy dana transakcja była zgodna z prawem itp.
  • Kluczowe etapy analizy wymagające intensywnego przetwarzania danych zostały wdrożone z wykorzystaniem technologii wielowątkowej, aby uzyskać maksymalne wykorzystanie maszyn wieloprocesorowych.

Współpraca z programami STATISTICA, STATISTICA Data MinerSTATISTICA Enterprise Server

Oprogramowanie do text mining jest w pełni zintegrowane ze STATISTICA: nie jest to produkt innego wytwórcy, luźno połączony ze STATISTICA! z tego powodu STATISTICA Text Miner jest wyjątkowym rozwiązaniem: narzędzia text mining są "jeszcze jednym modułem" wbudowanym w środowisko STATISTICA Data Miner, STATISTICA Enterprise Server lub własnej aplikacji bazującej na STATISTICA (z użyciem SVB; przykładowo aplikacja będzie regularnie odczytywać dane z hurtowni danych za pomocą IDP, następnie wykonywać analizy i udostępniać je w Internecie za pomocą STATISTICA Enterprise Server, tak że będą z nich mogły korzystać uprawnione osoby na całym świecie).

 
ContentKontakt

StatSoft Polska Sp. z o.o.
ul. Kraszewskiego 36,
30-110 Kraków,
Telefon: +48 12 428 43 00
Telefon: +48 (601) 41 41 51
Faks: +48 12 428 43 01
e-mail: info@statsoft.pl