Kursy
 Nasze kursy
 Terminarz
 Programy kursów
 Cykle szkoleniowe
 Informacje organizacyjne
 Zgłoszenie
 Broszura w pdf
Inne usługi
 Kursy na zamówienie
 Usługi konsultingowe
 Usługi implementacyjne
 Statystyka w badaniach
naukowych

 Seminaria
 Studia podyplomowe
 Opinie o kursach




Text mining

Opis kursu: Kurs poświęcony jest zagadnieniom automatycznego przetwarzania informacji o charakterze tekstowym. Uczestnicy szkolenia poznają metody analizy danych służące do klasyfikacji dokumentów, wyszukiwania i pozyskiwania informacji z przetwarzanych zasobów tekstowych, wykorzystania informacji o charakterze tekstowym w modelowaniu i prognozowaniu. W trakcie zajęć omawiane są zasady analizy zasobów tekstowych za pomocą metod taksonomicznych, modeli klasyfikacyjnych (przede wszystkim drzew decyzyjnych), sieci neuronowych oraz metod graficznych. Podstawowym narzędziem programowym wykorzystywanym w trakcie zajęć jest STATISTICA Text Miner.

Wymagania: umiejętność obsługi komputera w środowisku Windows. Zalecamy wcześniejszy udział w kursie STATISTICA kurs podstawowy lub Data mining I - kurs podstawowy.

Kontynuacją mogą być np. kursy: Data mining II a - metody bez nauczyciela, Data mining II b - modele i metody, Data mining III - STATISTICA Data Miner dla zaawansowanych, Prognozowanie w STATISTICA Data Miner, Analizy wielowymiarowe, Sieci neuronowe

Terminy: 15.06.2012


Program kursu

  1. Definicja oraz zakres text miningu
  2. Przegląd problemów rozważanych na gruncie text miningu
  3. Wstępne przygotowanie przetwarzanego zestawu dokumentów
    1. Ujednolicenie sposobu kodowania dokumentów
    2. Usunięcie słów nieistotnych z punktu widzenia przeprowadzanej analizy (wchodzących w skład stop-listy)
    3. Problem redukcji do rdzenia
  4. Numeryczna reprezentacja dokumentów tekstowych
    1. Reprezentacja oparta na wektorach liczebności słów
    2. Określanie podobieństwa pomiędzy dokumentami oraz pomiędzy słowami
    3. Metody redukcji wymiaru
  5. Analiza skupień (klasyfikacja bezwzorcowa, grupowanie) dokumentów
    1. Klasyfikacja dokumentów za pomocą metody k-średnich
    2. Wykorzystanie hierarchicznych metod grupowania w klasyfikacji dokumentów tekstowych
    3. Zastosowanie sieci neuronowych w klasyfikacji dokumentów
  6. Klasyfikacja wzorcowa dokumentów
    1. Neuronowe metody klasyfikacji
    2. Klasyfikacja bayesowska
    3. Wykorzystanie drzew klasyfikacyjnych w analizie dokumentów tekstowych
  7. Metody pozyskiwania wiedzy z dokumentów tekstowych
    1. Zagadnienie automatycznego generowania streszczeń
    2. Wyszukiwanie informacji w tekstowych bazach danych
  8. Wykorzystanie danych tekstowych w modelowaniu
    1. Tworzenie modeli regresyjnych wykorzystujących dane tekstowe
    2. Zastosowanie drzew regresyjnych
    3. Metody typu Random Forest
  9. Wizualizacja struktury dokumentów