Text mining


Opis szkolenia: Kurs poświęcony jest zagadnieniom automatycznego przetwarzania informacji o charakterze tekstowym. Uczestnicy szkolenia poznają metody analizy danych służące do klasyfikacji dokumentów, wyszukiwania i pozyskiwania informacji z przetwarzanych zasobów tekstowych, wykorzystania informacji o charakterze tekstowym w modelowaniu i prognozowaniu. W trakcie zajęć omawiane są zasady analizy zasobów tekstowych za pomocą metod taksonomicznych, modeli klasyfikacyjnych (przede wszystkim drzew decyzyjnych), sieci neuronowych oraz metod graficznych. Podstawowym narzędziem programowym wykorzystywanym w trakcie zajęć jest STATISTICA Text Miner.Wymagania: umiejętność obsługi komputera w środowisku Windows. Zalecamy wcześniejszy udział w kursie STATISTICA kurs podstawowy lub Data mining – kurs podstawowy.

Kontynuacją mogą być np. szkolenia:Data mining – metody bez nauczyciela, Data mining – metody predykcyjne, Sieci neuronowe, Data mining – Statistica Data Miner dla zaawansowanych, Prognozowanie w STATISTICA Data Miner, Analizy wielowymiarowe, Sieci neuronowe

Terminy szkoleń:

Program szkolenia

  1. Definicja oraz zakres text miningu
  2. Przegląd problemów rozważanych na gruncie text miningu
  3. Wstępne przygotowanie przetwarzanego zestawu dokumentów
    • Ujednolicenie sposobu kodowania dokumentów
    • Usunięcie słów nieistotnych z punktu widzenia przeprowadzanej analizy (wchodzących w skład stop-listy)
    • Problem redukcji do rdzenia
  4. Numeryczna reprezentacja dokumentów tekstowych
    • Reprezentacja oparta na wektorach liczebności słów
    • Określanie podobieństwa pomiędzy dokumentami oraz pomiędzy słowami
    • Metody redukcji wymiaru
  5. Analiza skupień (klasyfikacja bezwzorcowa, grupowanie) dokumentów
    • Klasyfikacja dokumentów za pomocą metody k-średnich
    • Wykorzystanie hierarchicznych metod grupowania w klasyfikacji dokumentów tekstowych
    • Zastosowanie sieci neuronowych w klasyfikacji dokumentów
  6. Klasyfikacja wzorcowa dokumentów
    • Neuronowe metody klasyfikacji
    • Klasyfikacja bayesowska
    • Wykorzystanie drzew klasyfikacyjnych w analizie dokumentów tekstowych
  7. Metody pozyskiwania wiedzy z dokumentów tekstowych
    • Zagadnienie automatycznego generowania streszczeń
    • Wyszukiwanie informacji w tekstowych bazach danych
  8. Wykorzystanie danych tekstowych w modelowaniu
    • Tworzenie modeli regresyjnych wykorzystujących dane tekstowe
    • Zastosowanie drzew regresyjnych
    • Metody typu Random Forest
  9. Wizualizacja struktury dokumentów