Opis kursu:
Kurs poświęcony jest zagadnieniom automatycznego przetwarzania informacji o charakterze tekstowym. Uczestnicy szkolenia poznają metody analizy danych służące do klasyfikacji dokumentów, wyszukiwania i pozyskiwania informacji z przetwarzanych zasobów tekstowych, wykorzystania informacji o charakterze tekstowym w modelowaniu i prognozowaniu. W trakcie zajęć omawiane są zasady analizy zasobów tekstowych za pomocą metod taksonomicznych, modeli klasyfikacyjnych (przede wszystkim drzew decyzyjnych), sieci neuronowych oraz metod graficznych. Podstawowym narzędziem programowym wykorzystywanym w trakcie zajęć jest STATISTICA Text Miner.
Wymagania: umiejętność obsługi komputera w środowisku Windows. Zalecamy wcześniejszy udział w kursie
STATISTICA kurs podstawowy lub
Data mining I - kurs podstawowy.
Kontynuacją mogą być np. kursy:
Data mining II a - metody bez nauczyciela,
Data mining II b - modele i metody,
Data mining III - STATISTICA Data Miner dla zaawansowanych,
Prognozowanie w STATISTICA Data Miner,
Analizy wielowymiarowe,
Sieci neuronowe
Terminy: 15.06.2012
Program kursu
- Definicja oraz zakres text miningu
- Przegląd problemów rozważanych na gruncie text miningu
- Wstępne przygotowanie przetwarzanego zestawu dokumentów
- Ujednolicenie sposobu kodowania dokumentów
- Usunięcie słów nieistotnych z punktu widzenia przeprowadzanej analizy (wchodzących w skład stop-listy)
- Problem redukcji do rdzenia
- Numeryczna reprezentacja dokumentów tekstowych
- Reprezentacja oparta na wektorach liczebności słów
- Określanie podobieństwa pomiędzy dokumentami oraz pomiędzy słowami
- Metody redukcji wymiaru
- Analiza skupień (klasyfikacja bezwzorcowa, grupowanie) dokumentów
- Klasyfikacja dokumentów za pomocą metody k-średnich
- Wykorzystanie hierarchicznych metod grupowania w klasyfikacji dokumentów tekstowych
- Zastosowanie sieci neuronowych w klasyfikacji dokumentów
- Klasyfikacja wzorcowa dokumentów
- Neuronowe metody klasyfikacji
- Klasyfikacja bayesowska
- Wykorzystanie drzew klasyfikacyjnych w analizie dokumentów tekstowych
- Metody pozyskiwania wiedzy z dokumentów tekstowych
- Zagadnienie automatycznego generowania streszczeń
- Wyszukiwanie informacji w tekstowych bazach danych
- Wykorzystanie danych tekstowych w modelowaniu
- Tworzenie modeli regresyjnych wykorzystujących dane tekstowe
- Zastosowanie drzew regresyjnych
- Metody typu Random Forest
- Wizualizacja struktury dokumentów