Text mining – automatyczna analiza dokumentów tekstowych

online 2 dni

Uczestnicy szkolenia poznają metody analizy zbioru dokumentów tekstowych wykorzystujące macierz częstości. W trakcie zajęć omówione zostaną metody wyznaczania podobieństwa pomiędzy dokumentami, analiza skupień dokumentów, analiza tematyk występujących w dokumentach, zagadnienie identyfikacji słów i fraz kluczowych oraz analiza wydźwięku dokumentu (ang. sentiment analysis).

Dla kogo?

  • Badaczy pragnących wykorzystać w analizach teksty w języku naturalnym
  • Osób badających wydźwięk wypowiedzi w mediach społecznościowych, opinii, recenzji itp.
  • Każdego, kto chce poznać podstawy analizy tekstów w jeżyku naturalnym

Co zyskasz?

  • Zrozumiesz podstawy automatycznego przetwarzania dokumentów.
  • Nauczysz się przygotować dokumenty na potrzeby text mining.
  • Poznasz metody analizy tematyk w dokumentach tekstowych
  • Dowiesz się, jak podzielić zbiór dokumentów na grupy podobnych do siebie obiektów, tzn. wykonywać analizę skupień (ang. cluster analysis).
  • Nauczysz się badać wydźwięk wypowiedzi.
  • Poznasz narzędzia text mining w środowisku R.

  • Program
  • Informacje organizacyjne
  • Ceny

Program szkolenia:

  1. Wprowadzenie do automatycznego przetwarzania języka naturalnego
    • Znaczenie informacji tekstowej
    • Warstwowy model języka
    • Pojęcie i zakres eksploracyjnej analizy dokumentów tekstowych (text mining)
    • Znaczenie wiedzy dziedzinowej w automatycznym przetwarzania dokumentów tekstowych
  2. Wstępne przygotowanie dokumentów
    • Pojęcie korpusu dokumentów
    • Tworzenie i zarządzanie korpusem dokumentów
    • Redukcja do rdzenia i lematyzacja
    • Usunięcie słów nieistotnych (wchodzących w skład stop-listy)
  3. Macierz częstości jako metoda reprezentacji korpusu dokumentów
    • Model przestrzeni wektorowej
    • Wyznaczenie macierzy częstości
    • Metody przetwarzania macierzy częstości
  4. Metoda ukrytej alokacji Dirichleta jak metoda do analizy tematyk w dokumentach tekstowych
    • Probabilistyczna reprezentacja korpusu dokumentów
    • Charakterystyka rozkładu Dirichleta
    • Zastosowanie rozkładu Dirichleta do opisu tematyki dokumentów
  5. Identyfikacja słów i fraz kluczowych
    • Metody bazujące na macierzy częstości
    • Metody oparte na analizie LDA
    • Wizualizacja słów i fraz kluczowych
  6. Analiza skupień dokumentów
    • Metody wyznaczania podobieństwa i odległości pomiędzy dokumentami
    • Klasyfikacja dokumentów za pomocą metody k-średnich
    • Wykorzystanie hierarchicznych metod grupowania w klasyfikacji dokumentów tekstowych
    • Podobieństwo wyników klasyfikacji
    • Ocena jakości klasyfikacji
  7. Analiza wydźwięku dokumentów
    • Subiektywny charakter dokumentów zawierających opinie
    • Słowniki sentymentu i ich wykorzystania
    • Wykorzystanie wiedzy dziedzinowej w analizie opinii
    • Identyfikacja wydźwięku dokumentu jako całości i ocena składowych produktu
  8. Pozyskiwanie dokumentów z serwisów WWW
    • Struktura DOM dokumentów HTML
    • Selektory CSS
    • Pozyskanie i transformacja danych tekstowych z dokumentów HTML
    • Analiza pozyskanych danych

Polecamy inne szkolenia:

  • Data mining – metody predykcyjne
  • Data mining – metody bez nauczyciela
  • Podstawy wizualizacji danych w R z wykorzystaniem pakietu ggplot2
  • Analizy wielowymiarowe w R

Podobne szkolenia

Statistica kurs podstawowy

Szkolenie polecamy wszystkim, którzy chcą poznać podstawy obsługi programu Statistica oraz potrzebują przystępnego wprowadzenia do metod statystycznej analizy danych. Nieprzeładowane wiedzą teoretyczną, często […]

Dowiedz się więcej

Sztuczna inteligencja – podstawy i zastosowania

Szkolenie polecamy wszystkim, którzy chcą poznać podstawy sztucznej inteligencji (AI), nauczyć się efektywnego korzystania z jej narzędzi oraz zrozumieć jej zastosowania w życiu codziennym […]

Dowiedz się więcej

Multivariate Analysis

Most popular methods of multivariate data analysis are presented in the course. They can be used to analyse complex phenomena characterized by many variables. […]

Dowiedz się więcej

Masz pytania?

Porozmawiaj z nami!

Jesteśmy tutaj, aby pomóc i rozwiać wszystkie Twoje wątpliwości. Wypełnij formularz, napisz do nas maila lub zadzwoń – odpowiemy najszybciej, jak to możliwe!

    Przejdź do treści