Text mining – automatyczna analiza dokumentów tekstowych

online 2 dni

Uczestnicy szkolenia poznają metody analizy zbioru dokumentów tekstowych wykorzystujące macierz częstości. W trakcie zajęć omówione zostaną metody wyznaczania podobieństwa pomiędzy dokumentami, analiza skupień dokumentów, analiza tematyk występujących w dokumentach, zagadnienie identyfikacji słów i fraz kluczowych oraz analiza wydźwięku dokumentu (ang. sentiment analysis).

Dla kogo?

  • Badaczy pragnących wykorzystać w analizach teksty w języku naturalnym
  • Osób badających wydźwięk wypowiedzi w mediach społecznościowych, opinii, recenzji itp.
  • Każdego, kto chce poznać podstawy analizy tekstów w jeżyku naturalnym

Co zyskasz?

  • Zrozumiesz podstawy automatycznego przetwarzania dokumentów.
  • Nauczysz się przygotować dokumenty na potrzeby text mining.
  • Poznasz metody analizy tematyk w dokumentach tekstowych
  • Dowiesz się, jak podzielić zbiór dokumentów na grupy podobnych do siebie obiektów, tzn. wykonywać analizę skupień (ang. cluster analysis).
  • Nauczysz się badać wydźwięk wypowiedzi.
  • Poznasz narzędzia text mining w środowisku R.

  • Program
  • Organizational information
  • Prices

Program szkolenia:

  1. Wprowadzenie do automatycznego przetwarzania języka naturalnego
    • Znaczenie informacji tekstowej
    • Warstwowy model języka
    • Pojęcie i zakres eksploracyjnej analizy dokumentów tekstowych (text mining)
    • Znaczenie wiedzy dziedzinowej w automatycznym przetwarzania dokumentów tekstowych
  2. Wstępne przygotowanie dokumentów
    • Pojęcie korpusu dokumentów
    • Tworzenie i zarządzanie korpusem dokumentów
    • Redukcja do rdzenia i lematyzacja
    • Usunięcie słów nieistotnych (wchodzących w skład stop-listy)
  3. Macierz częstości jako metoda reprezentacji korpusu dokumentów
    • Model przestrzeni wektorowej
    • Wyznaczenie macierzy częstości
    • Metody przetwarzania macierzy częstości
  4. Metoda ukrytej alokacji Dirichleta jak metoda do analizy tematyk w dokumentach tekstowych
    • Probabilistyczna reprezentacja korpusu dokumentów
    • Charakterystyka rozkładu Dirichleta
    • Zastosowanie rozkładu Dirichleta do opisu tematyki dokumentów
  5. Identyfikacja słów i fraz kluczowych
    • Metody bazujące na macierzy częstości
    • Metody oparte na analizie LDA
    • Wizualizacja słów i fraz kluczowych
  6. Analiza skupień dokumentów
    • Metody wyznaczania podobieństwa i odległości pomiędzy dokumentami
    • Klasyfikacja dokumentów za pomocą metody k-średnich
    • Wykorzystanie hierarchicznych metod grupowania w klasyfikacji dokumentów tekstowych
    • Podobieństwo wyników klasyfikacji
    • Ocena jakości klasyfikacji
  7. Analiza wydźwięku dokumentów
    • Subiektywny charakter dokumentów zawierających opinie
    • Słowniki sentymentu i ich wykorzystania
    • Wykorzystanie wiedzy dziedzinowej w analizie opinii
    • Identyfikacja wydźwięku dokumentu jako całości i ocena składowych produktu
  8. Pozyskiwanie dokumentów z serwisów WWW
    • Struktura DOM dokumentów HTML
    • Selektory CSS
    • Pozyskanie i transformacja danych tekstowych z dokumentów HTML
    • Analiza pozyskanych danych

Polecamy inne szkolenia:

  • Data mining – metody predykcyjne
  • Data mining – metody bez nauczyciela
  • Podstawy wizualizacji danych w R z wykorzystaniem pakietu ggplot2
  • Analizy wielowymiarowe w R

Similar courses

Data mining – kurs podstawowy

Data mining (inaczej uczenie maszynowe, ang. machine learning) jest działem sztucznej inteligencji, coraz częściej stosowanym w nauce, badaniach innowacyjnych i rozmaitych zastosowaniach […]

Learn more

Analizy chemometryczne w Statistica – kurs podstawowy

Po wprowadzeniu teoretycznym do zagadnienia analizy danych uczestnicy poznają techniki planowania i wykonania eksperymentu. Zostaną omówione podstawowe techniki analizy chemometrycznej: […]

Learn more

Przygotowanie danych na potrzeby analiz i raportowania

Czyszczenie i przygotowanie danych zajmuje do 80% czasu pracy analityka. Jest to proces żmudny i czasochłonny. Znajomość metod i dobrych […]

Learn more

Do you have questions?

Get in Touch!

Our team is ready to help with any questions you might have. Just fill out the form, send us a message, or give us a call, and we’ll get back to you as soon as we can!

    Skip to content