Przygotowanie danych na potrzeby analiz i raportowania


Opis szkolenia: Celem kursu jest przekazanie praktycznej wiedzy i umiejętności w dziedzinie przygotowania danych na potrzeby analiz statystycznych, data mining i raportowania. Z praktycznych doświadczeń wynika zasada obowiązująca dla ogółu zagadnień analizy danych: zdecydowana większość czasu poświęcana jest na przygotowanie danych (najczęściej mówi się o 80%), właściwa analiza wymaga dużo mniej pracy. Przygotowanie danych to przede wszystkim czyszczenie danych, czyli rozwiązywanie problemów z jakością danych. Druga część przygotowania danych to przekształcenie ich od postaci ułatwiającej uzyskanie pożądanych wyników analiz, np. trafnego modelu lub segmentacji, dobrze opisującej zbiorowość klientów. Kurs 2-dniowy.

Wymagania: umiejętność obsługi komputera w środowisku Windows, znajomość podstaw analizy danych i obsługi programu STATISTICA. Zdecydowanie zalecamy wcześniejszy udział w kursie STATISTICA kurs podstawowy lub Statystyka dla niestatystyków, pomocne może być wcześniejsze odbycie kursów Metodyki data miningData mining – kurs podstawowy.

Kontynuacją mogą być: zaawansowane kursy z cykli Statystyczna analiza danych, Data mining, Prognozowanie oraz Marketing i badania rynku.

Terminy szkoleń: 18.09.2017 - 19.09.2017;

Program szkolenia:

  1. Import danych, typ zmiennych, optymalizacja wielkości arkusza
    • Przykład importu z bazy danych
    • Przykład importu z pliku tekstowego
  2. Czyszczenie danych
    • Wstępne badanie danych
    • Sprawdzanie reguł poprawności danych
    • Analityczne i graficzne wykrywanie obserwacji odstających
      • Polecenie Zamień odstające
      • Wykresy jako narzędzie wykrywania obserwacji odstających
    • Obsługa i zastępowanie braków danych
    • Wykrywanie i przetwarzanie powtórzonych rekordów
  3. Przekształcenia zmiennych
    • Obliczanie zmiennych pochodnych
    • Formuły arytmetyczne i logiczne
    • Funkcje statystyczne
    • Operacje na datach
    • Specjalne techniki odwoływania się do wierszy i kolumn
    • Zamiana przypisania kategorii (przekodowania)
    • Dyskretyzacja zmiennych
    • Przypisywanie rang
    • Standaryzacja
    • Operacje na wartościach tekstowych
  4. Zmiana układu danych
    • Scalanie plików
    • Przekształcenia Ułóż w stertę i Rozrzuć po zmiennych (operacje na danych typu LIMS)
    • Transponowanie arkusza i bloku
    • Tworzenie podzbioru, autofiltr i losowanie