Statistica w badaniach naukowych i nauczaniu statystyki




wiosna 2010

Estymacja i testowanie hipotez

Wnioskowanie statystyczne obejmuje estymację i weryfikację hipotez. Estymacja to swoiste odgadywanie wartości nieznanych parametrów populacji lub funkcji gęstości rozkładów prawdopodobieństwa generujących dane, które zaobserwowaliśmy. Przedstawione zostaną pokrótce zasady estymacji nieparametrycznej oraz estymacji parametrycznej, zarówno punktowej jak i przedziałowej. Weryfikacja hipotez statystycznych do chyba najważniejsza część statystyki. Przy korzystaniu z programu STATISTICA jesteśmy w stanie skoncentrować się na merytorycznej analizie problemu, wyborze właściwego testu statystycznego a następnie interpretacji jego wyników. Omówiony zostanie schemat budowy testu istotności ze szczególnym uwzględnieniem decyzji, które w trakcie procesu testowania musi podejmować badacz. do ilustracji estymacji i weryfikacji hipotez wykorzystane zostaną trzy zbiory danych pochodzące z rzeczywistych zadań badawczych, stanowiące jednocześnie bardzo dobry materiał dydaktyczny. Przeprowadzona zostanie estymacja rozkładu wieku podatników – osób fizycznych składających konkretny rodzaj deklaracji podatkowej. Estymacja punktowa i przedziałowa zilustrowana będzie danymi z badań budżetów domowych. Specyficzne testy statystyczne dotyczą weryfikacji hipotez mówiących o czasie trwania zjawisk, gdy część danych ma charakter ucięty. u części obiektów badane zdarzenie już nastąpiło, a u części dopiero nastąpi – i nie wiemy kiedy. Jest to sytuacja typowa dla analizy przeżyć stosowanej w statystyce medycznej. Testowanie hipotez związane z porównywaniem przeżywalności grup będzie zilustrowane przykładem z zakresu onkologii.

Nowoczesne podejście do modelowania predykcyjnego

Wystąpienie poświęcone będzie omówieniu systemu umożliwiającego sprawną realizację całego procesu wydobywania z danych użytecznej wiedzy: od przygotowania danych, przez modelowanie predykcyjne, aż do stosowania modeli i reguł biznesowych dla nowych danych. W szczególności przedstawione zostaną możliwości integracji całego rozwiązania z istniejącym środowiskiem informatycznym.

Modelowanie współzależności zjawisk w STATISTICASTATISTICA Data Miner

Zjawiska i procesy obserwowane w otaczającej nas rzeczywistości mają zazwyczaj dość złożony charakter. Bardzo często jedynym sposobem rozwiązania tego problemu jest uproszczone odwzorowanie rzeczywistości. Zespół technik wykorzystywanych do tego celu jest określany wspólnym terminem modelowanie statystyczne. Odpowiedni statystyczny model zjawiska wymaga z jednej strony umiejętnego wydobycia istoty mechanizmu, generującego dane a z drugiej strony przekształcenie go do postaci umożliwiającej zastosowanie podejścia statystycznego. Najczęściej sprowadza się to do przyjęcia określonej matematycznej formuły, ujmującej powiązania pomiędzy zmiennymi oraz założeń o losowych procesach, wpływających na wyniki pojedynczych pomiarów. z dydaktycznego punktu widzenia dopasowanie modelu do danych empirycznych pozwala zilustrować podejście badacza, które zazwyczaj zmierza do coraz lepszego poznania interesującego go zjawiska. Model jest pojęciem abstrakcyjnym, swoistym pomostem między abstrakcyjnymi sposobami myślenia a realnie istniejącą rzeczywistością. Przedstawia on pewne wyodrębnione, obiektywnie istniejące relacje, które odwzorowuje za pomocą użytecznych reguł, pozwalających „symulować” zachowanie i własności przedstawionego fragmentu rzeczywistości. Dobrze skonstruowany model w adekwatny sposób odtwarza badane obiekty, zjawiska lub procesy i powinien stanowić kompromis między nadmiernym uproszczeniem rzeczywistości a zbytnim nagromadzeniem szczegółów. Dla badacza ważną korzyścią ze zbudowanego modelu może być otrzymanie wygodnego narzędzia do przewidywania przebiegu zjawiska w przyszłości lub przy przyjęciu innego układu warunków, które go kształtują.

Praktyczne aspekty podejścia do modelowania zostaną zilustrowane w środowisku programu STATISTICA i STATISTICA Data Miner na przykładach analizy danych z zakresu medycyny i ekonomii. Najpierw zostanie omówiony sposób uwzględnienia w modelu regresji liniowej zmiennych objaśniających o charakterze jakościowym. W drugiej części opracowania przedstawiono przykłady budowy kilku różnych modeli nieliniowych do opisu zmian liczby abonentów telefonii komórkowej w Polsce. Końcową część poświęcono przykładom budowy modeli dla jakościowej zmiennej zależnej. Przedstawiono zarówno podejście klasyczne jak i podejście wykorzystujące metody data mining.

Analiza szeregów czasowych i prognozowanie

Jednym z najbardziej pasjonujących zagadnień badawczych, dodatkowo obecnych w codziennej działalności wielu firm jest prognozowanie zjawisk. Dane mają postać szeregów czasowych, często pozbawionych dodatkowych zmiennych objaśniających lub informacji jakościowych. Zadaniem analizy szeregów czasowych jest poznanie mechanizmu generującego obserwowany przez nas szereg czasowy. Opisanie tego mechanizmu przy pomocy modelu ilościowego pozwala na wykorzystanie takiego modelu do prognozowania. Prognozy są bezlitośnie weryfikowane przez życie. Przychodzi moment gdy możemy porównać nasze prognozy z wartościami rzeczywistymi. Jeżeli zgodność jest dobra to wspaniale, ale jeżeli błąd jest duży to trzeba umieć szukać przyczyn takiej niezgodności. Analiza szeregu czasowego rozpoczyna się zwykle od identyfikacji składników szeregu: trendu, zmian strukturalnych oraz wahań regularnych o różnym okresie. Nieodłącznym elementem każdego mechanizmu tworzącego szereg czasowy jest składnik losowy. te wyodrębnione składowe szeregu czasowego trzeba umieć mierzyć, modelować, interpretować, eliminować i prognozować. Dobór metod analizy zależny w dużym stopniu od częstotliwości danych jakie posiadamy. Zazwyczaj najbardziej ogólne są dane roczne, potem mamy kwartalne, miesięczne, aż do danych godzinnych a nawet danych bardziej „gęstych”, niemal ciągłych. W prezentacji pokazana zostanie analiza trendu, regresyjne modele szeregów czasowych, modele ARIMA oraz wyrównywanie wykładnicze. Proces prognozowania jest w praktyce procesem ciągłym. Ciągle przybywa nowych danych, stare prognozy są aktualizowane i buduje się nowe. Ten proces może być w dużym stopniu zautomatyzowany w środowisku programu STATISTICA Data Miner.

Dlaczego warto znać metody statystyczne i data mining?

Statystyka jest w pewnym sensie nauką służebną. Jest wykorzystywana przez inne nauki jako obiektywne narzędzie wnioskowania. Podstawowe metody statystyczne mogą być stosowane niemal wszędzie, a oprócz tego wypracowuje się procedury przydatne szczególnie w wybranych dziedzinach wiedzy. W tej części krótko omówione zostaną przykłady różnych konkretnych zastosowań statystyki i jednocześnie programu STATISTICA. Przykłady dotyczyć będą: klasyfikacji i wyceny „wartości” piłkarzy nożnych, losów pasażerów Titanica, dziury budżetowej w Polsce, przyrostu świadczeń zdrowotnych, pracy szkoły tańca, dynamiki zachorowań na raka piersi, przyczyn sukcesu wyborczego Lecha Kaczyńskiego, rozwoju sytuacji politycznej w Polsce, oceny marek piwa przez studentów, poczucia osamotnienia studentów, pracy wybranej karetki pogotowia, sklepu odzieżowego, oszustw internetowych, dziennych przychodów budżetu państwa, prognozowania stóp zwrotu funduszy inwestycyjnych, analizy brytyjskiej listy przebojów Top 30, oceny jakości paliw, poszukiwania genetycznych uwarunkowań nowotworów, oceny pracy polskich europosłów. ta lista przykładowych zastosowań może być wydłużana niemal w nieskończoność. Wszystkie przedstawiane przykłady wykorzystują dane rzeczywiste, zazwyczaj bardzo skrupulatnie skontrolowane pod względem rzetelności.

Oferta StatSoft Polska wspierająca dydaktykę i badania naukowe

Przedstawione zostaną najważniejsze składniki oferty StatSoft Polska w zakresie wspierania dydaktyki i analizy danych badawczych: oprogramowanie STATISTICA, Licencje Akademickie, studia podyplomowe, oraz usługi szkoleniowe, konsultingowe, wdrożeniowe itp.