Zastosowania statystyki i data miningu w badaniach naukowych
27 październik 2011


Badania próbkowe – projektowanie i wnioskowanie

Wiele zmian dokonujących się w ostatnich dziesięcioleciach w życiu społecznym i gospodarczym nie pozostaje bez wpływu na projektowanie i realizację badań statystycznych, w szczególności badań próbkowych (niewyczerpujących). Fundamentem wnioskowania o populacji pozostaje w tego typu badaniach teoria wnioskowania statystycznego Neymana-Pearsona. Z wielu jednak powodów, próba losowa przestaje być jedynym i wystarczającym źródłem informacji dla statystyka. Głównymi powodami dokonującej się ewolucji w tym zakresie są, z jednej strony, wzrost znaczenia błędów nielosowych w całkowitym błędzie badania próbkowego (braki odpowiedzi, wady operatów losowania), a z drugiej, rosnące zasoby informacji o wielu populacjach poddawanych badaniom i coraz łatwiejszy dostęp do tych informacji. Te nowe zjawiska powinny być brane pod uwagę w projektowaniu badania już na etapie wyboru techniki próbkowania. Jednym z najważniejszych wyzwań dla statystyka jest obecnie umiejętne wykorzystanie całości posiadanej na wstępie wiedzy (a priori) w badaniu, w którym wciąż podstawowym źródłem informacji pozostaje próba statystyczna. Pod tym kątem warto przeanalizować możliwości technik losowych i nielosowych próbkowania, a także ograniczenia, jakie wybór ten może powodować we wnioskowaniu. Szczególny nacisk położono w opracowaniu na kwestię weryfikacji i falsyfikacji hipotez.


Zastosowanie modelowania równań strukturalnych do badań nad zachowaniami konsumentów

Technika modelowania równań strukturalnych znajduje współcześnie zastosowanie w coraz większej liczbie dziedzin i dyscyplin naukowych. Pierwotnie rozwinięta przez psychologów i ekonometryków, stosowana jest obecnie przez naukowców zajmujących się między innymi medycyną, socjologią, pedagogiką oraz ekonomią. Możliwości tkwiące w modelowaniu równań strukturalnych są szczególnie cenne w naukach, gdzie poddawane są badaniom złożone relacje między zmiennymi, których pomiar jest utrudniony. Do jednej z takich dziedzin bez wątpienia zaliczają się badania nad zachowaniami konsumentów.

W pierwszej części referatu omówione są główne kierunki wykorzystania modelowania równań strukturalnych do badań zachowań konsumenckich, zwracając szczególną uwagę na problemy dotyczące satysfakcji, lojalności oraz postaw wobec przedsiębiorstw i ich produktów. W drugiej części referatu przedstawione zostaną podstawowe informacje na temat procedury stosowania modelowania równań strukturalnych wraz z przykładem przygotowanym w module SEPATH programu STATISTICA.


Zastosowanie regresji logistycznej do identyfikacji czynników ryzyka wystąpienia powikłań pooperacyjnych po jednoczasowej transplantacji trzustki i nerki

Jednoczasowe przeszczepienie trzustki i nerki jest najczęściej wykonywaną transplantacją wielonarządową. Wykonuję się ją celem leczenia chorych z cukrzycą i niewydolnością nerek. Trzustkę i nerkę przeszczepia się podczas jednej, skomplikowanej operacji, która trwa zwykle 7 godzin. Po tej operacji chory nie musi brać insuliny i być podłączany do sztucznej nerki. Jednakże, jak z każdą operacją i z tą wiążą się powikłania.

Do identyfikacji i oceny czynników ryzyka związanego z wystąpieniem powikłań chirurgicznych występujących po przeszczepie, wykorzystano regresję logistyczną. Przedstawiono proces czyszczenia danych, budowę modeli jednoczynnikowych oraz modelu wieloczynnikowego. Wykonano również analizy oceniające dobroć dopasowania modelu do danych, a także przedstawiono możliwości praktycznego wykorzystania zbudowanego modelu.


Możliwości zastosowania metod data mining na oczyszczalni ścieków

Obecnie nowo budowane i modernizowane oczyszczalnie ścieków wyposaża się w systemy SCADA (ang. Supervisory Control and Data Acquisition), które m.in. umożliwiają archiwizowanie danych różnych parametrów z dowolnym krokiem czasowym. W efekcie codziennie tworzone są milionowe zbiory danych, które stanowią skarbnicę wiedzy o pracy całego systemu. Często w wyniku niewiedzy bazy te nie są opracowywane lub co nie jest zgodne z praktyką inżynierską również bezpowrotnie tracone. Jednocześnie wciąż powracającym problemem dla wielu przedsiębiorstw wodno-kanalizacyjnych jest nadmiar wód opadowych zasilający systemy kanalizacyjne i chaotyczne próby rozwiązania problemu na oczyszczalni ścieków dopiero w momencie napływu tych wód. W opracowaniu zostanie przedstawiona autorska metoda wyodrębnienia istotnych przypadków na oczyszczalni ścieków oraz predykcja użytecznych dla operatora parametrów z wykorzystaniem metod data mining zawartych w pakiecie STATISTICA firmy StatSoft.


Metaanaliza i metaregresja w programie STATISTICA Zestaw Medyczny

Statystyczne metody łączenia wyników pochodzących z niezależnych badań muszą często radzić sobie z problemami wynikającymi ze zmienności między badaniami. Mimo, że metaanaliza pozwala połączyć wyniki z badań pierwotnych w postaci efektu łącznego, jej celem nie jest sprowadzenie wszystkich wartości do jednej miary efektu. Dobrze oddaje to wykres leśny (forest plot), przedstawiający uzyskany efekt łączny w kontekście poszczególnych badań i ich zmienności. W prezentacji przedstawiony zostanie przykład wykonania metaanalizy w programie STATISTICA Zestaw Medyczny. Do oceny zmienności wyników wykorzystana zostanie analiza niejednorodności i analiza w grupach. Z kolei metaregresja, metoda łącząca możliwości metaanalizy i regresji liniowej, pozwoli sprawdzić zależności między charakterystykami i efektem badania, przyczyniając się tym samym do wyjaśnienia badanej zmienności.


Od pojedynczych drzew do losowego lasu

Obecnie coraz częściej dysponujemy dużą ilością danych opisujących interesujące nas zjawisko. Z drugiej strony rosną wymagania odnośnie dokładności i trafności opisu czy modelu danego zjawiska. Dotyczy to zarówno zastosowań naukowo-badawczych, jak i wspierających bieżącą działalność rozmaitych przedsiębiorstw i organizacji. W rezultacie tradycyjne techniki analizy danych często przestają dawać zadawalające i użyteczne wyniki, a na popularności zyskuje zgłębianie danych (data mining).

Jedną z najskuteczniejszych metod modelowania jest losowy las (ang. random forest). Metoda ta łączy możliwość odtworzenia bardzo złożonych zależności z odpornością na przeuczenie i problemy z jakością danych.

Na wystąpieniu zostanie przedstawiona zasada działania losowego lasu oraz przykład tworzenia modelu klasyfikacyjnego, wykorzystującego text mining. Model będzie na podstawie opisu wypadku przewidywał, czy wśród pasażerów i załogi, ktoś odniósł poważne obrażenia.