ZASTOSOWANIA STATYSTYKI I DATA MINING W BADANIACH NAUKOWYCH
Data Mining jako szansa na relatywnie tanie dokonywanie odkryć naukowych poprzez przekopywanie pozornie całkowicie wyeksploatowanych danych empirycznych
prof. Ryszard Tadeusiewicz, Laboratorium Biocybernetyki, Akademia Górniczo-Hutnicza w Krakowie
Jedną z nowych możliwości, jakie stwarza nowoczesna komputerowa analiza danych, a w szczególności techniki analityczne oparte na sztucznej inteligencji, określane obecnie zbiorczą nazwą Data Minining - jest możliwość dokonywania nowych odkryć naukowych bez konieczności przeprowadzania nowych doświadczeń laboratoryjnych lub terenowych. Ta osobliwa możliwość wynika z ogólnie znanego faktu, że każdy eksperyment naukowy wnosi o wiele więcej informacji, niż to zakładał w swoich planach prowadzący doświadczenia badacz. Po zebraniu i zarejestrowaniu wyników przeprowadzonych doświadczeń (będących z reguły najkosztowniejszą częścią procesu pozyskiwania wiedzy naukowej) prowadzona jest bardzo dokładna i staranna analiza tych danych - jednak jest ona ukierunkowana na cel, jaki założono przy planowaniu doświadczenia. W tym kontekście dane doświadczalne zostają wykorzystane do końca. Jednak, jak już powiedziano - w wynikach doświadczeń i w obserwacjach badaczy mieści się z reguły o wiele więcej informacji, niż by to wynikało z potrzeby otrzymania odpowiedzi na założone przez eksperymentatorów pytania. Ta pozostała część cennych empirycznych wiadomości pozostaje jednak zwykle nie dostrzeżona i nie wykorzystana, bo nikt jej nie oczekuje i nikt jej nie poszukuje. Nagromadzenie dużego zasobu takich pozornie wyeksploatowanych, ale w istocie wciąż jeszcze pełnych wartościowych informacji faktów i spostrzeżeń prowadzi do tego, że możliwe staje się dokonywanie nowych odkryć naukowych metodą przekopywania takich odrzuconych już (jako bezużyteczne) zasobów danych empirycznych, które powstają w wyniku prowadzenia kosztownych eksperymentów naukowych ukierunkowanych na zupełnie inne cele.
Referat mówić będzie właśnie o sposobach takiego korzystania z technik Data Mining, żeby przy ich pomocy można było zdobywać nową wiedzę praktycznie za darmo - jedynie kosztem wnikliwych i wielokierunkowych analiz zasobów pozornie bezużytecznych danych. Realizacja takich poszukiwań nowych odkryć na "naukowym śmietniku" jest trudna, gdyż dla znalezienia jednego wartościowego spostrzeżenia trzeba wydobyć, ocenić i na ogół odrzucić setki faktów i związków w istocie bezużytecznych. Co więcej, prowadzący poszukiwania w istocie nie wie, czego szuka. Jednak nowoczesne techniki komputerowej analizy danych są na tyle sprawne i na tyle inteligentne, że takie szukanie "igły w stogu siana" może się zakończyć sukcesem.
Modelowanie wewnątrzczaszkowej kompensacji ciśnieniowo-objętościowej u pacjentów z wodogłowiem
dr Magdalena Kasprowicz, Zakład Inżynierii Biomedycznej i Pomiarowej, Politechnika Wrocławska
Jedną z metod diagnostycznych wodogłowia jest test infuzyjny polegający na pomiarze reakcji ciśnienia wewnątrzczaszkowego (CWC) na podanie dodatkowej objętości roztworu soli fizjologicznej do przestrzeni płynowych pacjenta. Na podstawie zarejestrowanych zmian CWC w trakcie infuzji oraz w oparciu o badania modelowe można wyznaczyć parametry kompensacyjne, opisujące stan stosunków ciśnieniowo-objętościowych przestrzeni wewnątrzczaszkowej. Przeprowadzone przez autorkę badania obejmowały zarówno analizę wzrostu CWC w trakcie infuzji, jak również analizę spadku CWC po zakończeniu infuzji, co jest nowością w badaniach nad hydrodynamiką przestrzeni wewnątrzczaszkowej. Rozszerzenie badań pozwoliło zaobserwować nowe zjawisko opóźnionego powrotu CWC do stanu równowagi przed infuzją. Celem badań była identyfikacja i określenie częstości występowania przedmiotowego zjawiska, jego ilościowa ocena oraz analiza wpływu parametrów kompensacyjnych i klinicznych na występowanie zjawiska u pacjentów, u których wykonano test infuzyjny o dostatecznie długo zarejestrowanym spadku CWC. W tym celu postawiono szereg hipotez badawczych, których weryfikacji dokonano za pomocą pakietu STATISTICA. Dobór odpowiedniej metody zależał od cech statystycznych analizowanych danych oraz od spełnienia założeń wybranego, do weryfikacji hipotezy badawczej, testu statystycznego. W trakcie prezentacji zaprezentowane zostaną wyniki ww. analiz.
Bioindykacja + chemometria = ?
dr Karolina Astel, Wydział Chemiczny, Politechnika Gdańska, Aleksander Astel
Czy istnieje szansa na logiczną interpretację danych uzyskanych w wyniku eksperymentu bazującego na fizjologii żywych organizmów? Czy dane, które są zależne od ogromnej ilości czynników, których nawet nie jesteśmy w stanie zbadać, da się uporządkować i wyciągnąć z nich użyteczną informację? Czy istnieją metody, które są efektywne w przypadku analizy takich z pozoru chaotycznych danych?
Analiza mocy testu i jej znaczenie w badaniach empirycznych
Grzegorz Harańczyk, StatSoft Polska
Planując badania empiryczne badacz coraz częściej nie ogranicza się jedynie do postawienia hipotez, których prawdziwość będzie weryfikował oraz ustalenia wielkości prawdopodobieństwa odrzucenia hipotezy zerowej, ale także planuje jak duży efekt uzna za zadawalający i jaką chce uzyskać moc testu. Analiza mocy testu daje wymierne korzyści, nie tylko w wynikach badań, ale także w nakładach na nie. Dowody potwierdzające tę tezę zostaną zaprezentowane na przykładzie zastosowania analizy mocy testu w poszukiwaniu nowych leków.
Podwyższenie efektywności geologicznej interpretacji profilowań geofizyki wiertniczej przy wykorzystaniu metod statystycznych
dr Monika Kaźmierczuk, Zakład Geofizyki, Akademia Górniczo-Hutnicza w Krakowie
Mioceńskie utwory zapadliska przedkarpackiego uznaje się za perspektywiczne pod względem zawartości węglowodorów, głównie gazu ziemnego. Informację na temat budowy geologicznej przewiercanych utworów otrzymuje się z profilowań geofizycznych wykonanych w otworach wiertniczych oraz z rdzeni pobranych podczas wiercenia otworu. Pobór rdzenia odbywa się tylko na określonych głębokościach, natomiast profilowania dostarczają informacji o ośrodku skalnym wzdłuż całego otworu. Specyficzne wykształcenie geologiczne mioceńskich utworów zapadliska przedkarpackiego powoduje, że interpretacja profilowań geofizycznych nie jest zagadnieniem łatwym. Wielowymiarowe metody statystyczne zastosowane do profilowań geofizyki otworowej okazują się pomocne w zagadnieniach związanych z geologiczną interpretacją przy wytypowaniu horyzontów nasyconych gazem ziemnym. Przyczyniają się do lepszego geologicznego rozpoznania przewiercanego ośrodka skalnego.
Przewidywanie kryzysu walutowego na rynkach wschodzących ze szczególnym uwzględnieniem Polski
dr Leszek Kąsek, Bank Światowy
Pomimo obiektywnych trudności w przewidywaniu kryzysu walutowego na rynkach wschodzących, możliwe jest zbudowanie wiarygodnych mierników ryzyka kryzysu w oparciu o metody ekonometryczno-statystyczne; model logitowy i analizę sygnałów. Zastosowanie obydwu metod pozwoliło na stworzenie komplementarnych wskaźników syntetycznych mierzących ryzyko wystąpienia kryzysu walutowego w trzech największych nowych krajach członkowskich Unii Europejskiej (UE) - Polsce, Republice Czeskiej i na Węgrzech.
Analiza porównawcza funkcjonowania pamięci operacyjnej u osób subklinicznie depresyjnych oraz starszych: paradygmat poznawczej psychofizyki
dr Aneta Brzezicka-Rotkiewicz, Wydział Psychologii, Szkoła Wyższa Psychologii Społecznej
Bardzo często badając dowolne grupy osób konkretnym narzędziem otrzymujemy wynik, który mówi, że różnią się one między sobą. Na przykład grupa A jest gorsza od grupy B pod względem rozwiązywania danego zadania. W powszechnie przyjętym paradygmacie badań nie jesteśmy jednak w stanie rozstrzygnąć na czym dokładnie polegają problemy osób z grupy A (czyli tej osiągającej niższe rezultaty). Samo wnioskowanie na podstawie cech zadania nie odpowie nam na pytanie o naturę występujących deficytów. Czasami wręcz może nawet doprowadzić do wyciągnięcia błędnego wniosku o różnicach jakościowych (no bo przecież osoba z grupy A nie rozwiązała poprawnie tego zadania) w momencie, kiedy są one li tylko ilościowe (wykonała by je, tylko w dłuższym czasie).
Ciekawego spojrzenia na ten problem dostarcza nowa metodologia badań, tak zwana poznawcza psychofizyka, a szczególnie paradygmat analizy wykonania zadania za pomocą funkcji poprawności w czasie (TAF, time accuracy function). O ile w ramach tradycyjnej psychofizyki mówimy o pomiarze wrażliwości zmysłowej o tyle w ramach psychofizyki poznawczej trafnym określeniem jest chyba pomiar "wrażliwości poznawczej", gdyż skupia się ona na relacjach pomiędzy cechami zadania (przede wszystkim czasem prezentacji bodźców) a jakością jego wykonania.
Stosując tę metodę, zamiast ogólnego wskaźnika otrzymujemy dokładny opis wykonania zadania przez osobę badaną w postaci parametrów funkcji matematycznej, w prezentowanym tutaj przypadku funkcji poprawności wykonania zadania w zależności od czasu prezentacji bodźców (TAF - time accuracy function). Pozwala to dokładnie określić, na czym polegają ewentualne deficyty osób badanych - czy jest to proste spowolnienie przetwarzania informacji, czy też zaburzeniu ulegają bardziej złożone procesy poznawcze.
W niniejszym referacie pokazane zostanie zastosowanie metodyki TAF do opisu funkcjonowania pamięci operacyjnej u osób depresyjnych oraz osób w starszym wieku.