Statistica
Dane Wiedza Sukces
Solutions Banner

Seminaria StatSoft 

Informacje szczegółowe

Zastosowania statystyki i data mining
w badaniach naukowych i innowacyjnych
Warszawa, 28 października 2014

Zastosowania statystyki i data mining w badaniach naukowych i innowacyjnych

Serdecznie dziękujemy wszystkim uczestnikom seminarium „Zastosowania statystyki i data mining w badaniach naukowych i innowacyjnych” (28.10.2014)! Nasi goście – jak co roku bardzo licznie przybyli z całej Polski do stolicy – wysłuchali ciekawych prezentacji zastosowań metod statystycznych do rozwiązywania konkretnych problemów badawczych i praktycznych wskazówek, w jaki sposób efektywnie wykonywać analizę danych. Różnorodność poruszanych tematów przyciągnęła przedstawicieli wielu dyscyplin naukowych, a impreza stała się doskonałą okazją do wymiany doświadczeń pomiędzy przedstawicielami różnych instytucji z danej branży.

 

Zastosowania statystyki i data mining w badaniach naukowych i innowacyjnych


Zastosowania statystyki i data mining w badaniach naukowych-seminarium Zastosowania statystyki i data mining w badaniach naukowych-seminarium Zastosowania statystyki i data mining w badaniach naukowych-seminarium
Zastosowania statystyki i data mining w badaniach naukowych-seminarium Zastosowania statystyki i data mining w badaniach naukowych-seminarium Zastosowania statystyki i data mining w badaniach naukowych-seminarium
Zastosowania statystyki i data mining w badaniach naukowych-seminarium Zastosowania statystyki i data mining w badaniach naukowych-seminarium Zastosowania statystyki i data mining w badaniach naukowych-seminarium

Wprowadzenie do modelowania zjawisk społecznych i przykłady zastosowań w STATISTICA
prof. Adam Sagan, Katedra Analizy Rynku i Badań Marketingowych, Uniwersytet Ekonomiczny w Krakowie

Specyfika budowy i estymacji modeli w obszarze zjawisk społecznych musi uwzględniać pewne specyficzne ich własności. Należą do nich między innymi: 1/ subiektywny i jakościowy charakter wskaźników społecznych (niemetryczny poziom pomiaru zmiennych), 2/ deklaratywna najczęściej postać danych i nieobserwowalny charakter mierzonych cech (zmienne ukryte w pomiarze), 3/ kontekstowość i rola czynników sytuacyjnych w modelowanych zjawiskach (analiza chwilowych stanów jednostek i interakcji typu jednostka - sytuacja), 4/ hierarchiczność układów społecznych związanych z przynależności do grup i warstw społecznych i kulturowych.

Czynniki te kształtują specyfikę budowy empirycznych modeli zjawisk społecznych. Po pierwsze, niemetryczny charakter wskaźników znajdujących się na porządkowym poziomie pomiaru powoduje konieczność uwzględnienia dodatkowych założeń związanych z charakterem mierzonej cechy (teoria progów). Po drugie, ukryty chakater cech i związane z tym błędy pomiarowe wymusza przyjmowanie określonego modelu pomiaru tych cech (konfirmacyjna analiza czynnikowa dla wskaźników porządkowych i modele IRT, modele formatywnych zmiennych ukrytych). Po trzecie, czynniki sytuacyjne wymagają uwzględnienia danych wzdłużnych (dynamicznych) pozwalających na modelowanie stanów i cech jednostek (modele latent state-trait). Po czwarte, instytucjonalny i hierarchiczny układ zależności powoduje występowanie danych zagnieżdżonych i konieczność budowy hierarchicznych modeli wielopoziomowych.

W przykładach empirycznych zawarte zostaną trzy ilustracje dotyczące wybranych modeli zjawisk społecznych: 1/ Model pomiarowy konfirmacyjnej analizy czynnikowej ze wskaźnikami porządkowymi, 2/ Model ukrytych stanów - cech z oceną wskaźników rzetelności dla cech i stanów ukrytych, 3/ Wielopoziomowy model strukturalny uwzględniający zagnieżdżenie danych.

 

 

Zastosowanie analizy głównych składowych i wielowymiarowej regresji liniowej do modelowania skali oddziaływania źródeł zanieczyszczeń środowiska
dr hab. Aleksander Astel, Instytut Biologii i Ochrony Środowiska, Akademia Pomorska w Słupsku

Popularnym celem badań analitycznych wybranych komponentów środowiska (np. gleba, woda, osady denne, powietrze) jest identyfikacja źródeł zanieczyszczeń (punktowych, obszarowych bądź liniowych) celem szacowania skali ich oddziaływania oraz dokonywanie podziału komponentów środowiskowych na podstawie jakości ich stanu ekologicznego. Możliwość szacowania skali oddziaływania źródeł powinna ułatwiać realizację zasady "zanieczyszczający płaci, w której podmioty odpowiedzialne za degradację ekosystemów ponoszą koszty związane z usunięciem zanieczyszczenia bądź renaturyzacji. W praktyce, identyfikowanie źródeł zanieczyszczeń docierających do miejsca receptora nie jest zadaniem łatwym i obejmuje wyznaczenie wartości wybranych parametrów fizykochemicznych próbek środowiskowych a następnie wyznaczenie tzw. "śladów" źródeł. Ślad chemiczny źródeł można określić oceniając zestawy wartości korelacji pomiędzy badanymi parametrami zaś ich udział w zanieczyszczeniu na podstawie wartości ładunków różnych substancji docierających do badanego obiektu.

W opracowaniu przedstawiono możliwość zastosowania wielowymiarowej regresji liniowej opartej na głównych składowych do identyfikacji i szacowania skali oddziaływania źródeł zanieczyszczeń powietrza (w oparciu o wyniki analiz wód opadowych), wód i gleb. Miejscem receptorów w omawianych przypadkach były odpowiednio region Beskidu Śląskiego, rzeki Odry oraz obszar Bułgarii. W obliczeniach wykonanych w pakiecie STATISTICA 10 oprócz wyliczeń udziałów źródeł w zanieczyszczeniu obserwowanym w miejscu receptorów uwzględniono etap wyznaczania masy poszczególnych substancji emitowanych przez źródła w sumarycznej masie zanieczyszczeń pochodzących z tych źródeł.

 

 

Zastosowanie analizy dyskryminacyjnej i klasyfikacyjnych sieci neuronowych do przewidywania zjawiska samoniezgodności kapusty białej (Brassica oleracea var. capitata) w oparciu o eksperymenty elektroforetyczne
dr hab. Maciej Szaleniec, Instytut Katalizy i Fizykochemii Powierzchni PAN

Wiele gatunków roślin jest jednopiennych, co oznacza, że na jednym osobniku wytwarzane są zarówno męskie, jak i żeńskie organy generatywne. Efektem jednopienności może być samozapylenie, co jest niekorzystnym zjawiskiem, gdyż powstałe potomstwo najczęściej charakteryzuje się pogorszeniem wielu ważnych cech biologicznych i użytkowych (plenności, masy i jakości wytwarzanego plonu, odporności na choroby i innych). Rośliny wykształciły szereg procesów utrudniających samozapylenie, jednym z nich jest samoniezgodność. W praktyce rolniczej zjawisko to jest zarówno korzystne, gdyż uniemożliwia powstanie mało wartościowych osobników po samozapyleniu, jak i niekorzystne, gdyż utrudnia rozmnożenie roślin przy produkcji odmian heterozyjnych. Różne genotypy różnią się także siłą samoniezgodności, czyli zdolnością do samozapylenia wbrew temu mechanizmowi. Istnieje więc potrzeba określenia stopnia nasilenia tej cechy w roślinach uprawnych.

Samoniezgodność można obserwować m.in. u roślin kapustnych (Brassicaceae), gdzie polega ono na uniemożliwieniu wzrostu łagiewki pyłkowej wewnątrz słupka posiadającego ten sam marker samoniezgodności. Markery te są wieloallelicznymi białkami błonowymi i odpowiadającymi im białkami sekrecyjnymi. Rozpoznanie tego samego allelu następuje według modelu ligand-receptor i prowadzi następnie do szeregu wewnątrzkomórkowych procesów biochemicznych przekazu sygnału kończących się degradacją łagiewki pyłkowej. Poza białkami bezpośrednio biorącymi udział w reakcji ligand-receptor oraz kinazami przekazującymi sygnał, w procesie tym bierze udział wiele innych białek wzmacniających i modyfikujących reakcję biologiczną.

Celem przeprowadzonych badań było opracowanie szybkiej, taniej i wymagającej niewielkich nakładów pracy metody przewidywania zjawiska samoniezgodności. Liczne dotychczasowe badania zmierzające do wyizolowania markerów samoniezgodności czy to biologicznych czy to genetycznych nie wykazywały wysokiej korelacji z badanym zjawiskiem. Chociaż oczywistym wydaje się, że stopień samoniezgodności będzie miał swoje odzwierciedlenie w stężeniu pewnych substancji w roślinnej tkance bardzo trudno jest wyodrębnić klasycznymi metodami najbardziej odpowiedni marker do oceny samoniezgodności. Rozwiązaniem tego problemu jest zastosowanie wysokorozdzielczych metod analizy substancji w tkankach roślinnych (takich jak elektroforeza kapilarna) w połączeniu z technikami eksploracji danych takimi jak klasyczna analiza dyskryminacyjna lub sztuczne sieci neuronowe.

W ramach projektu przebadano 29 linii kapusty białej otrzymane od dwóch polskich firm hodowlanych. Samoniezgodność 71 roślin została oznaczona przez pracowników firm hodowlanych metodą biologiczną i sklasyfikowana jako silna, średnia i słaba. Rośliny hodowano w szklarniach a ich kwiaty zebrano w maju, zamrażając ich słupki w -70oC.

Badania elektrochromatograficzne przeprowadzono na ekstraktach słupków z zastosowaniem elektroforezy Hewlett-Packard z detektorem DAD. Sygnał był rejestrowany przy 200 nm dostarczając złożonego wzorca elektrochromatograficznego charakteryzującego chemiczny skład substancji zawartych w ekstraktach. Znormalizowane wysokości 18 pików z zarejestrowanych wzorców stanowiły dane wejściowe do modeli statystycznych. Przewidywaną zmienną zależną była samoniezgodność przedstawiona jako zmienna skategoryzowana.

W pierwszym etapie badań zastosowano klasyczną analizę dyskryminacyjną z wykorzystaniem modułu „Uogólnione modele analizy dyskryminacyjnej” (STATISTICA 10). Selekcję zmiennych wejściowych przeprowadzono stosując eliminację wsteczną, krokową postępującą oraz najlepszy wybór w oparciu o wartość parametru ? Wilksa. Jakość modeli badano na podstawie oceny krzyżowej na 21 przypadkach wyodrębnionych losowo z całej grupy. Uzyskane modele wykorzystywały różną ilość zmiennych wejściowych (4-18) i charakteryzowały się 80% poprawnością predykcji (62-75% w grupie walidacyjnej). W kolejnym kroku zastosowano nieliniowe sieci neuronowe typu perceptronu wielowarstwowego za pomocą modułu „Automatyczne sieci neuronowe”. Modele wykorzystywały taką sama ilość zmiennych wejściowych jak odpowiedne modele dyskryminacyjne. Zastosowanie sieci neuronowych znacząco poprawiło zdolności predykcyjne uzyskując 98% poprawnych przewidywań zarówno w grupie uczącej ak i walidacyjnej.

 

 

Porównanie sztucznych sieci neuronowych i regresji logistycznej w analizie danych z medycyny rozrodu
dr Robert Milewski, Zakład Statystyki i Informatyki Medycznej, Uniwersytet Medyczny w Białymstoku

Niepłodność jest znaczącym problemem zdrowotnym współczesnego społeczeństwa. Nie ma na ten temat dokładnych statystyk, ale szacuje się, że w Polsce dotyczy on około 15% par starających się o posiadanie potomstwa, niektórzy autorzy podają nawet zakres 18-20%. Metody rozrodu wspomaganego medycznie (ART) są najskuteczniejszymi metodami radzenia sobie z problemem niepłodności. Skuteczność leczenia metodami ART ciągle nie jest wystarczająco wysoka – odsetek ciąż utrzymuje się na poziomie około 40% – stąd istnieje potrzeba ciągłego podnoszenia jakości wykonywanych procedur, ale także poszukiwania czynników odpowiedzialnych za uzyskanie ciąży oraz konieczność skutecznego przewidywania wyników leczenia. Nasuwa się pytanie, co jest do tego celu bardziej przydatne, klasyczne metody statystyczne, czy bardziej zaawansowane technologie data mining? Tradycyjne metody analizy statystycznej okazały się niewystarczające, aby dokładnie określić przyczyny niepowodzenia leczenia, czy też stosować skuteczne modele predykcyjne. Analizy jednoczynnikowe pokazują jedynie pewne zależności pomiędzy analizowanym czynnikiem a wynikiem leczenia. Analizy wieloczynnikowe poszukują modeli w możliwie największym stopniu wyjaśniających uzyskanie lub brak ciąży, jednak ograniczona skuteczność nie pozwala na zastosowanie ich w praktyce. Stąd potrzeba poszukiwania bardziej zaawansowanych metod statystycznych. Podejmuje się coraz więcej prób odnalezienia takich metod, które możliwie najlepiej sprawdziłyby się w analizie danych opisujących proces leczenia niepłodności. Duże nadzieje wiąże się z zastosowaniem sztucznych sieci neuronowych (ANN), które jak dotychczas szczególnie dobrze sprawdzają się w predykcji przypadków negatywnych, czyli przewidywania niepowodzenia leczenia. Porównując modele stworzone w oparciu o wieloczynnikową regresję logistyczną oraz z wykorzystaniem technologii sztucznych sieci neuronowych wykazano, że pierwsze podejście lepiej sprawdza się w zastosowaniach teoretycznych, natomiast drugie jest skuteczniejsze w zastosowaniach kliniczno-predykcyjnych.

 

 

Agresywność korozyjna wód gruntowych - zmienność czynników korozyjnych na tle budowy geomorfologicznej Warszawy
dr Marek Patakiewicz, Firma Usług Geotechnicznych „GEOTOR”

Beton i żelbet należą do podstawowych materiałów, z których wykonuje się poszczególne elementy konstrukcji budowlanych. Aby właściwie zaprojektować i wykonać trwały i niezawodnie funkcjonujący obiekt budowlany należy rozpoznać warunki środowiskowe, w których dany obiekt i jego części będą funkcjonować oraz określić, na jakie czynniki agresywne mogą być narażone poszczególne elementy konstrukcji budowli. Różnorodne rodzaje środowisk w jakich będzie pracować beton charakteryzowane są poprzez klasy ekspozycji betonu. Wody gruntowe - poprzez swój skład chemiczny - mogą także oddziaływać destrukcyjnie na beton fundamentów. Czynnikami o korozyjnym oddziaływaniu na konstrukcje betonowe zagłębione w gruncie wg normy PN-EN 206-1:2003 są: odczyn wody (pH), zawartość agresywnego CO2, zawartość jonów: amonowego NH4+, siarczanowego SO42-, magnezowego Mg2+, wapniowego Ca2+. Na etapie projektu i doboru materiałów konstrukcyjnych znajomość zakresu oddziaływań poszczególnych czynników korozyjnych pozwala na wykonanie trwałych konstrukcji betonowych, o długim okresie bezawaryjnego funkcjonowania.

W podziale ogólnym budowy geomorfologicznej Warszawy można wydzielić dwie głównie części: część wysoczyznową oraz część obejmującą grunty aluwialne (rzeczne) doliny Wisły. Wody gruntowe, które mają istotny wpływ na konstrukcje betonowe zagłębione w gruncie na terenie Warszawy to wody wieku czwartorzędowego. Na przykładzie zbioru badań składu chemicznego czwartorzędowych wód podziemnych zostaną wskazane te czynniki, które w warunkach zabudowy miasta mogą oddziaływać korozyjnie na fundamenty. Przeanalizowana zostanie także zmienność czynników korozyjnych w odniesieniu do wydzielonych jednostek geomorfologicznych.

 

 

Automatyzacja analiz taksonomicznych w programie STATISTICA
dr Marek Sobolewski, Katedra Metod Ilościowych, Politechnika Rzeszowska

W artykule przedstawiono autorskie rozszerzenie programu STATISTICA pozwalające na efektywne, w wysokim stopniu zautomatyzowane, tworzenie rankingów w oparciu o procedury porządkowania liniowego. Przedstawiona aplikacja pozwala określać zakres i sposób prezentacji wyników rankingów, przy czym obliczenia mogą być prowadzono także dla danych o charakterze czasowo-przestrzennym. Zaproponowano szereg ułatwień, ukierunkowanych na usprawnienie procesu analizy i raportowania wyników. W szczególności użytkownik programu może prowadzić analizę taksonomiczną na bardzo dużym zbiorze danych, ale w generowanym raporcie zawrzeć rezultaty tylko dla wybranych obiektów.

Jako ilustrację możliwości programu Automatyzacja analiz taksonomicznych zaprezentowano ranking poziomu życia w polskich powiatach w latach 2005-2011 (prawie 400 obiektów). Wartości miernika syntetycznego mogą być przedstawiane zarówno w formie szczegółowej tabeli, obejmującej wszystkie badane obiekty, jak i w postaci zdefiniowanych przez użytkownika raportów częściowych. Przykładowo mogą one zawierać:

  • tabele z wynikami dla 10. najlepszych i 10. najgorszych obiektów w rankingu;
  • wyniki analiz dla dowolnie zdefiniowanego podzbioru – na przykład pozycje w rankingu i wartości miernika syntetycznego dla powiatów woj. podkarpackiego na tle całej analizowanej zbiorowości;
  • połączenie opisanych w poprzednich dwóch punktach tabel.

 

Wyniki analiz prezentowane są w formie tabel i wykresów, osadzonych i sformatowanych bezpośrednio w programie WORD (wykorzystano tu fakt, iż zarówno program Word jak i STATISTICA mają wbudowany ten sam język programowania Visual Basic). Zaproponowano kilka metod wizualizacji wyników rankingów czasowo-przestrzennych, przy czym niektóre z nich, powstałe poprzez łączenie różnych typów wykresów standardowo dostępnych w programie STATISTICA, znacząco wzbogacają możliwości graficznej prezentacji wyników analiz.

 

 

Wykorzystanie analizy asocjacyjnej w zarządzaniu serwisem floty pojazdów
mgr Mateusz Marzec, Katedra Robotyki i Mechatroniki, AGH

Stale rosnące koszty utrzymania taboru autobusowego wymuszają potrzebę kształtowania odpowiedniej polityki serwisowej. Niezbędne w tym zakresie są tworzone przez eksploatatorów serwisowe bazy danych, które zawierają informację o zaistniałych awariach i wykonanych naprawach. Ze względu na obszerność baz danych, oraz w wielu przypadkach ich nieustrukturyzowaną formę, manualna analiza danych w poszukiwaniu odpowiednich zależności może być bardzo czasochłonna i nieefektywna. Rozwój metod KDD (ang. Knowledge Discovery in Databases) stwarza nowe możliwości rozwiązywania tego typu zadań. Niniejsza praca proponuję aplikację podejścia z wykorzystaniem narzędzi TM (ang. Text Mining) oraz DM (ang. Data Mining). Efektywność tych narzędzi została sprawdzona empirycznie na podstawie serwisowej bazy danych dużego polskiego przedsiębiorstwa transportowego. Baza ta, zawiera informację z 3 letniego okresu serwisowania floty liczącej 300 autobusów. W pierwszej kolejności, z wykorzystaniem metod TM, dokonano ekstrakcji atrybutów w celu ustrukturyzowania informacji zawartych w bazie danych. Następnie, z wykorzystaniem analizy asocjacyjnej, wskazano relację miedzy uszkodzeniami poszczególnych podzespołów w badanych autobusach. W wielu przypadkach okazało się, że nieistotne awarie z punktu widzenia czasu ich napraw, kosztów oraz bezpieczeństwa mogą być przyczyną innych istotnych awarii (ang. downstream failure). Takie informację poza zwiększeniem bezpieczeństwa pasażerów mogą poprawić również dostępność autobusu, poprzez minimalizację czasu napraw oraz poprawę niezawodności, co przyniesie pozytywny skutek ekonomiczny.

 

 

Wprowadzenie do modelowania zjawisk społecznych i przykłady zastosowań w STATISTICA
prof. Adam Sagan, Katedra Analizy Rynku i Badań Marketingowych, Uniwersytet Ekonomiczny w Krakowie

Specyfika budowy i estymacji modeli w obszarze zjawisk społecznych musi uwzględniać pewne specyficzne ich własności. Należą do nich między innymi: 1/ subiektywny i jakościowy charakter wskaźników społecznych (niemetryczny poziom pomiaru zmiennych), 2/ deklaratywna najczęściej postać danych i nieobserwowalny charakter mierzonych cech (zmienne ukryte w pomiarze), 3/ kontekstowość i rola czynników sytuacyjnych w modelowanych zjawiskach (analiza chwilowych stanów jednostek i interakcji typu jednostka - sytuacja), 4/ hierarchiczność układów społecznych związanych z przynależności do grup i warstw społecznych i kulturowych.

Czynniki te kształtują specyfikę budowy empirycznych modeli zjawisk społecznych. Po pierwsze, niemetryczny charakter wskaźników znajdujących się na porządkowym poziomie pomiaru powoduje konieczność uwzględnienia dodatkowych założeń związanych z charakterem mierzonej cechy (teoria progów). Po drugie, ukryty chakater cech i związane z tym błędy pomiarowe wymusza przyjmowanie określonego modelu pomiaru tych cech (konfirmacyjna analiza czynnikowa dla wskaźników porządkowych i modele IRT, modele formatywnych zmiennych ukrytych). Po trzecie, czynniki sytuacyjne wymagają uwzględnienia danych wzdłużnych (dynamicznych) pozwalających na modelowanie stanów i cech jednostek (modele latent state-trait). Po czwarte, instytucjonalny i hierarchiczny układ zależności powoduje występowanie danych zagnieżdżonych i konieczność budowy hierarchicznych modeli wielopoziomowych.

W przykładach empirycznych zawarte zostaną trzy ilustracje dotyczące wybranych modeli zjawisk społecznych: 1/ Model pomiarowy konfirmacyjnej analizy czynnikowej ze wskaźnikami porządkowymi, 2/ Model ukrytych stanów - cech z oceną wskaźników rzetelności dla cech i stanów ukrytych, 3/ Wielopoziomowy model strukturalny uwzględniający zagnieżdżenie danych.

 

 

Zastosowanie analizy głównych składowych i wielowymiarowej regresji liniowej do modelowania skali oddziaływania źródeł zanieczyszczeń środowiska
dr hab. Aleksander Astel, Instytut Biologii i Ochrony Środowiska, Akademia Pomorska w Słupsku

Popularnym celem badań analitycznych wybranych komponentów środowiska (np. gleba, woda, osady denne, powietrze) jest identyfikacja źródeł zanieczyszczeń (punktowych, obszarowych bądź liniowych) celem szacowania skali ich oddziaływania oraz dokonywanie podziału komponentów środowiskowych na podstawie jakości ich stanu ekologicznego. Możliwość szacowania skali oddziaływania źródeł powinna ułatwiać realizację zasady "zanieczyszczający płaci, w której podmioty odpowiedzialne za degradację ekosystemów ponoszą koszty związane z usunięciem zanieczyszczenia bądź renaturyzacji. W praktyce, identyfikowanie źródeł zanieczyszczeń docierających do miejsca receptora nie jest zadaniem łatwym i obejmuje wyznaczenie wartości wybranych parametrów fizykochemicznych próbek środowiskowych a następnie wyznaczenie tzw. "śladów" źródeł. Ślad chemiczny źródeł można określić oceniając zestawy wartości korelacji pomiędzy badanymi parametrami zaś ich udział w zanieczyszczeniu na podstawie wartości ładunków różnych substancji docierających do badanego obiektu.

W opracowaniu przedstawiono możliwość zastosowania wielowymiarowej regresji liniowej opartej na głównych składowych do identyfikacji i szacowania skali oddziaływania źródeł zanieczyszczeń powietrza (w oparciu o wyniki analiz wód opadowych), wód i gleb. Miejscem receptorów w omawianych przypadkach były odpowiednio region Beskidu Śląskiego, rzeki Odry oraz obszar Bułgarii. W obliczeniach wykonanych w pakiecie STATISTICA 10 oprócz wyliczeń udziałów źródeł w zanieczyszczeniu obserwowanym w miejscu receptorów uwzględniono etap wyznaczania masy poszczególnych substancji emitowanych przez źródła w sumarycznej masie zanieczyszczeń pochodzących z tych źródeł.

 

 

Zastosowanie analizy dyskryminacyjnej i klasyfikacyjnych sieci neuronowych do przewidywania zjawiska samoniezgodności kapusty białej (Brassica oleracea var. capitata) w oparciu o eksperymenty elektroforetyczne
dr hab. Maciej Szaleniec, Instytut Katalizy i Fizykochemii Powierzchni PAN

Wiele gatunków roślin jest jednopiennych, co oznacza, że na jednym osobniku wytwarzane są zarówno męskie, jak i żeńskie organy generatywne. Efektem jednopienności może być samozapylenie, co jest niekorzystnym zjawiskiem, gdyż powstałe potomstwo najczęściej charakteryzuje się pogorszeniem wielu ważnych cech biologicznych i użytkowych (plenności, masy i jakości wytwarzanego plonu, odporności na choroby i innych). Rośliny wykształciły szereg procesów utrudniających samozapylenie, jednym z nich jest samoniezgodność. W praktyce rolniczej zjawisko to jest zarówno korzystne, gdyż uniemożliwia powstanie mało wartościowych osobników po samozapyleniu, jak i niekorzystne, gdyż utrudnia rozmnożenie roślin przy produkcji odmian heterozyjnych. Różne genotypy różnią się także siłą samoniezgodności, czyli zdolnością do samozapylenia wbrew temu mechanizmowi. Istnieje więc potrzeba określenia stopnia nasilenia tej cechy w roślinach uprawnych.

Samoniezgodność można obserwować m.in. u roślin kapustnych (Brassicaceae), gdzie polega ono na uniemożliwieniu wzrostu łagiewki pyłkowej wewnątrz słupka posiadającego ten sam marker samoniezgodności. Markery te są wieloallelicznymi białkami błonowymi i odpowiadającymi im białkami sekrecyjnymi. Rozpoznanie tego samego allelu następuje według modelu ligand-receptor i prowadzi następnie do szeregu wewnątrzkomórkowych procesów biochemicznych przekazu sygnału kończących się degradacją łagiewki pyłkowej. Poza białkami bezpośrednio biorącymi udział w reakcji ligand-receptor oraz kinazami przekazującymi sygnał, w procesie tym bierze udział wiele innych białek wzmacniających i modyfikujących reakcję biologiczną.

Celem przeprowadzonych badań było opracowanie szybkiej, taniej i wymagającej niewielkich nakładów pracy metody przewidywania zjawiska samoniezgodności. Liczne dotychczasowe badania zmierzające do wyizolowania markerów samoniezgodności czy to biologicznych czy to genetycznych nie wykazywały wysokiej korelacji z badanym zjawiskiem. Chociaż oczywistym wydaje się, że stopień samoniezgodności będzie miał swoje odzwierciedlenie w stężeniu pewnych substancji w roślinnej tkance bardzo trudno jest wyodrębnić klasycznymi metodami najbardziej odpowiedni marker do oceny samoniezgodności. Rozwiązaniem tego problemu jest zastosowanie wysokorozdzielczych metod analizy substancji w tkankach roślinnych (takich jak elektroforeza kapilarna) w połączeniu z technikami eksploracji danych takimi jak klasyczna analiza dyskryminacyjna lub sztuczne sieci neuronowe.

W ramach projektu przebadano 29 linii kapusty białej otrzymane od dwóch polskich firm hodowlanych. Samoniezgodność 71 roślin została oznaczona przez pracowników firm hodowlanych metodą biologiczną i sklasyfikowana jako silna, średnia i słaba. Rośliny hodowano w szklarniach a ich kwiaty zebrano w maju, zamrażając ich słupki w -70oC.

Badania elektrochromatograficzne przeprowadzono na ekstraktach słupków z zastosowaniem elektroforezy Hewlett-Packard z detektorem DAD. Sygnał był rejestrowany przy 200 nm dostarczając złożonego wzorca elektrochromatograficznego charakteryzującego chemiczny skład substancji zawartych w ekstraktach. Znormalizowane wysokości 18 pików z zarejestrowanych wzorców stanowiły dane wejściowe do modeli statystycznych. Przewidywaną zmienną zależną była samoniezgodność przedstawiona jako zmienna skategoryzowana.

W pierwszym etapie badań zastosowano klasyczną analizę dyskryminacyjną z wykorzystaniem modułu „Uogólnione modele analizy dyskryminacyjnej” (STATISTICA 10). Selekcję zmiennych wejściowych przeprowadzono stosując eliminację wsteczną, krokową postępującą oraz najlepszy wybór w oparciu o wartość parametru ? Wilksa. Jakość modeli badano na podstawie oceny krzyżowej na 21 przypadkach wyodrębnionych losowo z całej grupy. Uzyskane modele wykorzystywały różną ilość zmiennych wejściowych (4-18) i charakteryzowały się 80% poprawnością predykcji (62-75% w grupie walidacyjnej). W kolejnym kroku zastosowano nieliniowe sieci neuronowe typu perceptronu wielowarstwowego za pomocą modułu „Automatyczne sieci neuronowe”. Modele wykorzystywały taką sama ilość zmiennych wejściowych jak odpowiedne modele dyskryminacyjne. Zastosowanie sieci neuronowych znacząco poprawiło zdolności predykcyjne uzyskując 98% poprawnych przewidywań zarówno w grupie uczącej ak i walidacyjnej.

 

 

Porównanie sztucznych sieci neuronowych i regresji logistycznej w analizie danych z medycyny rozrodu
dr Robert Milewski, Zakład Statystyki i Informatyki Medycznej, Uniwersytet Medyczny w Białymstoku

Niepłodność jest znaczącym problemem zdrowotnym współczesnego społeczeństwa. Nie ma na ten temat dokładnych statystyk, ale szacuje się, że w Polsce dotyczy on około 15% par starających się o posiadanie potomstwa, niektórzy autorzy podają nawet zakres 18-20%. Metody rozrodu wspomaganego medycznie (ART) są najskuteczniejszymi metodami radzenia sobie z problemem niepłodności. Skuteczność leczenia metodami ART ciągle nie jest wystarczająco wysoka – odsetek ciąż utrzymuje się na poziomie około 40% – stąd istnieje potrzeba ciągłego podnoszenia jakości wykonywanych procedur, ale także poszukiwania czynników odpowiedzialnych za uzyskanie ciąży oraz konieczność skutecznego przewidywania wyników leczenia. Nasuwa się pytanie, co jest do tego celu bardziej przydatne, klasyczne metody statystyczne, czy bardziej zaawansowane technologie data mining? Tradycyjne metody analizy statystycznej okazały się niewystarczające, aby dokładnie określić przyczyny niepowodzenia leczenia, czy też stosować skuteczne modele predykcyjne. Analizy jednoczynnikowe pokazują jedynie pewne zależności pomiędzy analizowanym czynnikiem a wynikiem leczenia. Analizy wieloczynnikowe poszukują modeli w możliwie największym stopniu wyjaśniających uzyskanie lub brak ciąży, jednak ograniczona skuteczność nie pozwala na zastosowanie ich w praktyce. Stąd potrzeba poszukiwania bardziej zaawansowanych metod statystycznych. Podejmuje się coraz więcej prób odnalezienia takich metod, które możliwie najlepiej sprawdziłyby się w analizie danych opisujących proces leczenia niepłodności. Duże nadzieje wiąże się z zastosowaniem sztucznych sieci neuronowych (ANN), które jak dotychczas szczególnie dobrze sprawdzają się w predykcji przypadków negatywnych, czyli przewidywania niepowodzenia leczenia. Porównując modele stworzone w oparciu o wieloczynnikową regresję logistyczną oraz z wykorzystaniem technologii sztucznych sieci neuronowych wykazano, że pierwsze podejście lepiej sprawdza się w zastosowaniach teoretycznych, natomiast drugie jest skuteczniejsze w zastosowaniach kliniczno-predykcyjnych.

 

 

Agresywność korozyjna wód gruntowych - zmienność czynników korozyjnych na tle budowy geomorfologicznej Warszawy
dr Marek Patakiewicz, Firma Usług Geotechnicznych „GEOTOR”

Beton i żelbet należą do podstawowych materiałów, z których wykonuje się poszczególne elementy konstrukcji budowlanych. Aby właściwie zaprojektować i wykonać trwały i niezawodnie funkcjonujący obiekt budowlany należy rozpoznać warunki środowiskowe, w których dany obiekt i jego części będą funkcjonować oraz określić, na jakie czynniki agresywne mogą być narażone poszczególne elementy konstrukcji budowli. Różnorodne rodzaje środowisk w jakich będzie pracować beton charakteryzowane są poprzez klasy ekspozycji betonu. Wody gruntowe - poprzez swój skład chemiczny - mogą także oddziaływać destrukcyjnie na beton fundamentów. Czynnikami o korozyjnym oddziaływaniu na konstrukcje betonowe zagłębione w gruncie wg normy PN-EN 206-1:2003 są: odczyn wody (pH), zawartość agresywnego CO2, zawartość jonów: amonowego NH4+, siarczanowego SO42-, magnezowego Mg2+, wapniowego Ca2+. Na etapie projektu i doboru materiałów konstrukcyjnych znajomość zakresu oddziaływań poszczególnych czynników korozyjnych pozwala na wykonanie trwałych konstrukcji betonowych, o długim okresie bezawaryjnego funkcjonowania.

W podziale ogólnym budowy geomorfologicznej Warszawy można wydzielić dwie głównie części: część wysoczyznową oraz część obejmującą grunty aluwialne (rzeczne) doliny Wisły. Wody gruntowe, które mają istotny wpływ na konstrukcje betonowe zagłębione w gruncie na terenie Warszawy to wody wieku czwartorzędowego. Na przykładzie zbioru badań składu chemicznego czwartorzędowych wód podziemnych zostaną wskazane te czynniki, które w warunkach zabudowy miasta mogą oddziaływać korozyjnie na fundamenty. Przeanalizowana zostanie także zmienność czynników korozyjnych w odniesieniu do wydzielonych jednostek geomorfologicznych.

 

 

Automatyzacja analiz taksonomicznych w programie STATISTICA
dr Marek Sobolewski, Katedra Metod Ilościowych, Politechnika Rzeszowska

W artykule przedstawiono autorskie rozszerzenie programu STATISTICA pozwalające na efektywne, w wysokim stopniu zautomatyzowane, tworzenie rankingów w oparciu o procedury porządkowania liniowego. Przedstawiona aplikacja pozwala określać zakres i sposób prezentacji wyników rankingów, przy czym obliczenia mogą być prowadzono także dla danych o charakterze czasowo-przestrzennym. Zaproponowano szereg ułatwień, ukierunkowanych na usprawnienie procesu analizy i raportowania wyników. W szczególności użytkownik programu może prowadzić analizę taksonomiczną na bardzo dużym zbiorze danych, ale w generowanym raporcie zawrzeć rezultaty tylko dla wybranych obiektów.

Jako ilustrację możliwości programu Automatyzacja analiz taksonomicznych zaprezentowano ranking poziomu życia w polskich powiatach w latach 2005-2011 (prawie 400 obiektów). Wartości miernika syntetycznego mogą być przedstawiane zarówno w formie szczegółowej tabeli, obejmującej wszystkie badane obiekty, jak i w postaci zdefiniowanych przez użytkownika raportów częściowych. Przykładowo mogą one zawierać:

  • tabele z wynikami dla 10. najlepszych i 10. najgorszych obiektów w rankingu;
  • wyniki analiz dla dowolnie zdefiniowanego podzbioru – na przykład pozycje w rankingu i wartości miernika syntetycznego dla powiatów woj. podkarpackiego na tle całej analizowanej zbiorowości;
  • połączenie opisanych w poprzednich dwóch punktach tabel.

 

Wyniki analiz prezentowane są w formie tabel i wykresów, osadzonych i sformatowanych bezpośrednio w programie WORD (wykorzystano tu fakt, iż zarówno program Word jak i STATISTICA mają wbudowany ten sam język programowania Visual Basic). Zaproponowano kilka metod wizualizacji wyników rankingów czasowo-przestrzennych, przy czym niektóre z nich, powstałe poprzez łączenie różnych typów wykresów standardowo dostępnych w programie STATISTICA, znacząco wzbogacają możliwości graficznej prezentacji wyników analiz.

 

 

Wykorzystanie analizy asocjacyjnej w zarządzaniu serwisem floty pojazdów
mgr Mateusz Marzec, Katedra Robotyki i Mechatroniki, AGH

Stale rosnące koszty utrzymania taboru autobusowego wymuszają potrzebę kształtowania odpowiedniej polityki serwisowej. Niezbędne w tym zakresie są tworzone przez eksploatatorów serwisowe bazy danych, które zawierają informację o zaistniałych awariach i wykonanych naprawach. Ze względu na obszerność baz danych, oraz w wielu przypadkach ich nieustrukturyzowaną formę, manualna analiza danych w poszukiwaniu odpowiednich zależności może być bardzo czasochłonna i nieefektywna. Rozwój metod KDD (ang. Knowledge Discovery in Databases) stwarza nowe możliwości rozwiązywania tego typu zadań. Niniejsza praca proponuję aplikację podejścia z wykorzystaniem narzędzi TM (ang. Text Mining) oraz DM (ang. Data Mining). Efektywność tych narzędzi została sprawdzona empirycznie na podstawie serwisowej bazy danych dużego polskiego przedsiębiorstwa transportowego. Baza ta, zawiera informację z 3 letniego okresu serwisowania floty liczącej 300 autobusów. W pierwszej kolejności, z wykorzystaniem metod TM, dokonano ekstrakcji atrybutów w celu ustrukturyzowania informacji zawartych w bazie danych. Następnie, z wykorzystaniem analizy asocjacyjnej, wskazano relację miedzy uszkodzeniami poszczególnych podzespołów w badanych autobusach. W wielu przypadkach okazało się, że nieistotne awarie z punktu widzenia czasu ich napraw, kosztów oraz bezpieczeństwa mogą być przyczyną innych istotnych awarii (ang. downstream failure). Takie informację poza zwiększeniem bezpieczeństwa pasażerów mogą poprawić również dostępność autobusu, poprzez minimalizację czasu napraw oraz poprawę niezawodności, co przyniesie pozytywny skutek ekonomiczny.

 

 

 
ContentKontakt

StatSoft Polska Sp. z o.o.
ul. Kraszewskiego 36,
30-110 Kraków,
Telefon: +48 12 428 43 00
Telefon: +48 (601) 41 41 51
Faks: +48 12 428 43 01
e-mail: info@statsoft.pl