Praktyczne wykorzystanie analizy danych i data mining



Przegląd programów z rodziny STATISTICA

Rafał Wajda, StatSoft PolskaDzięki bardzo szerokiemu zakresowi różnych technik analizy danych i elastyczności środowiska pracy rozwiązania z rodziny STATISTICA znajdują zastosowanie w wielu różnych działach przedsiębiorstw i instytucji, nawet o zupełnie różnych profilach działalności. Wszędzie tam, gdzie gromadzone są dane, narzędzia STATISTICA mogą pomóc w wydobywaniu z nich użytecznej, a nieosiągalnej w inny sposób wiedzy.
W trakcie wystąpienia zostały omówione te cechy oprogramowania STATISTICA i związanych z nim usług StatSoft Polska, dzięki którym stosowanie analizy danych może przynosić wymierne korzyści.

Analiza danych ankietowych – przegląd wybranych technik na przykładzie rynku motoryzacyjnego
Mariusz Łapczyński, Uniwersytet Ekonomiczny w Krakowie

Autor pokazał, jak w łatwy sposób można przeprowadzić analizę danych zebranych w trakcie badań ankietowych – począwszy od prostych rozkładów odpowiedzi, poprzez techniki wizualizacji danych, a na poszukiwaniu zależności między zmiennymi skończywszy. Oprócz standardowych narzędzi, jak test niezależności chi-kwadrat ze zmiennymi kontrolnymi, skalowanie wielowymiarowe czy regresja logistyczna omówiono także drzewa klasyfikacyjne CART oraz modele alternatywne zbudowane z wykorzystaniem zmiennych konkurencyjnych.

Optymalizacja procesów pomiarowych oraz dostępności wyników pomiarowych w TBMECA Poland Sp. z o.o. z wykorzystaniem pakietu STATISTICA
Andrzej Orłowski i Tomasz Romanik, TBMECA Poland Sp. z o.o.

Wystąpienie poświęcono wdrożeniu systemu SPC w firmie TBMECA Poland Sp. z o.o.
Prezentację rozpoczeło przedstawienie roli i znaczenia Statystycznej Kontroli Procesu w przemyśle motoryzacyjnym pod kątem sposobów jej prowadzenia. Omówione zostały wymogi głównego klienta TBMECA Poland, czyli Toyoty, dotyczące jakości i jej kontroli. Następnie przedstawione zostały zagadnienia dotyczące tworzenia kart pomiarowych – ich wypełniania, czasu pomiarów i archiwizacji, a także analiza danych w TBMECA Poland przed wdrożeniem STATISTICA.  W dalszej części prezentacji pokazano cele wdrożenia oprogramowania i kluczowe czynniki wpływające na decyzję o wyborze. Kolejny punkt to informacje techniczne, przedstawienie sposobu pracy w programie, schematu dostarczania informacji i dostępu do programu oraz przentacji danych w sieci (Intranet). Na koniec omówiono zyski z wprowadzenia programu.

Budowa modelu scoringowego do e-pożyczki z wykorzystaniem narzędzi w STATISTICA 8
Kamila Karnowska i Katarzyna Cioch, SKOK im. F. Stefczyka

Wystąpienie poświęcone było omówieniu etapów budowy karty scoringowej, stworzonej na potrzeby oceny klientów ubiegających się o pożyczkę internetową w SKOK Stefczyka. W tym celu wykorzystano funkcjonalność programu STATISTICA ze szczególnym naciskiem na Zestaw Scoringowy. Stąd poprzez zdefiniowanie założeń produktu, wyboru właściwych zmiennych do analizy, określenie sposobów wykorzystanych do utworzenia próby uczącej i testowej, zostały przedstawione kolejne kroki budowy modelu.
W związku z tym, że omawiany przykład dotyczył rzeczywistych danych, zwrócono szczególną uwagę na to, jakie problemy wystąpiły przy pracy nad tym projektem. Tutaj między innymi został uwzględniony problem kategoryzacji zmiennych, jakości wskaźników oceny mocy predykcyjnej zmiennych, wybór metody do dyskretyzacji (drzewa klasyfikacyjne CHAID) oraz ostateczny wybór metody do budowy modelu predykcyjnego.
Zostały zaprezentowane uzyskane, przy analizie konstrukcji karty, wyniki miar jakości modelu, w postaci statystyki KS oraz krzywych ROC.


Zastosowanie Zestawu Farmaceutycznego STATISTICA w BIOTON S.A.
Jan Grzesik, Zespół Specjalistów ds. Zapewnienia Jakości w BIOTON S.A.Aby wytwarzać produkty lecznicze, wytwórnie farmaceutyczne, poza posiadaniem systemu wytwarzania (obiekt, pomieszczenia, urządzenia, przyrządy pomiarowe) oraz technologii, muszą być zdolne do przetwarzania dużych ilości informacji zbieranych w różny sposób w trakcie procesów produkcji, między innymi w sposób wymagany w procesach uzyskiwania pozwoleń na dopuszczenie do obrotu oraz zezwolenia na wytwarzanie produktów leczniczych. Zarówno pozwolenie, jak i zezwolenie wydaje Minister Zdrowia w procesie rozpoczynającym się od zgłoszenia wniosków do właściwych organów władz farmaceutycznych (Urząd Rejestracji Produktów Leczniczych, Wyrobów Medycznych i Produktów Biobójczych oraz Główny Inspektorat Farmaceutyczny). Załącznikami do wniosków są miedzy innymi: Dokumentacja Rejestracyjna oraz Dokumentacja Główna Wytwórni.
Obie dokumentacje wymagają wykonania i udokumentowania przez wytwórnię farmaceutyczną walidacji procesowej. W ramach walidacji procesowej wykonuje się przede wszystkim testy powtarzalności procesu produkcji oraz jakości produktów leczniczych (w 3–5 kolejnych seriach) oraz ocenę zdolności jakościowej procesu względem krytycznych parametrów prowadzenia procesu (w każdej serii walidacyjnej). Przy produkcji tabletek w walidacji procesowej istotne jest również porównanie tzw. profili uwalniania w seriach walidacyjnych z profilami uwalniania serii referencyjnych.
Danymi wyjściowymi do badania zdolności jakościowej procesu są wyniki pomiarów parametrów krytycznych (np. masa tabletki, wielkość dozy w opakowaniu bezpośrednim) wykonywane w trakcie kontroli procesu (in-process control). Badanie obejmuje: statystykę opisową prób, wykres autokorelacji danych, wyznaczenie histogramów, testy zgodności histogramów z rozkładami teoretycznymi (rozkład normalny, rozkład Johnsona), karty pojedynczych obserwacji, karty kontroli procesu Xśr-Rozstęp, obliczenie współczynników kwalifikacji oraz statystykę opisową dla współczynników kwalifikacji. Badanie zdolności jakościowej procesu wykonywane jest dla każdej serii walidacyjnej, dla każdej dawki każdego produktu leczniczego, dla każdego parametru krytycznego. Raporty z badania przygotowywane są w wielu wersjach językowych.
Porównanie profili uwalniania, tzn. zależności szybkości uwalniania substancji leczniczej z tabletek od czasu, możliwe jest przy wykorzystaniu metod czynników podobieństwa i różnicy, Weibulla i Mahalanobisa, przy czym używane zależności matematyczne są złożone.
Zastosowanie makr Zestaw Walidacyjny oraz Zestaw Profile Uwalniania programu STATISTICA umożliwia efektywne oraz co najważniejsze terminowe wykonanie i udokumentowanie wymienionych powyżej badań.
Makro Zestaw Walidacyjny jest również bardzo przydatne w corocznych przeglądach produktów (APR – Annual Product Review), wymaganych przez 21 CFR, ICH Q7A oraz 1 rozdział GMP. Danymi wyjściowymi makra są w tym wypadku wartości parametrów jakościowych produktów oraz krytycznych parametrów prowadzenia procesu – dla wszystkich serii wytworzonych w danym roku.
Roczny przegląd produktu wymaga również zbadania, czy parametry jakościowe produktu leczniczego spełnią wymagania jego specyfikacji jakościowej w okresie ważności. Badanie obejmuje: wyznaczenie prostej regresji dla każdego parametru y=ax+b (gdzie: y- parametr, x-czas), na podstawie przynajmniej czterech znanych wartości zmierzonych parametru (dla 0, 3, 6, 9 miesięcy), testy istotności dla prostej regresji (np. czy a istotnie różni się od zera), wyznaczenie krzywych przedziałów ufności dla y (krzywe Neymana) oraz czasów ich przecięcia z górnym (USL) i z dolnym (LSL) limitem specyfikacji jakościowej. Niezbędne obliczenia oraz raportowanie jest skomplikowane i pracochłonne i wręcz trudno wyobrazić sobie szybkie przeprowadzenie badania bez makra Zestaw Ocena Stabilności programu STATISTICA.
Celem prezentacji była charakterystyka makr Zestawu Farmaceutycznego programu STATISTICA oraz przedstawienie wniosków z dwuletniego okresu ich eksploatacji w BIOTON S.A.

Trendy rozwojowe w Business Intelligence: Customer Intelligence

Jerzy Surma, Szkoła Główna HandlowaIdentyfikacja pojedynczego klienta umożliwia pełne wykorzystanie technik marketingu bezpośredniego, który związany jest z  możliwymi sposobami wchodzenia w bezpośrednie interakcje z obecnym lub potencjalnym nabywcą oferty przedsiębiorstwa, przy wykorzystaniu środków komunikacji. Nowa rewolucyjna jakość, jaką wnoszą techniki BI w marketingu bezpośrednim są związane z:

  • monitoringiem i pełną rejestracją zachowań klienta,
  • wykorzystaniem zaawansowanych technik analitycznych,
  • możliwością integracji danych o kliencie z różnych źródeł, np. informacji o dokonanych transakcjach kartą kredytową w powiązaniu z informacją o jego zainteresowaniach pobranych z portalu społecznościowego,
  • potencjalnie stałym dostępem do klienta poprzez wykorzystanie urządzeń mobilnych oraz dostępem do informacji o lokalizacji klienta.

Wynikiem synergii rozwoju marketingu bezpośredniego z wykorzystaniem BI jest powstanie dziedziny marketingowej analizy klienta zwanej Customer Intelligence (CI).

Zastosowanie programu STATISTICA do automatycznej walidacji metod badawczych i pomiarowych w Zespole Laboratoriów Instytutu Chemicznej Przeróbki Węgla
w Zabrzu

Teresa Topolnicka, Instytut Chemicznej Przeróbki Węgla
Michał Iwaniec, StatSoft Polska Sp.z o.o

Jednym z elementów statystycznego sterowania jakością w Laboratorium jest walidacja metod badawczych. Walidacja metody to nadawanie jej cechy trafności, sprawdzanie tej trafności, proces ustalania celowości metody i dokładności narzędzia pomiarowego. Walidacja jest deklaracją ważności metody badawczej, zapewnieniem, że zostały spełnione wszystkie postawione przed przeprowadzeniem procesu wymagania, a klient otrzyma wynik wiarygodny i rzetelny. W przypadku, gdy zachodzi potrzeba zwalidowania dziesiątek metod pomiarowych, zastosowanie szablonów analiz statystycznych do automatycznej oceny uzyskiwanych wyników pozwala na skrócenie czasu i kosztów walidacji metody. System wdrożony w IChPW w Zabrzu daje możliwość automatycznego tworzenia raportów w oparciu o zdefiniowane wcześniej szablony dokumentów MS Word w zależności od struktury danych wejściowych.