Statistica 13.1

Statistica to wszechstronne narzędzie analityczne umożliwiające użytkownikom dostęp do danych, przygotowanie i analizę danych, raportowanie oraz wdrażanie modeli analitycznych w różnorodnych środowiskach. Nowa linia produktów pozwala klientom łatwo tworzyć i wdrażać modele statystyczne, predykcyjne, eksploracji danych, uczenia maszyn, prognozowania, optymalizacji oraz analizy tekstu.

Dzięki platformie Statistica Enterprise Server organizacje uzyskują możliwość zarządzania cały cyklem analitycznym od przygotowania danych, przez ich wizualizację i wstępne badanie, utworzone modelu po jego wdrożenie i nadzorowanie działania modelu. Ponadto Statistica Enterprise Server dostarcza narzędzi audytu w celu pracy w ściśle regulowanych zastosowaniach (np. przemyśle farmaceutycznym)

Najważniejsze zmiany w Statistica 13.1:

  • Nowoczesny i bardziej przejrzysty interfejs użytkownika
  • Przestrzeń robocza jako standardowe rozwiązanie we wszystkich modułach Statistica
  • Udoskonalony moduł Stepwise Model Builder (Interakcyjny konstruktor modeli) – regresja liniowa, logistyczna, Coxa
  • Nowy moduł – Statistica Interactive Visualizations and Dashboards
  • In-Database Analytics (wewnętrzna analiza w bazach danych)
  • Zwiększona integracja z Hadoop (Hadoop Distributed File System)
  • Nowa metoda analizy skupień
  • Nowy moduł – Network analytics (analityka sieciowa)
Zamów już teraz

Zmiany we wszystkich pakietach Statistica 13.1

Bardziej przejrzysty interfejs

Interfejs użytkownika Statistica 13.1 został zaktualizowany, a ikony dla różnych funkcji są teraz oznakowane różnymi kolorami, tak aby ułatwić użytkownikom wybór właściwych opcji.

KategoriaIkonaOpis
AnalizaAnalizaRóżnego typu analizy
Źródło danychŹródło danychDostęp do danych zewnętrznych; ustawienia arkusza danych
ModelowanieModelowanieOpcje i analizy związane z generowaniem/wykorzystywaniem modeli
InneInneKomponenty ogólne niewchodzące w skład innych kategorii
PublikowaniePublikowanieKomponenty związane z tworzeniem raportów i zapisywaniem danych
SerwerSerwerKomponenty związane ze Statistica Enterprise Server lub MAS
PrzekształceniaTransformacjeZarządzanie danymi; komponenty transformujące dane
WizualizacjeWizualizacjeWykresy

Udoskonalenia w obszarze analiz

Przestrzeń robocza

Zarządzanie analizami za pomocą wizualnego schematu przepływu pracy jest teraz standardowym rozwiązaniem we wszystkich produktach Statistica. Wszyscy klienci mogą teraz zarządzać swoimi projektami w odświeżonej wersji przestrzeni roboczej.

Jak używać:

Kliknij Plik > Nowy, aby uzyskać dostęp do opcji Przestrzeń robocza w pakiecie Statistica i wyświetlić zmodernizowany interfejs użytkownika, w którym można przeciągać, upuszczać oraz łączyć (sekwencje) analizy, począwszy od gromadzenia danych, aż po uzyskiwanie wyników.

Aby rozpocząć analizę danych, wybierz węzły służące do zarządzania danymi, wizualizacji oraz zadań analitycznych. Po wstawieniu i połączeniu wszystkich węzłów schematu analizy uruchom przestrzeń roboczą, aby otrzymać wyniki.

Przejrzyj przykładowe przestrzenie robocze zainstalowane wraz z pakietem Statistica: kliknij Plik > Otwórz przykłady, a następnie w oknie dialogowym Otwórz pliki danych Statistica kliknij dwukrotnie folder o nazwie Przestrzenie robocze, aby wyświetlić przykładowe przestrzenie robocze.

Tworzenie nowej przestrzeni roboczej: kliknij Plik > Nowy > Przestrzeń robocza. Zostanie wyświetlony monit z pytaniem o wybór konfiguracji. Wybierz opcję Wszystkie zwalidowane procedury. Następnie zostanie wyświetlony monit z pytaniem o podanie źródła danych. Po wyborze arkusza danych lub konfiguracji danych Statistica Enterprise kolor górnej części niektórych kart na wstążce zmieni się na pomarańczowy. Są to karty, z których wybiera się węzły.

  • Zaznacz węzeł danych, który zostanie wykorzystany jako źródło danych, a następnie wybierz węzeł analizy, aby automatycznie połączyć węzeł danych wejściowych z węzłem analizy.
  • Opcje takie jak Uruchom węzeł lub Uruchom zmodyfikowane węzły umożliwiają wykonywanie jedynie części zadań w przestrzeni roboczej.
  • Kliknij prawym przyciskiem połączenie i wybierz opcję Wyłącz, aby tymczasowo wyłączyć połączenie analizy oraz wszystko, co z nim powiązane. Rozwiązanie to jest bardzo przydatne w przypadku zmieniania różnych opcji czyszczenia danych lub ustawień analitycznych.
  • Na węźle przestrzeni roboczej znajduje się maksymalnie pięć ikon sterujących: kliknij ikonę koła zębatego w lewym górnym rogu, aby edytować parametry, ikona strzałki w lewym dolnym rogu jest wykorzystywana do uruchamiania węzła, ikona w prawym górnym rogu służy do wyświetlania raportów, a ikona siatki jest używana do wyświetlania otrzymanych danych z węzła. Kliknij i przeciągnij ikonę żółtego diamentu, aby połączyć źródło danych z węzłem analitycznym.

raport

Ułatwiony wybór zmiennych

W oknach wyboru zmiennych można używać symboli zastępczych: * oznacza dowolny ciąg znaków, a ? jeden dowolny znak. Przykładowo, aby wybrać do analizy wszystkie zmienne o nazwach zaczynających się od „Pomiar”, wystarczy wpisać w oknie wyboru „Pomiar*”.

Ponadto, w nowej wersji dopuszczalne są otwarte zakresy zmiennych: aby wybrać wszystkie zmienne od 3 do ostatniej wpisujemy „3- ”.

Skryptowe węzły przestrzeni roboczej

Zaktualizowano interfejs użytkownika węzłów dla R oraz języka Statistica Visual Basic. Konfigurowanie węzłów o wielu parametrach jest teraz dużo łatwiejsze.

Dostosowanie wyników uzyskiwanych w przestrzeniach roboczych

W wersji 13.1 można zmieniać wynikowe tabele i wykresy, uzyskiwane w przestrzeniach roboczych.

Statystyki podstawowe

W module Statystyki podstawowe procedurę Test t dla prób niezależnych (wzgl. grup) rozbudowano o obliczanie testu Schuirmanna.

Dla tabel dwudzielczych można teraz obliczać iloraz szans oraz przedziały ufności.

Możliwość tworzenia węzłów uruchamiających skrypty w języku Python

Dostęp do nowych źródeł ADO.NET

Umożliwia to np. korzystania z dostawców ADO.NET dla plików XML, serwerów poczty i systemu Salesforce

Analiza grupami w przestrzeni roboczej

Węzły mogą być teraz wykonywane wielokrotnie dla każdej kombinacji wartości zmiennej grupującej.

Nowe formuła arkusza ROUNDEVEN

Wykonuje ona tzw. zaokrąglenie do parzystej (zaokrąglenie bankierskie). Zaokrąglanie arytmetyczne w górę jest niesymetryczne i wprowadza dodatnie obciążenie wyników, ponieważ wartości połówkowe są zawsze zaokrąglane do góry. W zaokrąglaniu do parzystej w połowie przypadków zaokrąglamy w dół, a w połowie w górę, usuwając w ten sposób dodatnie obciążenie.

Statistica Pakiet Zaawansowany

Stepwise Model Builder

Nowa wersja zawiera udoskonalony moduł Stepwise Model Builder (Interakcyjny konstruktor modeli). Moduł ten został rozszerzony i obecnie konstruktor modeli obejmuje modele regresji liniowej, logistycznej i Coxa. Moduł ten udostępnia także więcej testów diagnostycznych wspierających właściwe uwzględnianie predyktorów w modelach. Wiele statystyk oceniających dobroć dopasowania i wykresów diagnostycznych pomaga analitykom w doborze optymalnego zestawu predyktorów.

Udoskonalenia Wielokrotnej analizy korespondencji

Analiza korespondencji to technika badawcza służąca do analizy tablic dwudzielczych. Wielokrotna analiza korespondencyjna (MCA) to rozszerzenie analizy korespondencyjnej na więcej niż dwie zmienne.

Do techniki MCA (w wersji beta) wprowadzono następujące udoskonalenia.

  • Możliwość pracy z większym zestawem zmiennych i przypadków.
  • Obliczanie współrzędnych wierszy dla techniki MCA.
  • W celu zwiększenia wydajności wprowadzono algorytm rozkładu wg wartości osobliwych (SVD) do wyznaczania podzbioru współrzędnych. Jeśli użytkownik określi wszystkie współrzędne, wydajność może się różnić w zależności od wprowadzonych danych.

Jak używać:

Aby użyć wersji beta techniki MCA:

  1. Uruchom Statistica.
  2. Uruchom poniższe makro, aby aktywować wersję beta techniki MCA.
    Sub Main
    Application.Option.statopts(61149) = 1
    End Sub

Każde kolejne użycie analizy korespondencyjnej będzie wykorzystywało wersję beta techniki MCA.

Aby wyłączyć wersję beta techniki MCA, uruchom makro:
Sub Main
Application.Option.statopts(61149) = 0
End Sub

Komponenty wariancyjne

Możliwość szacowania komponentów wariancyjnych dla trójczynnikowych układów hierarchicznie zagnieżdżonych efektów losowych.

Statistica Data Miner, Statistica Text Miner

Do algorytmów Drzew wzmacnianych oraz Losowego lasu zostały dodane narzędzia modelowania krokowego (w wersji beta). Są one dostępne na karcie Data Mining w grupie Narzędzia. Zaletą modelowania krokowego jest

… możliwość budowania modeli poprzez ręczny wybór najważniejszych predyktorów i dodawanie ich pojedynczo do modelu, posługując się kryteriami istotności statystycznej dla prognoz, regułami oraz innymi kryteriami. Dodając wybrane zmienne lub grupy zmiennych do prognozy lub równania oraz usuwając inne zmienne z równania, można wykonać analizy (scenariuszy) typu „co-jeśli” w celu oceny wpływu założeń, reguł oraz regulacyjnych ograniczeń niektórych modeli (np. niedozwolonych predyktorów). Dzięki temu analitycy mogą budować modele, które są oszczędne oraz zgodne z regułami, wytycznymi i regulacyjnymi ograniczeniami, a także możliwie najdokładniejsze.

Regresja Lasso została dodana w celu identyfikacji podzestawu najważniejszych predyktorów służących do budowy modelu końcowego. Regresja Lasso została wydana w wersji beta. Aby otworzyć moduł, wybierz kartę Data Mining i w grupie Narzędzia kliknij Dobór zmiennych > Regresja LASSO.

Wersja 13.1 może współpracować z Microsoft Azure Machine Learning.

Modele uzyskiwane w Statistica Data Miner zapisane w postaci kodu PMML można konwertować na kod C#, Java, SAS, Teradata, SQL User Defined Function in C#, SQL stored procedure in C#, reguł Statistica, Java for MapReduce/Hadoop.

Nowy hierarchiczny algorytm analizy skupień drzew (Segmentacja drzewkowa) został dodany do modułu Uogólniona analiza skupień . Ten algorytm jest powszechnie wykorzystywany w badaniach biomedycznych oraz przy kontroli jakości. Segmentacja drzewkowa jest dostępna na karcie Podstawowe w oknie dialogowym Uogólniona analiza skupień, przywoływanym przyciskiem Analiza skupień na karcie Data Mining w grupie Segmentacja i Grupowanie.

Modele uzyskiwane w Statistica Text Miner można teraz zapisywać w postaci kodu PMML.

Nowa wersja Statistica Text Miner wspiera źródła tekstowe (ustawienie systemu Windows w trybie 2-bajtowego kodowania UTF-16LE) w standardzie Unicode dla języka chińskiego uproszczonego. Ustawienia języka w komputerze należy zmienić na język chiński uproszczony przed rozpoczęciem indeksowania tekstu.

Statistica Interactive Visualizations and Dashboards

Narzędzie Statistica Interactive Visualizations and Dashboards umożliwia szybkie budowanie wizualizacji w celu eksploracji dowolnego zestawu danych w kilka minut. Interaktywne wizualizacje umożliwiają wykrycie wzorów, wartości odstających oraz szans (podpowiadanych przez dane), pozwalając na szybsze podejmowanie decyzji i działań biznesowych.

Statistica Interactive Visualizations and Dashboards

Od wersji 13.1 dostępne jest rozszerzenie Statistica Visualization Server. Jest to serwer sieciowy przygotowany dla odbiorców informacji. Projektanci mogą tworzyć wizualizacje (pulpity) w Statistica i publikować je na serwerze wizualizacji.

Jak używać:

Kliknij Plik > Nowy, aby uzyskać dostęp do opcji Pulpit w pakiecie Statistica. Przykładowe pulpity otwieramy klikając Plik > Otwórz przykłady, a następnie klikamy dwukrotnie folder Pulpity. Przykładowy pulpit Samouczek może być przydatny dla nowych użytkowników.

Pulpity można również publikować na serwerze sieciowym (dodatkowa opcja). Pozwala to na interaktywne wykorzystywanie pulpitów poza pakietem Statistica za pośrednictwem przeglądarki.

Wewnętrzna analiza w bazie danych

Statistica zapewnia dostęp do zróżnicowanych metod rozproszonej analityki natywnej (NDA). Metody te pozwalają przeprowadzać analizę danych w miejscu, w którym znajdują się dane.

Klienci posiadający licencję Statistica Enterprise Server z licencją na Statistica Data Miner mają dostęp do nowych węzłów wewnętrznej analizy w bazie danych:

  • Usuwanie powtórzonych przypadków
  • Sortowanie
  • Macierze korelacji
  • Losowe próbkowanie
  • Statystyki opisowe
  • Regresja logistyczna
  • Regresja wieloraka

Wyniki analizy mogą być zapisane zwrotnie do bazy danych lub przeglądane w Statistica. Obecnie analizy można uruchamiać w bazach danych MS SQL Server, Oracle, Teradata, Apache Hive i MySQL.

 

Statistica Network Analytics (nowy moduł)

Statistica Network Analytics to narzędzie do analityki sieciowej umożliwiające:

  • Utworzenie sieci na podstawie źródła danych
  • Drążenie i wizualizacja sieci z uwzględnieniem filtrowania, w celu wizualizacji interesujących aktorów i krawędzi
  • Obliczanie skoringu i zapis zwrotny do bazy danych dla nowych danych
  • Tworzenie węzła przestrzeni roboczej w celu obliczania skoringu, segmentacji, wykrywania odchyleń i anomalii

Więcej informacji o analityce sieciowej: film o Statistica Network Analytics (w języku angielskim)

 

Zapisywanie danych w HDFS (rozproszony system plików Hadoop)

Nowy węzeł przestrzeni roboczej służy do eksportu danych do jeziora danych (ang. data lake). Dostęp do węzła Eksportuj tekst HDFS można uzyskać przez kartę Big Data Analytics.

Węzeł uruchamiający przestrzeń roboczą

Nowy węzeł umożliwia uruchomienie innej zewnętrznej, przestrzeni roboczej.

Pobieranie danych z Hadoop

Za Statistica Enterprise w wersji 13.1 można pobierać dane z systemu Hadoop.

Współpraca z Toad Intelligence Central

Statistica Enterprise może teraz współpracować z Toad Intelligence Central, dzięki czemu użytkownik ma dostęp do bardzo wielu źródeł danych obsługiwanych przez Toad Intelligence Central.

Statistica Big Data Analytics

Zbuduj model w pakiecie Statistica i wdróż go do narzędzia Statistica Big Data Analytics w Hadoop za pomocą jednego przycisku. Opcja wdrażania jest dostępna w przestrzeni roboczej za pomocą węzła PMML. Produkt ten to dodatek do Statistica Enterprise Server.

Statistica Web Data Entry

Produkt ten to dodatek do Statistica Enterprise Server.

Użytkownicy posługujący się narzędziem Web Data Entry mają teraz możliwość kopiowania istniejącej próbki, edytowania różniących się danych oraz zachowania zapisu z nowym identyfikatorem próbki. Ta nowa funkcja została dodana w celu zmniejszenia czasu wprowadzania danych w przypadku złożonych próbek. Użytkownik ma dostęp do przycisku Copy sample podczas wyświetlania próbki. Gdy indywidualne wartości etykiety są wymagane (na przykład nr partii), system poprosi użytkownika o wprowadzenie nowej wartości etykiety.

Dane alternatywne są teraz obsługiwane przez narzędzie Web Data Entry. Dzięki temu użytkownik może badać dane o wadach i licznościach. Dane alternatywne to zbiór częstotliwości jakościowych właściwości obiektów. Zazwyczaj dane alternatywne stanowią zapis liczby wad lub jednostek wadliwych. Zagregowane dane alternatywne to zagregowane informacje o wadach i jednostkach wadliwych.

Współpraca z Boomi

Użytkownicy posiadający licencję na zestaw Statistica Data Miner, Code Deployment i Statistica Enterprise Server mogą publikować modele za pomocą systemu Boomi. Dzięki temu, można zastosować podejście nazywane Edge Scoring (lub Native Distributed Analytics Architecture), w którym modele są tworzone w Statistica, a wdrażane i uruchamiane w pobliżu źródeł danych.