Zestaw Skoringowy


Za pomocą Zestawu Skoringowego analityk w wygodny sposób może przeprowadzić wstępną ocenę danych, dokonać dyskretyzacji bądź kategoryzacji predyktorów z wykorzystaniem zaawansowanych metod analitycznych (np. algorytm CHAID) oraz dokonać oceny jakości podziału i mocy predykcyjnej przekształcanej zmiennej na podstawie wskaźnika WoE oraz IV.

W kolejnym etapie na podstawie wybranych przez użytkownika predyktorów i określonych parametrów skali budowany jest model skoringowy, który można następnie przekształcić do postaci tablicy skoringowej (scorecard). Budowa modelu skoringowego może przebiegać w sposób automatyczny, ale zaawansowani użytkownicy mają możliwość wyboru trybu eksperckiego, w którym mogą modyfikować wszystkie parametry modelu. Tablicę skoringową można zapisać w postaci odpowiedniego skryptu (Visual Basic, XML) oraz zachować w postaci dokumentu tekstowego, bądź pliku Excela. System można rozbudować tak, aby generował tablicę skoringową w innych ustalonych formatach.

Funkcjonalność w zakresie budowy tablic skoringowych uzupełniają specjalnie przygotowane raporty przydatne zarówno podczas budowania, strojenia jak i utrzymania tablic skoringowych, np. Do oceny zbudowanej tablicy, do wyboru optymalnego punktu odcięcia a także do badania stabilności populacji. Ponadto system zawiera moduł do analizy wniosków odrzuconych pozwalający na analizę wniosków odrzuconych przez bank i uwzględnienie ich przy budowie tablicy skoringowej poprzez uzupełnienie brakującej informacji o typie kredytu: „dobry/zły” z wykorzystaniem metod probabilistycznych.

Funkcjonalność Zestawu Skoringowego obejmuje:

  1. Wybór predyktorów
    • przygotowanie rankingu predyktorów na podstawie miar Information Value, Gini oraz V Cramera
    • wygodna eliminacja nieistotnych predyktorów
    • wybór reprezentantów skupisk skorelowanych zmiennych ilościowych za pomocą analizy głównych składowych przydatne zwłaszcza w skoringach behawioralnych

  2. Reguły i interakcje
    • wyszukiwanie reguł umożliwiających identyfikację podgrup wysokiego ryzyka
    • wykorzystanie metody Losowy Las (Random Forest) do identyfikacji reguł
    • generowanie rankingu interakcji pomiędzy parami zmiennych przy użyciu regresji logistycznej

  3. Dyskretyzacja zmiennych – konstrukcja atrybutów
    • manualne definiowanie przedziałów dla zmiennej ciągłej,
    • manualne grupowanie dla zmiennej dyskretnej
    • automatyczne tworzenie przedziałów dla zmiennej ciągłej według zadanych parametrów dotyczących liczebności kredytów w poszczególnych przedziałach
    • automatyczne tworzenie przedziałów dla zmiennej dyskretnej na podstawie minimalnej liczności
    • automatyczne tworzenie przedziałów dla zmiennej ciągłej lub dyskretnej za pomocą algorytmu CHAID
    • obsługa wartości nietypowych
    • diagnozowanie jakości podziału na przedziały na podstawie Weight of Evidence, wskaźnika Information Value oraz odpowiednich wykresów
    • możliwość wczytania skryptu dyskretyzacji i reedycja zdefiniowanych przedziałów

    Dyskretyzacja zmiennych ? konstrukcja atrybutów

  4. Tworzenie tablicy skoringowej na podstawie przygotowanych danych
    • tworzenie modelu skoringowego za pomocą regresji logistycznej – zaawansowane strategie doboru zmiennych do modelu
    • budowa modelu logistycznego na podstawie prób bootstrapowych
    • podział na próbę ucząca i testową
    • tworzenie wyskalowanej tablicy skoringowej (również typu weight of evidence) na podstawie modelu regresji logistycznej
    • zapis tablicy skoringowej w postaci kodu Visual Basic oraz XML
    • zapis tablicy skoringowej w postaci pliku Excela
    • możliwość zapisu tablicy skoingowej w postaci kodu w dowolnym języku (c, php, java itp.) na podstawie specyfikacji klienta
    • raport opisujący powstałą tablicę skoringową
    • tworzenie modelu skoringowego a pomocą drzew klasyfikacyjnych CART
    • tworzenie modelu skoringowego za pomocą wzmacnianych drzew klasyfikacyjnych (boosted trees)

     

    Tworzenie tablicy skoringowej

  5. Tworzenie modelu skoringowego typu SURVIVAL:
    • budowa modeli scoringowych za pomocą proporcjonalnego hazardu Coxa
    • symulacja przebiegu funkcji przeżycia dla różnych wartości parametrów wejściowych

  6. Analiza wniosków odrzuconych
    • Parceling (połączenie metod statystycznych z wiedzą ekspercką)
    • Metoda k-najbliższych sąsiadów

  7. Ocena modeli
    • Ocena tablic zapisanych w postaci XML (tablica skoringowa bądź model SURVIVAL)
    • Ocena modeli na podstawie skoringu bądź prawdopodobieństwa zapisanego w arkuszu danych (dowolna metoda analityczna)
    • Ocena jakości zbudowanych modeli na podstawie miar:
      • IV (Information Value)
      • KS (Kołmogorowa-Smirnowa) – dodatkowo wartość prawdopodobieństwa testowego p
      • Hosmera-Lemeshowa – dodatkowo wartość prawdopodobieństwa testowego p
      • Dywergencji
      • Giniego
      • Pola pod krzywą ROC
    • Analiza lift
      • Wykres lift
      • Wykres gain
      • Raport wartości lift
    • Raporty
      • Cech (Characteristic report)
      • Końcowej punktacji (Final score report)
      • Wykresy Bad rate oraz Odds

    Ocena modeli

  8. Zarządzanie punktem odcięcia
    • możliwość wskazania od 1 do 3 punktów odcięcia
    • zestaw narzędzi i raportów pozwalających ocenić trafność odcięcia
    • wybór punktu odcięcia na podstawie analizy ROC dla zadanych kosztów błędnych klasyfikacji i wskazanej frakcji złych kredytów
    • symulacja zyskowności modelu dla skoringu kredytowego, marketingowego oraz modeli lojalnościowych (churn)

     

    Zarządzanie punktem odcięcia

     

  9. Obliczanie skoringu
    • obliczanie skoringu dla nowych danych na podstawie wybranego modelu
    • możliwość wyliczania PD (default probability)
    • skalowanie wartości PD dla modeli budowanych na zbilansowanym zbiorze danych
    • wyliczanie scoringu dla modeli typu SURVIVAL

  10. Testy kalibracji
    • Testowanie zgodności realizacji ryzyka w poszczególnych grupach ratingowych ze zdefiniowaną masterskalą
    • Test dwumianowy i normalny
    • Zaimplementowana strategia traffic light approach

  11. Badanie stabilności populacji i cech
    • raport stabilności populacji
    • raporty stabilności cech
    • zestaw dodatkowych wykresów

    Badanie stabilności populacji i cech

     

  12. Analiza Vintage
    • monitorowanie stanu portfela kredytów w kolejnych miesiącach spłaty
    • przygotowanie raportu w zależności od celu, statusu kredytów, liczby dni przeterminowania oraz wieku kredytobiorców
    • zestaw wykresów pozwalających na łatwiejszy monitoring portfela kredytów i interpretację zachodzących zmian

  13. Macierze migracji
    • Obliczanie raportów struktury portfela oraz migracji kredytów
    • Ujęcie ilościowe i kwotowe
    • Zestaw wykresów opisujących zmiany przeterminowania

     

Warto przeczytać: