Metody statystyczne wg ICH Q1 – część 1

Artykuł przedstawia metody statystyczne, które można wykorzystać w ocenie badań stabilności zgodnie ze wstępną propozycją dokumentu ICH Q1 wydaną 11.04.2025. Zaktualizowany dokument ICH jest skonsolidowaną wersją, która ma zastąpić ICH Q1A-F i Q5C. Zawiera on dodatkowe rekomendacje, dotyczące zasad prowadzenia badań stabilności oraz nowe jak i zaktualizowane zalecenia, odnoszące się do statystycznej oceny badań stabilności. Artykuł jest pierwszą częścią cyklu i obejmuje omówienie statystycznych metod, które można  zastosować w ocenie badań stabilności pojedynczych serii. W drugiej części omówione zostanie statystyczne podejście do oceny wielu serii według modelu ustalonych efektów. W kolejnej części przedstawiona zostanie analiza wielu serii w oparciu o model mieszanych efektów.

Zalecenia

Podstawowe wymagania, odnoszące się do oceny statystycznej badań stabilności zawarte są w rozdziale 13 oraz w aneksie 2 ICH. Zgodnie z zaleceniami ICH każda seria rejestracyjna (primary batch), będąca w badaniach długookresowych, może być oceniona indywidualnie w celu ustalenia okresu retestu / ważności. W przypadku stwierdzenia różnic w stabilności między seriami lub między innymi czynnikami lub kombinacją czynników, które uniemożliwiają połączenie danych, proponowany okres retestu / ważności nie powinien przekraczać najwcześniejszego czasu potwierdzonego przez którąkolwiek serię, inny czynnik lub kombinację czynników (zasada najgorszego przypadku).

W przypadku cech ilościowych, które mogą ulegać zmianom w czasie zgodnie z liniowym wzorcem lub danych przekształconych logarytmicznie, które wykazują liniowy wzorzec w zalecanych warunkach przechowywania, rekomendowanym podejściem do oceny danych jest analiza regresji liniowej. Poprawność założonej liniowej zależności w czasie i normalnego rozkładu zmiennych można potwierdzić poprzez ocenę reszt dla prostej regresji (dobroć dopasowania). Analizę cech ilościowych można przeprowadzić poprzez określenie najwcześniejszego momentu, w którym 95% granica ufności dla średniej przecina proponowane kryterium akceptacji. W przypadku parametrów z górnymi i dolnymi kryteriami akceptacji zaleca się stosowanie dwustronnej 95% granicy ufności. Dla parametru, posiadającego tylko dolne lub górne kryterium akceptacji, takich jak czystość / zanieczyszczenia, rekomenduje się stosowanie jednostronnego 95-procentowego limitu ufności.

Statystyczna ocena danych wykonywana jest dla charakterystyk, wykazujących znaczącą zmianę w czasie i/lub znaczącą zmienność dla danego czynnika lub między czynnikami (np. między dawkami czy rodzajami opakowania). Jeżeli parametr wykazuje niewielką lub brak zmiany w czasie i jednocześnie niewielką lub brak zmienności wówczas statystyczna ocena nie jest wymagana. Odstąpienie od oceny statystycznej powinno być jednak uzasadnione w raporcie z badań stabilności.

Populacja i próbka

Podczas oceny pojedynczych serii obiektem (populacją), podlegającym analizie, są wszystkie jednostki danej serii np. tabletki. Badana populacja powinna być jednorodna tzn. jednostki wchodzące w jej skład powinny podlegać, ze względu na badany parametr, np. zawartość,  działaniu tych samych przyczyn systematycznych, a ich zróżnicowanie w obrębie wyróżnionej populacji powinno wynikać tylko z przyczyn losowych. Każda charakterystyka populacji generalnej jest nazywana parametrem populacji i oznaczana za pomocą greckich liter, np. średnia µ, odchylenie standardowe σ. Zgodnie z podejściem ICH wartość średnia badanej populacji (serii), µ, powinna spełniać założone kryteria akceptacji na końcu okresu ważności np. po 24 miesiącach. Hipoteza zerowa, H0,  może zakładać, że wartość średnia populacji nie spełnia założonych kryteriów akceptacji, natomiast alternatywna, Ha, że spełnia.

Cel badania jest zatem określony przez hipotezę alternatywną. Podczas weryfikacji hipotezy istotne jest określenie prawdopodobieństwa fałszywie pozytywnej decyzji, dotyczącej zgodności ze specyfikacją jakościową  (ryzyko pacjenta, błąd typu I, alfa), i jest to dopuszczalne ryzyko fałszywego odrzucenia prawdziwej hipotezy zerowej. To samo dotyczy prawdopodobieństwa decyzji fałszywie negatywnej (ryzyko wytwórcy, błąd typu II, beta). Z perspektywy agencji rejestracyjnej głównym problemem pozostaje fałszywie pozytywny wniosek, dotyczący zgodności wartości średniej populacji z wymaganiami jakościowymi.

Ponieważ analiza całej serii w poszczególnych punktach czasowych nie jest możliwa fizycznie, na badania stabilności pobierana jest jedynie próbka, składająca się z losowo wybranych jednostek danej serii. Próbka ta powinna być reprezentatywna dla badanej serii, czyli odzwierciedlać własności badanej populacji. Wielkości wyznaczane na podstawie próby losowej nazywane są statystykami próby i oznaczane literami łacińskimi np. średnia , odchylenie standardowe s. Zgodność wartości średniej wyznaczonej na podstawie próby z założonymi kryteriami akceptacji nie dostarcza jednak wysokiego stopnia pewności, że prawdziwa wartość średnia badanej populacji będzie zgodna z limitami specyfikacji.

Aby zapewnić wysoki stopień pewności, wg ICH minimum 95%, należy zbudować przedział ufności wokół wartości średniej. 95% poziom ufności oznacza, że jeżeli pobranych zostanie 20 losowych próbek z tej samej populacji, to można oczekiwać, że 19 spośród 20 wyznaczonych przedziałów ufności będzie zawierać parametr populacji. Jeżeli więc przedział ufności mieści się w założonych kryteriach, to hipotezę H0 można odrzucić na rzecz alternatywnej. Celem analizy statystycznej jest więc wyznaczenie przedziału ufności wokół wartości średniej na końcu okresu ważności np. po 24 miesiącach przechowywania produktu leczniczego.  

Etapy

Procedura statystycznej oceny danych pochodzących z badań stabilności może obejmować pięć kroków:

Krok 1 Ocena wizualna

Krok 2 Wybór modelu zależności od czasu

Krok 3 Weryfikacja istotności modelu

Krok 4 Weryfikacja poprawności modelu

Krok 5 Wyznaczenie okresu ważności

Krok 1 – Ocena wizualna

Zaczniemy od wyznaczenia okresu ważności dla pojedynczej serii. Krok pierwszy analizy to zebranie danych dla danego parametru w odpowiednich interwałach czasowych z weryfikacją zgodności z założonymi limitami specyfikacji oraz wizualną oceną zależności parametru od czasu. Na podstawie oceny wizualnej można zweryfikować, czy dane wykazują zależność zbliżoną do liniowej, kierunek zmienności oraz czy występują punkty znacząco, wizualnie odstające od grupy danych. Ocena zgodności z limitami specyfikacji nie dostarcza jednak wysokiego stopnia ufności oczekiwanego przez ICH, jeżeli parametr zmienia się w czasie i/lub wykazuje dużą zmienność. W analizowanym przypadku widoczny jest stopniowy spadek zawartości substancji czynnej w czasie po 18 miesiącach przechowywania.

Krok 2 – Model zależności parametru od czasu

Krok 2 obejmuje wybór odpowiedniego modelu statystycznego, opisującego zależność między danym parametrem a czasem. Można założyć, że ilościowe chemiczne cechy produktu (np. zawartość, produkty degradacji) podlegają kinetyce zerowego rzędu podczas długookresowych badań stabilności. Zależność między tymi parametrami a czasem może być przybliżona za pomocą modelu prostej regresji liniowej. Współczynniki β0 i β1 modelu są nieznanymi parametrami populacji (badanej serii), które szacowane są na podstawie pobranej próby zwykle za pomocą metody najmniejszych kwadratów. Polega ona na minimalizacji sumy kwadratów błędów, czyli różnic między wartością obserwowaną a wyznaczoną z modelu. W analizowanym przypadku dopasowany został model liniowy zależności parametru od czasu. Wartość współczynnika nachylenia b1 wynosi (-0,33) i oznacza szybkość degradacji substancji czynnej na jednostkę czasu. Wartość średnia zawartości, którą wyznacza prosta, jest powyżej limitu specyfikacji w zakładanym okresie ważności 24 miesięcy. Nie zapewnia to jednak wysokiego stopnia pewności, wymaganego przez ICH, że prawdziwa wartość średnia parametru spełni założone kryteria akceptacji w tym sensie, że prosta regresji wyznaczona dla innej próby może przeciąć limit specyfikacji poniżej 24 miesięcy.

Krok 3 – Weryfikacja istotności modelu

Krok 3 to odpowiedź na pytanie czy dopasowany model zależności parametru od czasu jest statystycznie istotny. Do oceny istotności modelu wykorzystany może być test t, weryfikujący statystyczną istotność współczynników regresji. Hipoteza zerowa zakłada, że wartości przecięcia β0 i nachylenia β1 są równe zero, alternatywna, że są różne od zera. Do weryfikacji hipotezy wykorzystywana jest statystyka t, będąca stosunkiem współczynnika regresji do błędu standardowego szacowania tego współczynnika. Statystyka ta posiada rozkład t, na podstawie którego można wyznaczyć wartość p, czyli prawdopodobieństwo otrzymania statystyki t jak dla badanej próby lub bardziej ekstremalnej przy założeniu prawdziwości hipotezy H0. Tabela zawiera oszacowane współczynniki przecięcia i nachylenia prostej, błąd standardowy szacowania współczynników regresji, wartości statystyki t oraz p. Jeżeli wartość p jest mniejsza od założonego poziomu istotności alfa 0,05 to hipotezę H0 należy odrzucić, co oznacza że nachylenie prostej jest statystycznie istotne, tj. zależność parametru od czasu może nie być wynikiem zmienności losowej. W analizowanym przypadku wartość prawdopodobieństwa p wynosi 0,04 i jest niższa niż poziom istotności alfa 0,05. Zależność parametru od czasu jest więc statystycznie istotna na poziomie istotności alfa=0,05.

W celu weryfikacji statystycznej istotności modelu można zastosować również test F, polegający na rozłożeniu całkowitej zmienności na zmienność wyjaśnioną przez założony model i zmienność resztową, będącą wynikiem błędu losowego. Hipoteza zerowa zakłada brak zależności parametru od czasu, a hipoteza alternatywna, liniową zależność od czasu. Do weryfikacji hipotezy wykorzystywana jest w tym przypadku statystyka F, będąca stosunkiem zmienności wyjaśnionej przez założony model i zmienności losowej, która podlega rozkładowi F. Na podstawie rozkładu F wyznaczana jest wartość p, czyli prawdopodobieństwo otrzymania statystyki F jak dla badanej próby lub bardziej ekstremalnej przy założeniu prawdziwości hipotezy H0. Ocena statystyczna podsumowana jest w tabeli, zawierającej wartości zmienności wyjaśnionej przez model i niewyjaśnionej przez model, wartość statystyki F oraz poziom prawdopodobieństwa p. Jeżeli wartość p jest mniejsza od założonego poziomu istotności alfa 0.05 hipotezę H0 należy odrzucić, co oznacza, że przyjęty model zależności parametru od czasu jest statystycznie istotny. W przypadku  regresji liniowej oba testy t i F są równoważne z tą samą wartością p i prowadzą do w tej samej konkluzji.

Uzupełnieniem oceny statystycznej istotności modelu jest wyznaczenie miar dopasowania. Obejmują one wyliczenie:

  • błędu standardowego estymacji, będącego miarą rozrzutu punktów wokół modelu
    (im mniejsza wartość tym lepsze dopasowanie modelu).
  • współczynnika determinacji, mówiącego jak duży procent zmienności jest wyjaśniony przez model (im większa wartość tym lepsze dopasowanie modelu).
  • współczynnika PRESS opisującego zdolność predykcyjną modelu
    (im mniejsza wartość tym większa zdolność predykcyjna modelu).
  • Współczynnika Akaike, będącego miarą jakości modelu
    (im mniejsza wartość tym lepszy model).

W oparciu o ocenę wskaźników dobroci dopasowania można wybrać odpowiedni model. W analizowanym przypadku model regresji liniowej wydaje się nie być najlepszym modelem opisującym zmienność parametru w czasie. Lepszym modelem jest model z logarytmiczną transformacją czasu, posiada mniejszy błąd standardowy estymacji, większy współczynnik determinacji i lepszą zdolność predykcyjną. Za chwilę zobaczymy jakie są konsekwencje wyboru modelu, na ten moment zostańmy przy modelu prostej regresji liniowej bez transformacji skali.

 

Miary dobroci dopasowania jak również test t oraz test F nie odpowiadają jednak na pytanie czy zakładany model regresji liniowej jest poprawny. Na przykład, jeżeli hipoteza H0 zostaje odrzucona, czyli założony model jest statystycznie istotny, może to oznaczać, że przyjęty model zależności jest rzeczywiście poprawny (A), ale może też oznaczać, że istnieje bardziej złożony model zależności (B). Z kolei nieodrzucenie hipotezy H0 rzeczywiście może oznaczać brak zależności parametru od czasu (C) ale może też oznaczać, że istnieje bardziej złożony model zależności (D).

Krok 4 – Weryfikacja poprawności modelu

Krokiem 4 w analizie regresji, jest więc przeprowadzenie oceny poprawności przyjętego modelu statystycznego za pomocą, rekomendowanej przez ICH, analizy reszt, będących różnicą między obserwacjami a wartościami wyliczonymi z dopasowanego modelu. Analizie mogą być poddane reszty surowe lub skalowane np. standaryzowane. Te ostatnie powinny się mieścić w przedziale +/-3. Reszty poza tym zakresem, mogą wskazywać na występowanie wartości odstających.

Analizę reszt można wykonać za pomocą prostych metod: wykresu przebiegu reszt w funkcji wartości przewidywanych przez model oraz wykresu normalności rozkładu reszt. Model można uznać za poprawny, jeżeli reszty na wykresie przebiegu: są rozłożone losowo wokół 0, nie wykazują systematycznych trendów ani wzorców, posiadają zbliżony rozrzut w całym badanym zakresie, oraz układają się wzdłuż linii prostej na wykresie normalności, czyli mają rozkład zbliżony do normalnego.

Jeśli założenia są spełnione, procedura regresji liniowej pozwala na oszacowanie nieobciążonych błędem systematycznym współczynników regresji o najmniejszej wariancji, co z kolei umożliwia wiarygodną ocenę statystyczną istotności współczynników regresji oraz wiarygodne oszacowanie przedziałów ufności a w konsekwencji wiarygodne wyznaczenie okresu ważności. Znaczące naruszenia założeń dotyczących błędów ε mogą prowadzić do niestabilności modelu, w tym sensie, że inna próba może skutkować zupełnie odmiennym modelem, prowadzącym do przeciwnych wniosków i innego oszacowania okresu ważności. Należy też zauważyć, że dla niewielkiej ilości danych ocena/interpretacja wykresu przebiegu czy rozkładu reszt może być trudna. W naszym przypadku reszty są rozłożone losowo wokół 0, nie wykazują systematycznych trendów/wzorców, posiadają zbliżony rozrzut w całym zakresie oraz mają rozkład zbliżony do normalnego. Model prostej regresji liniowej może być więc uznany za poprawny.

Co jeżeli analiza reszt wykaże, że model jest niepoprawny i parametr wykazuje zależność nieliniową od czasu? Wówczas można zastosować transformację czasu tak aby zlinearyzować tą zależność. Zalecana przez ICH transformacja to np. logarytmowanie czasu. Po zastosowaniu transformacji należy powtórzyć poprzednie kroki analizy i zweryfikować ponownie poprawność modelu. Na rysunku pokazany jest przykład transformacji czasu poprzez logarytmowanie. Wykonana wcześniej wstępna ocena modeli wskazywała, że model ten lepiej opisuje zależność parametru od czasu niż model prostej regresji liniowej bez transformacji. Choć model regresji liniowej może nie być najlepszym modelem, ICH dopuszcza taką sytuację pod warunkiem, że model prostej regresji liniowej będzie gorszym przypadkiem. Z drugiej strony (statystycznej) nieadekwatność modelu może spowodować, że ocena statystyczna będzie niewiarygodna w tym również przedziały ufności i szacowany okres ważności. Zobaczmy jak wybór modelu może wpływać na szacowany okres ważności.

Krok 5 – Wyznaczenie okresu ważności, pojedyncze serie

Krok 5 to wyznaczenie okresu ważności na podstawie założonego modelu. Po potwierdzeniu poprawności modelu, okres ważności wyznaczany jest w oparciu o najwcześniejszy punkt przecięcia 95% przedziału ufności z limitami specyfikacji. Przedział ufności zbudowany wokół regresji liniowej to zakres wartości, który może zawierać prawdziwą średnią wartość badanego parametru w danym punkcie czasowym np. 24 miesięcy na zadanym 95% poziomie ufności. Inaczej mówiąc prawdziwa linia regresji może mieścić się w tym przedziale na założonym poziomie ufności. Przecięcie przedziału ufności z limitem specyfikacji powyżej zakładanego okresu ważności np. 24 miesięcy dostarcza więc wysokiego min 95% poziomu ufności, że prawdziwa wartość średnia badanej cechy będzie zgodna ze specyfikacją jakościową na końcu okresu ważności. Dla naszych danych dolna granica 95% przedziału ufności przecina dolną granicę specyfikacji w 19 miesiącu, szacowany okres ważności jest więc niestety krótszy od zakładanego okresu ważności 24 miesięcy dla modelu prostej regresji liniowej. Jeżeli jednak wybierzemy model z transformacją skali np. logarytmowaniem czasu, który lepiej opisuje zmianę parametru w czasie wykazujący wyższy współczynnik determinacji, mniejszy błąd dopasowania, lepszą zdolność predykcyjną, to szacowany okres ważności ulegnie wydłużeniu ponieważ szerokość przedziału ufności się zmniejszy. W naszym przypadku szacowany okres ważności dla modelu z logarytmowaniem czasu wynosi 53 miesiące i jest dłuższy od zakładanego okresu 24 miesięcy.

 

Podsumowanie

W ten sposób okres ważności może być oszacowany dla każdej serii indywidualnie i jeżeli jest dłuższy niż zakładany, to nie jest konieczna dalsza analiza statystyczna. Natomiast jeżeli szacowany okres ważności jest krótszy niż zakładany dla przynajmniej jednej z serii, to dane z kilku serii/czynników/kombinacji czynników można połączyć w celu oszacowania wspólnego okresu ważności dla wszystkich badanych serii. ICH rekomenduje dwa podejścia. Pierwsze podejście to zastosowanie modelu o ustalonych efektach, gdzie seria jest czynnikiem ustalonym (fixed effects model) i drugie podejście to model mieszany (mixed effects model), w którym seria jest traktowana jako czynnik losowy. Pierwsze podejście ma zastosowanie w przypadkach ograniczonej liczby serii, czyli 3 typowych serii rejestracyjnych, drugie podejście można wykorzystać, gdy serii jest więcej według ICH minimum 5. W drugiej części omówione zostanie pierwsze podejście, natomiast drugie podejście przedstawione zostanie w trzeciej części cyklu.

W trakcie dyskusji

W komentarzach do wstępnej wersji dokumentu ICH Q1 zwrócono uwagę na konieczność doprecyzowania zapisów między innymi:

  • Czy stosować dwa jednostronne 95% przedziały ufności czy dwustronny 90% przedziału ufności w przypadku parametrów, mających dwustronną granicę specyfikacji?
  • Czy wyznaczać przedziały ufności dla każdej serii w oparciu o oddzielnie szacowaną wariancję dla każdej serii czy w oparciu o uwspólnioną wariację z 3 serii?
  • Czy stosować przedział ufności (średnia populacji) czy predykcji (pojedynczy przyszły wynik populacji) czy też tolerancji (proporcja populacji) do wyznaczenia okresu ważności?

Analizy wykonane zostały za pomocą aplikacji StatSoft PS. Więcej o samej aplikacji oraz systemach, służących do zarządzania badaniami stabilności https://www.statsoft.pl/rozwiazania/farmacja/.

Autor: dr Marek Skowronek, Kierownik ds. jakości i rozwiązań farmaceutycznych

Wróć do aktualności

Masz pytania?

Porozmawiaj z nami!

Jesteśmy tutaj, aby pomóc i rozwiać wszystkie Twoje wątpliwości. Wypełnij formularz, napisz do nas maila lub zadzwoń – odpowiemy najszybciej, jak to możliwe!

    Przejdź do treści