Na wielu polach badawczych precyzyjny pomiar zakładanych procesów lub zmiennych (konstruktów teoretycznych) jest sam w sobie wyzwaniem. Na przykład w psychologii zanim będzie można rozważać którąś z teorii osobowości lub postaw, pierwszym krokiem, jaki należy wykonać, jest dokładny pomiar zmiennych osobowościowych lub postaw. Ogólnie, we wszystkich naukach społecznych, nierzetelne pomiary ludzkich przekonań lub intencji będą oczywiście przeszkodą w przewidywaniu ich zachowań. Kwestia dokładności pomiaru pojawi się także w badaniach stosowanych, zawsze gdy występują zmienne trudno obserwowalne. Na przykład, rzetelny pomiar wydajności pracownika jest zazwyczaj zadaniem trudnym; a jest oczywiste, że jest on niezbędny do wprowadzenia systemu kompensacyjnego, który byłby oparty na wydajności.
We wszystkich tych przypadkach analiza rzetelności i pozycji może być wykorzystana do zbudowania rzetelnych skal pomiarowych, do poprawy istniejących skal oraz oceny rzetelności używanych skal. W szczególności analiza rzetelności i pozycji może służyć do projektowania i oceny skal sumarycznych , to znaczy skal, które składają się z wielu pojedynczych pomiarów (np. różnych pozycji, powtarzanych pomiarów, różnych przyrządów pomiarowych itd.). Program liczy wiele statystyk, które umożliwiają budowanie i ocenę skal zgodnie z tak zwanym modelem klasycznej teorii testu .
Szacowanie rzetelności skali opiera się na korelacjach między poszczególnymi pozycjami lub pomiarami, które tworzą skalę, w stosunku do wariancji pozycji. Jeśli Czytelnik nie jest zaznajomiony ze współczynnikiem korelacji lub wariancją, polecamy przegląd odpowiednich fragmentów w części Statystyki podstawowe .
Klasyczna teoria testowania skal ma długą historię i istnieje wiele podręczników na ten temat. Dodatkowe rozważania znajdują się na przykład w: Carmines i Zeller (1980), De Gruitjer i Van Der Kamp (1976), Kline (1979, 1986) lub Thorndyke i Hagen (1977). Powszechnie uznana za "klasyczną" w tej dziedzinie, z naciskiem na zastosowania psychologiczne i oświatowe, jest praca: Nunally (1970).
Testowanie hipotez o związku między pozycjami i testami. Możemy skorzystać z procedur modelowania ogólnych liniowych równań strukturalnych (SEPATH ) i przy ich pomocy sprawdzać hipotezy o związku pomiędzy zbiorem pozycji lub różnych testów (np. sprawdzać czy dwa zbiory pozycji mierzą ten sam konstrukt).
| Indeks |
Podstawowe idee
Załóżmy, że chcemy zbudować kwestionariusz do pomiaru uprzedzeń ludzi w stosunku do zagranicznych samochodów. Rozpoczęlibyśmy od wygenerowania pewnej liczby pozycji (wskaźników) w rodzaju: "Samochody zagraniczne nie mają osobowości", "Wszystkie zagraniczne samochody wyglądają tak samo" itd. Następnie moglibyśmy przedłożyć takie pozycje kwestionariuszowe grupie osobników (na przykład ludziom, którzy nigdy nie posiadali zagranicznego samochodu). Moglibyśmy ich zapytać, w jakim stopniu zgadzają się z tymi stwierdzeniami, wykorzystując 9-stopniową skalę od 1=nie zgadzam się do 9=zgadzam się.
Wyniki prawdziwe i błąd. Rozważmy teraz, co rozumiemy w tym przypadku pod pojęciem precyzji pomiaru. Stawiamy hipotezę, że istnieje takie coś (konstrukt teoretyczny), jak uprzedzenia w stosunku do zagranicznych samochodów, a każda pozycja wnosi coś do tego pojęcia. Dlatego możemy powiedzieć, że odpowiedź osoby na konkretną pozycję odzwierciedla dwa aspekty: po pierwsze, odpowiedź jest odbiciem uprzedzeń wobec samochodów zagranicznych, a po drugie jest odbiciem pewnego nieznanego aspektu danego pytania. Na przykład, rozważmy pozycję "Wszystkie samochody zagraniczne wyglądają tak samo". Zgoda lub sprzeciw osoby wobec tego stwierdzenia po części zależy od jej generalnych uprzedzeń, a po części od pewnych innych aspektów pytania lub osoby. Na przykład, osoba może mieć przyjaciela, który właśnie zakupił bardzo wyróżniający się samochód zagraniczny.
Testowanie hipotez o związku między pozycjami i testami. Do testowania szczegółowych hipotez dotyczących związków pomiędzy zbiorami pozycji lub różnymi testami (np. czy dwa zbiory pozycji mierzą ten sam konstrukt, do analizy macierzy wielu cech i wielu metod, itd.) należy zastosować Modelowanie równań strukturalnych (SEPATH) .
| Indeks |
Klasyczny model testu
Podsumowując, każdy pomiar (odpowiedź na pozycję) odzwierciedla do pewnego stopnia prawdziwy wynik dla badanego pojęcia (uprzedzenia wobec zagranicznych samochodów), a do pewnego stopnia nieznany błąd losowy. Możemy wyrazić to w postaci równania:
X = tau + error
W tym równaniu X odnosi się do odpowiedniego faktycznego pomiaru, to znaczy, odpowiedzi osoby na konkretną pozycję; tau jest powszechnie używane do oznaczenia wyniku prawdziwego, a błąd oznacza składnik błędu losowego pomiaru.
| Indeks |
Rzetelność
W tym kontekście definicja rzetelności jest prosta: pomiar jest rzetelny, jeśli w stosunku do błędu, odzwierciedla głównie wynik prawdziwy. Na przykład, pozycja taka, jak "Czerwone samochody zagraniczne są szczególnie brzydkie", prawdopodobnie dałaby nierzetelny pomiar uprzedzeń wobec zagranicznych samochodów. Dzieje się tak dlatego, że prawdopodobnie istnieją poważne różnice indywidualne co do lubienia i nielubienia kolorów. Zatem pozycja ta "przechwyciłaby" nie tylko uprzedzenia osoby, ale także preferencje co do kolorów. Dlatego proporcja wyniku prawdziwego (dla uprzedzeń) w odpowiedzi osoby na tę pozycję byłaby względnie mała.
Miary rzetelności. Na podstawie powyższych rozważań łatwo można wyprowadzić miarę lub statystykę opisującą rzetelność pozycji lub skali. W szczególności możemy zdefiniować współczynnik rzetelności w kategoriach proporcji zmienności wyniku prawdziwego, która jest ujęta dla wszystkich osobników lub respondentów w stosunku do całkowitej obserwowanej zmienności. Możemy to wyrazić w postaci równania:
Rzetelność =
2(wyniku prawdziwego) /
2(całkowita obserwowana)
| Indeks |
Skale sumaryczne
Co się stanie, kiedy zsumujemy kilka mniej lub bardziej rzetelnych pozycji zaprojektowanych do mierzenia uprzedzeń wobec samochodów zagranicznych? Załóżmy, że pozycje zostały tak napisane, aby uwzględnić szeroki zakres możliwych uprzedzeń w stosunku do samochodów zagranicznych. Jeśli składnik błędu w odpowiedziach osób na każde pytanie jest rzeczywiście losowy, to możemy oczekiwać, że te różne składniki zniosą się nawzajem, jeśli weźmiemy wszystkie pozycje. Mówiąc językiem nieco bardziej technicznym, wartość oczekiwana lub średnia składnika błędu po pozycjach będzie równa zero. Składnik wyniku prawdziwego podczas sumowania po pozycjach pozostaje taki sam. Dlatego im więcej pozycji dodamy, tym bardziej w skali sumarycznej zostanie odzwierciedlony wynik prawdziwy (w stosunku do wyniku błędu).
Liczba pozycji i rzetelność. Wniosek ten opisuje podstawową zasadę projektowania testu. Mianowicie, im więcej jest pozycji w skali zaprojektowanej do pomiaru określonego pojęcia, tym bardziej rzetelny będzie pomiar (skala sumaryczna). Być może trochę bardziej praktyczny przykład lepiej wyjaśni ten punkt. Załóżmy, że chcemy zmierzyć wzrost 10 osób, stosując jako narzędzie pomiarowe zwykły patyk. Zauważmy, że nie interesuje nas w tym przykładzie bezwzględna poprawność pomiaru (tzn. w calach lub centymetrach), ale raczej zdolność do rzetelnego rozróżnienia tych 10 osób ze względu na ich wzrost. Jeśli każdą osobę mierzymy raz, wyznaczając wielokrotność długości naszego patyka, to pomiar taki może nie być rzetelny. Jeśli jednak każdą osobę mierzymy 100 razy i wyciągamy średnią z tych 100 pomiarów jako końcowy pomiar wzrostu, to będziemy w stanie bardzo precyzyjnie i rzetelnie rozróżnić poszczególne osoby (opierając się jedynie na patyku jako narzędziu pomiarowym).
Spójrzmy teraz na kilka typowych statystyk, które są stosowane do szacowania rzetelności skali sumarycznej.
| Indeks |
Alfa Cronbacha
Wróćmy do przykładu na temat uprzedzeń. Jeśli na nasze pytania odpowiedziało kilka osób, to możemy obliczyć wariancję dla każdej pozycji oraz wariancję dla skali sumarycznej. Wariancja skali sumarycznej będzie mniejsza niż suma wariancji pozycji, jeśli pozycje mierzą tę samą zmienność między osobnikami, to znaczy, jeśli mierzą pewien wynik prawdziwy. Mówiąc językiem teoretycznym, wariancja sumy dwóch pozycji jest równa sumie dwóch wariancji minus (dwa razy) kowariancja, to znaczy, wielkość wariancji wyniku prawdziwego wspólnej tym dwóm pozycjom.
Możemy oszacować proporcję wariancji wyniku prawdziwego, która jest udziałem danych pozycji przez porównanie sumy wariancji pozycji i wariancji skali sumarycznej. W szczególności możemy obliczyć:
= (k/(k-1)) * [1-
(s2i)/s2sum]
Jest to wzór na najbardziej popularny współczynnik rzetelności, mianowicie współczynnik alfa (
) Cronbacha. We wzorze tym s2i oznacza wariancje k pojedynczych pozycji; s2sum oznacza wariancję sumy wszystkich pozycji. Jeśli pozycje w ogóle nie dają wyniku prawdziwego, ale jedynie błąd (który jest nieznany i specyficzny i w konsekwencji nieskorelowany pomiędzy osobnikami), to wariancja sumy będzie taka sama jak suma wariancji poszczególnych pozycji. Dlatego współczynnik alfa będzie równy zero. Jeśli wszystkie pozycje są idealnie rzetelne i mierzą tę samą rzecz (wynik prawdziwy), to współczynnik alfa jest równy 1. (W szczególności 1-
(s2i)/s2sum; jeśli pomnożymy to przez k/(k-1), to otrzymamy 1).
Alternatywna terminologia. Alfa Cronbacha obliczana dla pozycji binarnych (np. prawda/fałsz) jest identyczna, jak tzw. wzór 20 Kudera-Richardsona na rzetelność skal sumarycznych. W obu przypadkach, ponieważ rzetelność jest faktycznie szacowana ze zgodności wszystkich pozycji w skali sumarycznej, współczynnik rzetelności obliczany w ten sposób jest określany także jako rzetelność wewnętrznie zgodna.
| Indeks |
Rzetelność połówkowa
Alternatywny sposób obliczania rzetelności skali sumarycznej polega na podzieleniu jej w pewien losowy sposób na połowy. Jeśli skala sumaryczna jest doskonale rzetelna, to oczekujemy, że te dwie połówki będą doskonale skorelowane (tzn. r = 1,0). Mniejsza niż doskonała rzetelność będzie prowadzić do mniejszej niż doskonała korelacji. Rzetelność skali sumarycznej możemy oszacować przy pomocy współczynnika połówkowego Spearmana-Browna:
rsb = 2rxy /(1+rxy)
We wzorze tym rsb to współczynnik rzetelności połówkowej, a rxy reprezentuje korelację między połówkami skali.
| Indeks |
Korekta ze względu na tłumienie
Rozważmy teraz niektóre konsekwencje rzetelności mniejszej niż doskonała. Załóżmy, że wykorzystujemy naszą skalę uprzedzeń wobec samochodów zagranicznych do przewidywania pewnego innego kryterium, takiego jak późniejszy rzeczywisty zakup samochodu. Jeśli nasza skala jest skorelowana z takim kryterium, to wzrasta nasze zaufanie do trafności skali, to znaczy, że rzeczywiście skala mierzy uprzedzenia wobec samochodów zagranicznych, a nie coś zupełnie innego. W rzeczywistym projektowaniu testu dochodzenie do trafności skali jest procesem długotrwałym, który wymaga od badacza korelowania skali z rozmaitymi zewnętrznymi kryteriami, które teoretycznie powinny być powiązane z pojęciem z założenia mierzonym przez skalę.
W jaki sposób mniejsza niż doskonała rzetelność skali wpłynie na jej trafność? Jest mało prawdopodobne, by losowy udział błędu skali korelował z pewnym zewnętrznym kryterium. Dlatego, jeśli proporcja wyniku prawdziwego w skali wynosi tylko 60% (to znaczy, rzetelność wynosi tylko .60), to korelacja między skalą a zmienną kryterium zostanie stłumiona, to znaczy będzie mniejsza niż faktyczna korelacja wyników prawdziwych. Istotnie, trafność skali jest zawsze ograniczona przez jej rzetelność .
Mając rzetelność tych dwóch skorelowanych miar (tzn. skali i zmiennej kryterium) możemy oszacować rzeczywistą korelację wyników prawdziwych w obu miarach. Innymi słowy, możemy skorygować korelację ze względu na tłumienie :
rxy,skorygowane = rxy /(rxx*ryy)½
We wzorze tym rxy,skorygowane oznacza skorygowany współczynnik korelacji, to znaczy jest to estymator korelacji między wynikami prawdziwymi w obu miarach x i y. Składnik rxy oznacza korelację nieskorygowaną, a rxx i ryy oznaczają rzetelność miar (skal) x i y. Możemy obliczyć korekty ze względu na tłumienie w oparciu o wartości określone przez użytkownika lub w oparciu o rzeczywiste dane surowe (w tym przypadku rzetelności obu miar są szacowane z danych).
| Indeks |
Projektowanie skali rzetelnej
Po dotychczasowych rozważaniach powinno stać się jasne, że skala jest tym lepsza (np. bardziej trafna), im bardziej jest rzetelna. Jak wspomniano wcześniej, jednym ze sposobów poprawienia trafności skali sumarycznej jest dodanie pozycji. Możemy obliczyć ile pozycji powinno zostać dodanych, aby osiągnąć określoną rzetelność lub na ile rzetelna byłaby skala, gdyby dodać pewną liczbę pozycji. W praktyce jednak liczba pozycji w kwestionariuszu jest zwykle ograniczona przez różne inne czynniki (np. respondenci się męczą, jest ograniczona ilość miejsca itd.). Wróćmy do przykładu z uprzedzeniami i naszkicujmy kolejne kroki, jakie należałoby wykonać w celu zaprojektowania rzetelnej skali:
Krok 1: Wygenerowanie pozycji. Pierwszy krok to ułożenie wskaźników. Jest to zasadniczo proces twórczy, w którym badacz tworzy możliwie wiele pozycji, które wydają się być powiązane z uprzedzeniami wobec samochodów zagranicznych. Teoretycznie, powinno się wylosować pozycje z dziedziny zdefiniowanej przez dane pojęcie. W praktyce, na przykład w badaniach marketingowych, do wyjaśniania możliwie wielu aspektów danego pojęcia wykorzystuje się grupy dyskusyjne. Na przykład moglibyśmy poprosić małą grupę przekonanych nabywców samochodów krajowych, aby wyrazili swoje ogólne poglądy i uczucia na temat samochodów zagranicznych. W testach pedagogicznych i psychologicznych, aby zyskać możliwie rozległą perspektywę na dane zagadnienie na tym etapie projektowania skali, zwykle ogląda się inne podobne kwestionariusze.
Krok 2: Wybór pozycji o optymalnej trudności. W pierwszej wersji naszego kwestionariusza do badania uprzedzeń, uwzględnimy tyle pozycji, ile tylko możemy. Następnie przedłożymy ten kwestionariusz wstępnej próbie typowych respondentów i przeanalizujemy wyniki dla każdej pozycji. Najpierw oglądniemy różne charakterystyki pozycji w celu zidentyfikowania efektów podłogowego i sufitowego. Jeśli wszyscy respondenci zgadzają się lub nie zgadzają z daną pozycją, wówczas oczywiście nie pomaga nam ona w dyskryminacji respondentów, a zatem jest bezużyteczna w projekcie skali rzetelnej. Przy budowie testów, proporcję respondentów, którzy zgadzają się lub nie zgadzają się z daną pozycją, lub którzy odpowiadają na pozycję testową poprawnie, określa się często mianem trudności pozycji. W istocie obejrzymy średnie i odchylenia standardowe pozycji i wyeliminujemy te pozycje, które mają ekstremalne średnie i zerowe lub bliskie zera wariancje.
Krok 3: Wybór pozycji wewnętrznie zgodnych. Pamiętajmy, że skala rzetelna składa się z pozycji, które proporcjonalnie mierzą głównie wyniki prawdziwe; w naszym przykładzie chcielibyśmy wybrać pozycje, które mierzą głównie uprzedzenia wobec samochodów zagranicznych oraz niewiele aspektów nieznanych, które traktujemy jako błąd losowy. Aby to zrobić, przyjrzymy się następującemu arkuszowi wyników:
| ANALIZA RZETELN. | Zestawienie skali: Śred=46,1100 Odch.st=8,26444 N ważn.:100 Alfa Cronbacha: 0,794313 Alfa standaryzowana: 0,800491 Średnia korel. między pozycjami: 0,297818 | |||||
|---|---|---|---|---|---|---|
| zmienne | Śred. gdy usunięte | War. gdy usunięte | OdSt. gdy usunięte | Poz-Cał. Korel. | Wielokr. R kwadrat | Alfa gdy usunięte |
| POZYCJA1 POZYCJA2 POZYCJA3 POZYCJA4 POZYCJA5 POZYCJA6 POZYCJA7 POZYCJA8 POZYCJA9 POZYCJA10 | 41.61000 41.37000 41.41000 41.63000 41.52000 41.56000 41.46000 41.33000 41.44000 41.66000 | 51.93790 53.79310 54.86190 56.57310 64.16961 62.68640 54.02840 53.32110 55.06640 53.78440 | 7.206795 7.334378 7.406882 7.521509 8.010593 7.917474 7.350401 7.302130 7.420674 7.333785 | .656298 .666111 .549226 .470852 .054609 .118561 .587637 .609204 .502529 .572875 | .507160 .533015 .363895 .305573 .057399 .045653 .443563 .446298 .328149 .410561 | .752243 .754692 .766778 .776015 .824907 .817907 .762033 .758992 .772013 .763314 |
Powyżej są przedstawione wyniki dla 10 pozycji. Najbardziej interesują nas trzy kolumny z prawej strony tego arkusza. Zawierają one korelację między określoną pozycją a całkowitym wynikiem sumarycznym (bez danej pozycji), kwadraty korelacji wielokrotnej między określoną pozycją a wszystkimi innymi pozycjami oraz wewnętrzną zgodność skali (współczynnik alfa), gdyby dana pozycja została usunięta. Widzimy, że pozycje 5 i 6 wyróżniają się w tym sensie, że nie są zgodne z resztą skali. Ich korelacje ze skalą sumaryczną wynoszą odpowiednio 0,05 i 0,12, podczas gdy inne pozycje korelują na poziomie 0,45 lub wyższym. Patrząc na skrajną prawą kolumnę widzimy, że rzetelność skali wyniosłaby około 0,82, gdyby usunąć którąś z tych pozycji. Zatem prawdopodobnie usunęlibyśmy obie te pozycje ze skali.
Krok 4: Powrót do kroku 1. Po usunięciu wszystkich pozycji, które nie są zgodne ze skalą, możemy nie mieć dość pozycji, aby zbudować ogólnie rzetelną skalę (pamiętajmy, że im mniej pozycji, tym mniej rzetelna skala). W praktyce często przechodzi się kilka razy etapy generowania i eliminowania pozycji zanim dojdzie się do końcowego zestawu, który tworzy skalę rzetelną.
Korelacje tetrachoryczne. W testach pedagogicznych i psychologicznych często stosuje się pozycje typu tak/nie, to znaczy takie, przy których oczekuje się, że respondent odpowie na pytanie albo tak, albo nie. Alternatywą dla zwykłego współczynnika korelacji jest w takim przypadku tak zwany współczynnik korelacji tetrachorycznej. Zazwyczaj współczynnik korelacji tetrachorycznej jest większy od standardowego współczynnika korelacji, dlatego Nunally (1970, str. 102) odradza stosowanie tego współczynnika do estymacji rzetelności. Jest to jednak szeroko stosowana statystyka (np. w modelowaniu matematycznym).
| Indeks |
