Prawdziwa średnia i przedział ufności. Prawdopodobnie najczęściej używaną statystyką opisową jest średnia. Wartość średnia jest szczególnie użyteczną miarą tendencji "centralnej rozkładu" rozpatrywanej zmiennej, jeśli jest podawana wraz z odpowiadającym jej przedziałem ufności. Jak zostało to wspomniane wcześniej, badacz zainteresowany jest wartościami różnych statystyk (takich jak na przykład średnia) tylko o tyle, o ile pozwalają one wyciągać wnioski na temat parametrów populacji generalnej. Przedział ufności dla średniej określa zakres wartości wokół średniej, co do którego spodziewamy się, że zawiera on z pewnym prawdopodobieństwem prawdziwą (tzn. w populacji) wartość średniej (zob. Podstawowe pojęcia statystyki ). Jeśli na przykład w naszej próbce średnia wynosi 23, a dolna i górna granica przedziału ufności na poziomie 95% wynoszą odpowiednio 19 i 27, to możemy wnioskować, że z prawdopodobieństwem 95%, średnia wartość w populacji jest zawarta w przedziale (19;27). Gdybyśmy zmniejszyli wartość α, wówczas przedział uległby poszerzeniu, zwiększając tym samym pewność estymacji (i na odwrót). Jak wiemy powszechnie z codziennych prognoz pogody, im mniej konkretna jest prognoza (tzn. im szerszy przedział ufności), tym bardziej możemy być pewni, że się ona sprawdzi. Dodajmy jeszcze, że wielkość przedziału ufności zależy od wielkości próbki oraz od zmienności badanej cechy. Im większa próbka tym bardziej wiarygodna jest ocena wartości średniej, natomiast im większa zmienność cechy, tym ocena średniej jest mniej wiarygodna (zob. Podstawowe pojęcia statystyki ). Obliczanie przedziałów ufności opiera się na założeniu, że rozkład zmiennej w populacji generalnej jest rozkładem normalnym. Ocena może nie być dokładna, jeśli to założenie nie jest spełnione, chyba że próbka jest wystarczająco duża (oznacza to n=100 lub więcej).
Kształt rozkładu; normalność. Ważnym elementem opisu zmiennej jest kształt jej rozkładu, który informuje o liczności występowania wartości tej zmiennej w różnych obszarach jej zmienności. Najczęściej badacz jest zainteresowany tym, jak dobrze analizowany rozkład może być przybliżony rozkładem normalnym (zob. Podstawowe pojęcia statystyki ). Proste statystyki opisowe mogą dostarczyć pewnych informacji mających znaczenie dla tej kwestii. Na przykład jeśli skośność (miara asymetrii rozkładu) jest wyraźnie różna od 0, wówczas badany rozkład jest asymetryczny podczas gdy rozkład normalny musi być dokładnie symetryczny. Jeżeli kurtoza (miara "smukłości" rozkładu) jest wyraźnie różna od zera, wówczas rozkład jest albo bardziej spłaszczony niż rozkład normalny, albo bardziej wysmukły, kurtoza rozkładu normalnego wynosi bowiem dokładnie 0.
Bardziej precyzyjną informację uzyskamy przeprowadzając jeden z testów normalności. Testy takie informują nas, jakie jest prawdopodobieństwo, że próbka pochodzi z populacji o rozkładzie normalnym (np. test Kołmogorowa-Smirnowa lub test W Shapiro-Wilka). Żaden z tych testów nie zastąpi jednak całkowicie wizualnej oceny rozkładu przy pomocy histogramu (wykresu pokazującego rozkład częstości danej zmiennej) ani na odwrót; test i ogląd histogramu wzajemnie się uzupełniają.
Wykres taki ułatwia ocenę normalności rozkładu empirycznego, ponieważ na histogram
zostaje nałożona dopasowana krzywa gęstości rozkładu normalnego. Pozwala on także zbadać jakościowo różnorakie aspekty rozkładu. Rozkład może być na przykład dwumodalny (posiadać dwa maksima). Taka sytuacja może sugerować, że próbka nie jest jednorodna i być może jej elementy pochodzą z dwóch różnych populacji, z których każda w mniejszym lub większym stopniu może zostać scharakteryzowana za pomocą rozkładu normalnego. W takim przypadku, aby zrozumieć naturę badanej zmiennej, należy zastanowić się nad sposobem rozdzielenia obydwu próbek składowych.
Indeks |
Wprowadzenie (co to są korelacje?). Korelacja (współczynnik korelacji) jest miarą powiązania pomiędzy dwiema zmiennymi. Skale pomiarowe, jakich używa się w takiej analizie, powinny być co najmniej skalami przedziałowymi , lecz zdefiniowano także takie współczynniki korelacji, które umożliwiają analizę danych innych typów. Współczynniki korelacji przyjmują wartości z przedziału od -1 do +1. Wartość -1 reprezentuje doskonałą korelację ujemną , a wartość +1 doskonałą korelację dodatnią . Wartość 0 wyraża brak korelacji.
Najczęściej używanym typem współczynnika korelacji jest tzw. współczynnik korelacji r Pearsona, nazywany również współczynnikiem korelacji liniowej.
Korelacja liniowa prosta (r Pearsona). Współczynnik korelacji liniowej Pearsona (dalej nazywany po prostu współczynnikiem korelacji) wymaga, aby dwie zmienne zostały zmierzone co najmniej na skali przedziałowej (patrz Podstawowe pojęcia statystyki ). Określa on stopień proporcjonalnych powiązań wartości dwóch zmiennych. Wartość korelacji (współczynnik korelacji) nie zależy od jednostek miary, w jakich wyrażamy badane zmienne, np. korelacja pomiędzy wzrostem i ciężarem będzie taka sama bez względu na to, w jakich jednostkach (cale i funty czy centymetry i kilogramy) wyrazimy badane wielkości. Określenie proporcjonalne znaczy zależne liniowo, to znaczy, że korelacja jest silna, jeśli może być opisana przy pomocy linii prostej (nachylonej do góry lub na dół).
Linia, o której mowa, nazywa się linią regresji albo linią szacowaną metodą najmniejszych kwadratów, ponieważ jej parametry określane są w ten sposób, by suma kwadratów odchyleń punktów pomiarowych od tej linii była minimalna. Zwróćmy uwagę, że fakt podnoszenia odległości do kwadratu powoduje, iż współczynnik korelacji reaguje na sposób rozmieszczenia danych (jak to zobaczymy w dalszej części opisu).
Jak interpretować wartość korelacji. Jak wspomnieliśmy wcześniej, współczynnik korelacji (r) wyraża liniową zależność między dwiema zmiennymi. Jeśli podniesiemy jego wartość do kwadratu wówczas otrzymana wartość r2 - współczynnik determinacji - wyraża proporcję wspólnej zmienności dwóch zmiennych (tzn. siłę lub wielkość powiązania). Aby ocenić korelację pomiędzy zmiennymi, należy znać jej siłę/wielkość, jak też istotność współczynnika korelacji.
Istotność korelacji. Poziom istotności obliczany dla każdego współczynnika korelacji jest zasadniczym źródłem informacji o wiarygodności korelacji. Jak tłumaczyliśmy to już wcześniej (zob. Podstawowe pojęcia statystyki ), istotność współczynnika korelacji o zadanej wartości będzie się zmieniać w zależności od liczności próbki, na podstawie której został on obliczony. Test istotności współczynników korelacji opiera się na założeniu o normalności rozkładu wartości resztowych (odchyleń od linii regresji) zmiennej y, oraz o równości wariancji wartości resztowych dla wszystkich wartości zmiennej niezależnej x. Jednakże analizy wykonywane metodą Monte Carlo wskazują, że rygorystyczne spełnienie tych warunków nie jest rzeczą najistotniejszą, jeśli próbka nie jest duża. Jest rzeczą niemożliwą sformułowanie ścisłych wskazówek wynikających z analiz Monte Carlo, lecz wielu badaczy przestrzega reguły, że jeśli wielkość próbki wynosi 50 lub więcej, wówczas wystąpienie silnych nieprawidłowości jest mało prawdopodobne, jeśli zaś próbka liczy 100 lub więcej, wówczas założeniem o normalności nie należy się praktycznie przejmować. Istnieją jednak inne zagrożenia co do wiarygodności wniosków wyciąganych na podstawie wielkości współczynnika korelacji. Zostały one opisane w tematach Wprowadzenia do analizy korelacji.
Obserwacje odstające. Obserwacjami odstającymi nazywamy obserwacje nietypowe (z definicji), rzadko występujące. Ze względu na metodę wyznaczania linii regresji (polegającą na minimalizowaniu sumy kwadratów odchyleń a nie sumy zwykłych odchyleń), obserwacje odstające mają duży wpływ na nachylenie linii regresji, a w konsekwencji na wartość współczynnika korelacji. Pojedyncza obserwacja odstająca jest w stanie bardzo zmienić nachylenie linii regresji i w konsekwencji wartość współczynnika korelacji, tak jak zaprezentowano to na poniższej animacji. Zauważmy, że jedna obserwacja odstająca może znacząco wpływać na wysoką wartość współczynnika korelacji, który w przeciwnym wypadku (bez tej obserwacji odstającej) byłby bliski zeru. W związku z tym oczywistym staje się fakt, że nie należy wyciągać istotnych wniosków jedynie na podstawie wartości współczynnika korelacji (tj. zalecane jest obejrzenie odpowiedniego wykresu rozrzutu).
Zwróćmy uwagę, że jeżeli liczność próbki jest relatywnie mała, wtedy uwzględnianie lub nieuwzględnianie poszczególnych obserwacji, które nie są w tak oczywisty sposób odstające jak pokazane w poprzednim przykładzie może mieć również duży wpływ na nachylenie linii regresji (i współczynnik korelacji). Ilustruje to poniższy przykład, w którym nieuwzględniane punkty nazywamy obserwacjami odstającymi, aczkolwiek można traktować je również jako obserwacje ekstremalne.
Na ogół wierzymy, że obserwacje odstające wyrażają losowy błąd, który chcielibyśmy móc kontrolować. Niestety nie istnieje powszechnie stosowana metoda automatycznego usuwania odstających obserwacji (warto jednak zapoznać się z następnym paragrafem - Podejście ilościowe do obserwacji odstających), w związku z czym jesteśmy zdani na analizę wykresów rozrzutu dla każdej istotnej wartości współczynnika korelacji. Nie ma potrzeby dodawania, że obserwacje odstające mogą nie tylko sztucznie zwiększyć współczynnik korelacji, lecz również mogą zaniżyć jego prawdziwą wartość.
Zob. elipsa obszaru ufności .
Podejście ilościowe do obserwacji odstających. W przypadku postępowania z obserwacjami odstającymi niektórzy badacze używają podejścia ilościowego. Na przykład wykluczają obserwację, która wychodzi poza przedział obejmujący ±2 odchylenia standardowe (lub nawet ±1,5 odchylenia standardowego) od wartości średniej grupowej lub średniej obiektowej. W niektórych dziedzinach badań takie czyszczenie danych jest absolutnie niezbędne. Na przykład w badaniach z zakresu psychologii poznawczej dotyczących czasu reakcji, nawet jeśli prawie wszystkie wyniki leżą w przedziale 300-700 milisekund, to kilka "roztargnionych" reakcji rzędu 10-15 sekund może kompletnie rozmazać obraz całego pomiaru. Niestety, zdefiniowanie tego, co uznajemy za obserwację odstającą, jest sprawą subiektywną (i taką musi pozostać) i decyzję o identyfikacji odstających obserwacji musi badacz podejmować indywidualnie opierając się na swoim doświadczeniu oraz powszechnie akceptowanej praktyce w danej dziedzinie badań. Należy wszakże zaznaczyć, że w pewnych rzadkich przypadkach można zbadać częstość względną występowania obserwacji odstających w obrębie pewnej liczby grup lub obiektów doświadczalnych i analiza tego typu może dostarczyć interpretowalnych wyników. Obserwacje odstające mogą na przykład wskazywać na wystąpienie w danej próbie pewnego nietypowego zjawiska, jakościowo odmiennego od zazwyczaj obserwowanego lub oczekiwanego. W takim wypadku częstość względna występowania obserwacji odstających może dostarczyć dowodu na występowanie odstępstw od typowego dla większości przypadków przebiegu analizowanego procesu lub zjawiska w obrębie danej grupy. Zob. elipsa obszaru ufności .
Korelacje w grupach niejednorodnych. Brak jednorodności w próbce, w której obliczono korelacje może być również czynnikiem wpływającym na wartość współczynnika korelacji. Wyobraźmy sobie sytuację, w której obliczamy współczynnik korelacji z danych pochodzących z dwóch różnych grup doświadczalnych, ale fakt ten jest pomijany w obliczeniach. Załóżmy dalej, że warunki eksperymentu zostały tak dobrane, że spowodowały wzrost wartości obydwu korelowanych zmiennych w jednej z grup doświadczalnych i w związku z tym obie grupy obserwacji tworzą oddzielne "chmury" punktów na wykresie rozrzutu .
W takim wypadku rezultatem obliczeń może być duża wartość współczynnika korelacji spowodowana rozmieszczeniem dwóch oddzielnych grup punktów, mimo że prawdziwy współczynnik korelacji jest bliski lub równy zeru (gdybyśmy analizowali każdą grupę oddzielnie, co można zaobserwować na poniższym wykresie).
Jeśli potrafimy rozpoznać taką sytuację, to powinniśmy odseparować obie grupy i przeprowadzić obliczenia oddzielnie dla każdej z nich. Jeśli nie potrafimy zidentyfikować hipotetycznych podzbiorów danych, to należy spróbować jednej z technik wielowymiarowej eksploracji danych (np. Analiza skupień ).
Nieliniowe powiązania pomiędzy zmiennymi. Innym potencjalnym źródłem problemów w przypadku stosowania korelacji liniowej (r Pearsona) jest kształt zależności. Jak wspomnieliśmy o tym poprzednio, współczynnik korelacji r Pearsona mierzy liniową zależność między zmiennymi. Odstępstwa od liniowości spowodują wzrost sumy kwadratów odchyleń od linii regresji, nawet jeśli reprezentują one prawdziwy i ścisły związek dwóch zmiennych. Okoliczność ta powoduje, że analizowanie wykresów rozrzutu jest niezbędnym elementem analizy przy obliczaniu korelacji. Na poniższym wykresie prezentujemy bardzo silną zależność między zmiennymi, której nie można dobrze opisać za pomocą funkcji liniowej.
Pomiar relacji nieliniowych. Jak należy postąpić w sytuacji gdy korelacja jest silna lecz wyraźnie nieliniowa (jak wynika to z analizy wykresu rozrzutu)? Niestety, na pytanie to nie ma prostej odpowiedzi, ponieważ nie został zdefiniowany uniwersalny odpowiednik współczynnika korelacji r Pearsona dla relacji nieliniowych. Jeśli krzywa jest monotoniczna (rosnąca lub malejąca), wówczas można próbować przekształcić jedną lub obydwie zmienne tak, aby usunąć nieliniowość, a następnie ponownie obliczyć współczynnik korelacji. Typową transformacją używaną w takich przypadkach jest funkcja logarytmiczna, która ścieśnia wartości na końcach przedziału. Inną możliwością w przypadku monotonicznej zależności jest użycie korelacji nieparametrycznych (np. R Spearmana, zob. nieparametryczne i rozkładowe dopasowanie ), które uwzględniają jedynie uporządkowanie wartości i z definicji ignorują efekty monotonicznej nieliniowości. Jednakże korelacje nieparametryczne są z natury mniej czułe i taka metoda może nie wykazać istotnego efektu. Tak się składa, że dwie najdokładniejsze metody nie są łatwe w użyciu i wymagają nieco eksperymentowania z danymi. Można zatem:
Usuwanie brakujących danych przypadkami lub parami. Domyślnym sposobem usuwania brakujących danych podczas obliczania macierzy korelacji jest wykluczanie takich przypadków, w których brakuje pomiaru dla choćby jednej zmiennej. Sposób taki nazywamy usuwaniem brakujących danych przypadkami. Jedynie ten sposób zapewnia otrzymanie prawdziwej macierzy korelacji, w której wszystkie współczynniki otrzymano na podstawie tego samego zbioru danych. Jeśli jednak przypadki brakujące są rozłożone losowo pomiędzy różne obserwacje, to metoda ta potrafi znacznie zmniejszyć liczność próbki, a w krańcowym przypadku nawet zredukować ją do zera. Rozwiązaniem dla takich sytuacji jest metoda usuwania brakujących danych parami. W metodzie tej współczynnik korelacji dla każdej pary zmiennych jest obliczany na podstawie wszystkich poprawnych danych. W wielu sytuacjach metoda taka może zostać uznana za właściwą, zwłaszcza wtedy, gdy danych brakujących jest mało (np. 10%) i gdy są one równomiernie rozłożone pomiędzy przypadki i zmienne. Niekiedy jednak metoda usuwania parami może prowadzić do poważnych komplikacji.
Na przykład w wyniku ukrytego systematycznego rozmieszczenia brakujących danych może powstać tendencyjne odchylenie wyników, ponieważ różne współczynniki tej samej macierzy korelacji obliczone są na podstawie różnych podzbiorów danych. Oprócz tego, że można wysnuć fałszywe wnioski z oceny takiej macierzy korelacji, to mogą powstać również poważne problemy w sytuacji, gdy macierzy takiej użyjemy jako wejściowej do innych analiz (np. regresja wielokrotna , analiza czynnikowa czy analiza skupień ), gdzie zakłada się, że macierz korelacji jest macierzą "prawdziwą" o zagwarantowanym poziomie wewnętrznej zgodności zmiennych. Jeśli zatem ktoś stosuje metodę usuwania brakujących danych parami, to powinien zbadać rozkład brakujących danych w macierzy obserwacji na okoliczność występowania jakichś systematycznych układów.
Jak wykrywać błędy spowodowane usuwaniem brakujących danych parami. Jeżeli metoda usuwania brakujących danych parami nie wprowadza szczególnych zakłóceń do macierzy korelacji, to wszystkie statystyki opisowe dla danej zmiennej powinny być do siebie zbliżone. Jeżeli zaś występują między nimi różnice, to można podejrzewać, że mamy do czynienia z odchyłkami. Jeżeli na przykład średnia wartość (lub odchylenie standardowe) zmiennej A obliczona na podstawie podzbioru współczynników korelacji ze zmienną B jest znacznie niższa niż średnia tej zmiennej obliczona na podstawie podzbioru współczynników korelacji ze zmienną C to można podejrzewać, że obydwa podzbiory danych (A-B i A-C) różnią się znacznie i że mamy do czynienia z odchyleniami spowodowanymi rozmieszczeniem brakujących danych.
Usuwanie brakujących danych parami a zastępowanie średnią. Inną powszechnie stosowaną metodą, pozwalającą uniknąć utraty danych, w przypadku usuwania brakujących danych przypadkami, jest tzw. zastępowanie brakujących danych za pomocą średnich (zastępowanie średnią). Zastępowanie wartością średnią posiada zarówno wady, jak i zalety w porównaniu z usuwaniem parami. Główną zaletę stanowi fakt, że pozwala ono na generowanie wewnętrznie spójnych wyników (macierzy prawdziwych korelacji). Do podstawowych wad zaliczyć należy:
Czy współczynniki korelacji są addytywne. Nie są. Na przykład średnia wartość współczynników korelacji z wielu próbek nie będzie równa średniej korelacji w tych wszystkich próbkach. Ponieważ współczynnik korelacji nie jest liniową funkcją siły relacji między zmiennymi nie można uśredniać współczynników korelacji. Jeśli taka potrzeba zachodzi, wówczas należy wpierw współczynniki korelacji zamienić na inne, addytywne mierniki. Można na przykład brać kwadraty współczynników korelacji - tzw. współczynniki determinacji, które są addytywne (jak to zostało wyjaśnione w temacie: Jak interpretować wartości korelacji), lub zamienić je na tzw. wartości z-Fishera, które również są addytywne.
Jak określić istotność różnic pomiędzy dwoma współczynnikami korelacji.Dostępny jest test sprawdzający istotność różnic pomiędzy dwoma współczynnikami korelacji w dwóch próbkach (zob. Inne testy istotności). Wynik tego testu zależy nie tylko od bezwzględnej wielkości różnicy tych współczynników, ale także od wielkości próbek, jak również od samych wartości tych współczynników. Zgodnie z wcześniej omawianą zasadą, im większa liczność próbki, tym mniejsze efekty można na jej podstawie wykryć. W ogólności, z powodu faktu, że wiarygodność współczynnika korelacji rośnie wraz z jego bezwzględną wartością to relatywnie małe różnice pomiędzy dużymi współczynnikami korelacji mogą być istotne. Na przykład różnica równa 0,10 może okazać się nieistotna w przypadku dwóch współczynników równych 0,15 i 0,25, a w tak samo licznych próbkach będzie ona wysoce istotna, jeśli współczynniki są równe 0,80 i 0,90.
Indeks |
Przeznaczenie, założenia. Test t jest najbardziej powszechnie stosowaną metodą oceny różnic między średnimi w dwóch grupach. Można go na przykład użyć do sprawdzenia różnicy w teście t przeprowadzanym na grupie pacjentów poddanych działaniu jakiegoś leku w stosunku do grupy otrzymujących placebo. Teoretycznie test t może być stosowany także w przypadku bardzo małych prób (np. o liczności 10, zaś niektórzy badacze twierdzą, że nawet mniejsze liczności są dopuszczalne); jedynym warunkiem jest normalność rozkładu zmiennych oraz brak istotnych różnic między wariancjami (patrz także Podstawowe pojęcia statystyki ). Jak zostało to wspomniane wcześniej, założenie o normalności można sprawdzić przez analizę rozkładu danych (przy pomocy histogramów) lub przy pomocy testu normalności. Założenie o równości wariancji sprawdzamy za pomocą testu F lub też przy pomocy mocniejszej opcji określonej jako test Levene'a. Jeżeli warunki, o których mowa nie są spełnione, wówczas pozostaje użycie jednego z testów nieparametrycznych alternatywnych w stosunku do testu t (zob. Statystyki nieparametryczne ).
Podawana w wynikach testu t wartość p reprezentuje prawdopodobieństwo błędu związanego z przyjęciem hipotezy o istnieniu różnic między średnimi. Ujmując to językiem bardziej technicznym jest to prawdopodobieństwo popełnienia błędu polegającego na odrzuceniu hipotezy o braku różnicy między średnimi w dwóch badanych kategoriach obserwacji należących do populacji generalnej (reprezentowanych przez badane grupy) w sytuacji, gdy stan faktyczny w populacji jest taki, iż hipoteza ta jest prawdziwa. Niektórzy badacze uważają, że jeśli znak różnicy średnich jest zgodny z przewidywaniami, to można do testowania używać jedynie połowy (jednego "ogona") rozkładu prawdopodobieństwa i dzielić wartość p podawaną w teście t (prawdopodobieństwo wyznaczone przez obydwa "ogony" rozkładu) przez dwa. Inni badacze uważają takie postępowanie za błędne i zalecają używać dwustronnego obszaru krytycznego.
Zob. rozkład t-Studenta .
Sposób rozmieszczenia danych. Do przeprowadzenia testu t dla prób niezależnych wymagana jest jedna niezależna grupowa zmienna (grupująca - np. Płeć: mężczyzna/kobieta) oraz przynajmniej jedna zmienna zależna (np. wynik testu). Wartości średnie zmiennej zależnej będą porównywane w grupach identyfikowanych (kody grupujące np. mężczyzna i kobieta) przez wartości zmiennej niezależnej. Za pomocą testu t porównującego średnie wartości LBC (Liczba białych ciałek) u mężczyzn i kobiet można analizować pokazane poniżej dane:
PŁEĆ | LBC | |
---|---|---|
przyp. 1 przyp. 2 przyp. 3 przyp. 4 przyp. 5 | mężczyzna mężczyzna mężczyzna kobieta kobieta | 111 110 109 102 104 |
średnia LBC u mężczyzn = 110 średnia LBC u kobiet = 103 |
Wykresy dla testów t. W przypadku testu t porównania wartości średnich i miar zmienności w dwóch grupach można przedstawiać graficznie przy pomocy wykresów ramkowych (na przykład jak na wykresie poniżej).
Wykresy te ułatwiają szybką ocenę i intuicyjną wizualizację siły relacji pomiędzy zmienną grupującą i zmienną zależną.
Porównania bardziej złożone. W praktyce badawczej często zdarza się, że należy dokonać porównań dla więcej niż dwóch grup (np. lek 1, lek 2 oraz placebo) albo porównywać grupy utworzone na podstawie więcej niż jednej zmiennej niezależnej przy uwzględnieniu oddzielnego wpływu każdej z nich (np. Płeć, typ leku i wielkość dawki). W takich wypadkach należy analizę prowadzić za pomocą technik Analizy wariancji (lub modułu Ogólne Modele Liniowe (GLM)), którą można uważać za uogólnienie testu t. Faktycznie dla porównania dwóch grup ANOVA daje wyniki identyczne do testu t (zachodzi zależność: t2 [df] = F[1,df]). Jeżeli jednak mamy do czynienia z układem bardziej złożonym, wówczas ANOVA oferuje znacznie więcej możliwości i większą wiarygodność wyników w stosunku do testu t (nawet jeśli test t przeprowadzamy wiele razy, porównując różne komórki układu doświadczalnego).
Indeks |
Zmienność wewnątrzgrupowa. Jak zostało to wytłumaczone w części Podstawowe pojęcia statystyki , siła relacji pomiędzy dwiema zmiennymi, mierzona na przykład różnicą pomiędzy średnimi w dwóch grupach, zależy w dużej mierze od zmienności wartości wewnątrz grup. W zależności od tego, jak duża jest ta zmienność w obydwu grupach, taka sama co do wartości różnica między średnimi może wskazywać na silną lub słabą zależność pomiędzy zmienną zależną a niezależną (grupującą). Na przykład jeśli średnia LBC (liczba białych ciałek) wynosi 102 u mężczyzn i 104 u kobiet, wówczas różnica jedynie 2 punktów musi zostać oceniona jako niezwykle istotna w przypadku, gdyby u wszystkich mężczyzn wyniki zawierały się w granicach od 101 do 103, zaś u wszystkich kobiet w granicach od 103 do 105. W takim wypadku moglibyśmy precyzyjnie przewidzieć wartość LBC przy pomocy zmiennej Płeć. Jeśliby jednakże taka sama różnica równa 2 została uzyskana w próbach o dużej zmienności (np. o zakresie zmienności 0 - 200), wówczas każdy skłonny byłby taką różnicę ocenić jako nieistotną. Możemy zakończyć następującą konkluzją: zmniejszenie zmienności wewnątrzgrupowej zwiększa czułość naszego testu.
Przeznaczenie. Test t dla prób zależnych pozwala na wykorzystanie pewnego specyficznego typu układu eksperymentalnego, w którym ważne źródło zmienności wewnątrzgrupowej (lub tzw. błędu) może zostać łatwo zidentyfikowane i wykluczone z analizy. W szczególności, jeśli dwie grupy obserwacji (które mają zostać porównane) zostały oparte na tej samej grupie obiektów zmierzonych dwukrotnie (np. przed i po zabiegu), to wówczas znaczna część zmienności wewnątrzgrupowej w obydwu grupach wyników może zostać przypisana początkowej indywidualnej różnicy pomiędzy obiektami. Zauważmy, że w pewnym sensie fakt ten jest podobny do sytuacji, kiedy obydwie grupy są całkowicie niezależne (zob. test t dla prób niezależnych ) i indywidualne różnice również wnoszą wkład do składnika błędu. W tym ostatnim przypadku nie możemy jednak zidentyfikować (lub, inaczej mówiąc, wyeliminować) wariancji pochodzącej od indywidualnych różnic poszczególnych obiektów. Jeśli jednak ta sama próba została zmierzona dwukrotnie, to wariancję tę łatwo jest zidentyfikować (wyeliminować). Można w szczególności, zamiast analizować oddzielnie każdy z pomiarów, brać do analizy różnice pomiędzy wynikami(przed i po) dla każdego z obiektów pomiarowych. Przez procedurę odejmowania wyniku przed zabiegiem od wyniku po zabiegu i analizowania czystych różnic dokonujemy wyeliminowania tej części wariancji w naszym zbiorze danych, która pochodzi od różnic w wartościach bezwzględnych poszczególnych obiektów pomiarowych. Dokładnie tak przebiega procedura w opcji test t dla prób zależnych i w porównaniu z testem t dla prób niezależnych daje ona zawsze lepsze wyniki (w tym sensie, że jest bardziej czuła).
Założenia. Założenia teoretyczne występujące w przypadku testu t dla prób niezależnych mają również zastosowanie w teście dla prób zależnych; to znaczy różnice pomiędzy parami pomiarów powinny mieć rozkład normalny. Jeśli założenie to jest zdecydowanie niespełnione, wówczas należy zastosować jeden z alternatywnych testów nieparametrycznych.
Zob. rozkład t-Studenta .
Sposób rozmieszczenia danych. Z technicznego punktu widzenia test t dla prób zależnych można zastosować do dowolnych dwóch zmiennych ze zbioru danych. Jednak stosowanie tego testu będzie miało niewiele sensu jeśli wartości tych dwóch zmiennych nie są porównywalne w sensie logicznym i metodologicznym. Jeżeli na przykład porównywalibyśmy przeciętne wartości LBC (liczba białych ciałek) w próbie pacjentów przed i po określonym zabiegu, lecz wyniki podawalibyśmy w innych jednostkach, to moglibyśmy otrzymać bardzo istotne różnice w wartościach testu t spowodowane tym przekształceniem (to znaczy używaniem różnych jednostek miar). Poniżej podajemy przykład zbioru danych, które można analizować przy użyciu testu t dla prób zależnych.
LBC przed | LBC po | |
---|---|---|
przyp. 1 przyp. 2 przyp. 3 przyp. 4 przyp. 5 ... | 111.9 109 143 101 80 ... | 113 110 144 102 80.9 ... |
średnia różnica pomiędzy LBC przed i po = 1 |
Macierze testów t. Test t dla prób zależnych może być przeprowadzany dla bardzo długich list zmiennych i prezentowany w postaci macierzy tworzonych zgodnie z metodą usuwania brakujących danych przypadkami lub parami, podobnie jak to ma miejsce w przypadku opcji dla macierzy korelacji. Tym samym wszystkie uwagi poczynione w kontekście korelacji odnoszą się także do macierzy testów t, zob.:
Porównania bardziej złożone. Jeśli mamy do czynienia z więcej niż dwoma skorelowanymi próbami (np. przed zabiegiem, po zabiegu 1 i po zabiegu 2 ), wtedy należy zastosować analizę wariancji w wersji z powtarzanymi pomiarami. ANOVA z powtarzanymi pomiarami może być uważana za uogólnienie testu t dla prób zależnych. Oferuje ona ponadto szereg udogodnień pozwalających na zwiększenie czułości analizy. Można przy jej pomocy na przykład nie tylko objąć kontrolą podstawowy poziom wartości zmiennej zależnej lecz także inne czynniki, a także włączyć do układu eksperymentalnego więcej niż jedną zmienną zależną (MANOVA; dodatkowe szczegóły na ten temat można znaleźć w ANOVA/MANOVA ).
Indeks |
Przeznaczenie. Analiza przekrojowa polega na porównywaniu statystyk opisowych i korelacji dla zmiennych zależnych w każdej z grup zdefiniowanych przez jedną lub więcej zmiennych grupujących (niezależnych).
Sposób rozmieszczenia danych. W poniższym przykładowym zbiorze danych (arkusz danych) wartości zmiennej zależnej LBC (Liczba Białych Ciałek) można zestawić w grupach przekrojowych utworzonych przez dwie zmienne niezależne: Płeć (wartości: mężczyzna i kobieta) oraz Wzrost (wartości: wysoki i niski).
PŁEĆ | WZROST | LBC | |
---|---|---|---|
przyp. 1 przyp. 2 przyp. 3 przyp. 4 przyp. 5 ... | mężczyzna mężczyzna mężczyzna kobieta kobieta ... | niski wysoki wysoki wysoki niski ... | 101 110 92 112 95 ... |
Cała próba Średnia=100 Odch. std.=13 N=120 | |||
Mężczyźni Średnia=99 Odch. std.=13 N=60 | Kobiety Średnia=101 Odch. std.=13 N=60 | ||
Wysoki/mężczyźni Średnia=98 Odch. std.=13 N=30 | Niski/mężczyźni Średnia=100 Odch. std.=13 N=30 | Wysoki/kobiety Średnia=101 Odch. std.=13 N=30 | Niski/kobiety Średnia=101 Odch. std.=13 N=30 |
Testy statystyczne w analizie przekrojowej. Analiza przekrojowa używana jest zazwyczaj w eksploracyjnej analizie danych. Typowe pytanie, na które można tu uzyskać odpowiedź, jest bardzo proste: Czy grupy utworzone przy pomocy klasyfikacji na podstawie wartości zmiennych niezależnych są istotnie różne pod względem wartości zmiennej zależnej? Jeśli interesują nas różnice w wartościach średnich to właściwą metodą będzie jednoczynnikowa analiza wariancji dla grup przekrojowych ANOVA (test F)
Inne pokrewne techniki analizy danych. Chociaż w przypadku eksploracyjnej analizy danych można używać więcej niż jednej zmiennej niezależnej to procedury statystyczne analizy przekrojowej zakładają istnienie tylko jednego czynnika grupującego (chociaż w rzeczywistości grupy mogły powstać na podstawie wartości wielu zmiennych grupujących ). Oznacza to, że obliczane wartości statystyk nie biorą pod uwagę możliwych interakcji między zmiennymi grupującymi. Na przykład mogą istnieć różnice we wpływie, jaki jedna ze zmiennych niezależnych posiada na zmienną zależną dla różnych poziomów innej zmiennej niezależnej (np. ludzie wysocy mogą mieć niższą wartość LBC niż ludzie niscy lecz jedynie wtedy, gdy są mężczyznami (zob. drzewo danych powyżej). Można co prawda oceniać takie efekty przez analizę wizualną wartości dla różnych poziomów zmiennej niezależnej, lecz ich wielkość i istotność nie jest w przypadku analizy przekrojowej oceniana przez procedury statystyczne.
Porównania średnich post-hoc. Zazwyczaj po otrzymaniu istotnych wartości statystyki testu F w ANOVA chcemy wiedzieć, które ze średnich mają wpływ na stwierdzony efekt (tzn. które grupy różnią się istotnie pomiędzy sobą). Można by oczywiście przeprowadzić serię prostych testów t dla porównania wszystkich możliwych par średnich. Jednakże takie podejście zwiększa szansę wystąpienia efektów przypadkowych. Znaczy to, że obliczane wartości p będą wykazywać tendencję do przeceniania istotności różnic średnich. Bez wnikania w szczegóły załóżmy, że mamy 20 próbek po 10 liczb losowych każda i obliczamy 20 wartości średnich. Weźmy następnie grupę o największej średniej i porównajmy ją z grupą o najmniejszej wartości średniej. Test t dla prób niezależnych będzie sprawdzał, czy te dwie średnie się różnią, przy założeniu, że mamy do czynienia jedynie z dwoma próbkami. Techniki porównań post-hoc biorą pod uwagę fakt, że mamy do czynienia z więcej niż dwiema próbkami.
Analiza przekrojowa a Analiza dyskryminacyjna. Analiza przekrojowa może być traktowana jako pierwszy etap w kierunku innego typu analizy różnic między grupami: Analizy dyskryminacyjnej . Podobnie jak w analizie przekrojowej analiza dyskryminacyjna bada różnice między średnimi w grupach utworzonych przez wartości (kody grup) zmiennej niezależnej (grupującej). Jednakże w odróżnieniu od analizy przekrojowej analiza dyskryminacyjna pozwala na jednoczesne badanie więcej niż jednej zmiennej zależnej i umożliwia zidentyfikowanie pewnych charakterystycznych układów wartości tych zmiennych. Z technicznego punktu widzenia polega to na utworzeniu kombinacji liniowej zmiennych zależnych najlepiej opisującej przynależność grupową. Przy pomocy analizy dyskryminacyjnej można na przykład przeanalizować różnice pomiędzy trzema grupami osób o różnych profesjach (np. prawnicy, lekarze i inżynierowie) w zależności od różnych aspektów ich postępów w szkole średniej. Można uważać, że taka analiza wyjaśnia wybór zawodu w zależności od określonych talentów ujawnianych w szkole. W tym sensie analiza dyskryminacyjna może być uważana za eksploracyjne rozwinięcie prostej analizy przekrojowej.
Analiza przekrojowa a Tabele liczności. Inny podobny typ analizy, który nie może być przeprowadzony bezpośrednio za pomocą analizy przekrojowej, to porównywanie liczności przypadków (n) w grupach . W szczególności bardzo często liczności te są różne ponieważ przypisywanie elementów do grup nie pochodzi bezpośrednio od eksperymentatora lecz jest wynikiem cech posiadanych przez dany element (obiekt) pomiarowy. Jeśli mimo losowego doboru całej próbki wartości n w grupach są nierówne, wówczas można się spodziewać, że zmienne niezależne pozostają ze sobą w relacji. Na przykład poziomy wartości zmiennych niezależnych Wiek i Wykształcenie w tabelach wielodzielczych najprawdopodobniej nie będą się rozkładały równo (nie utworzą równolicznych grup n), ponieważ wykształcenie jest różnie rozłożone w różnych grupach wiekowych. Jeśli interesują nas takie porównania, to możemy przyjrzeć się licznościom w grupach przy różnej kolejności zmiennych kategoryzujących. Aby poddać występujące tu różnice ilościowej analizie statystycznej, należy jednak użyć tabel wielodzielczych i tabel liczności lub Analizy log-liniowej albo Analizy korespondencji (zaawansowane metody analizy tabel wielodzielczych).
Metody graficzne w analizie przekrojowej. Wykresy często pozwalają na odkrycie w naszym zbiorze danych efektów (spodziewanych i niespodziewanych) znacznie szybciej i lepiej niż jakiekolwiek inne narzędzie analityczne. Za pomocą wykresów skategoryzowanych (np. skategoryzowane histogramy, skategoryzowane wykresy prawdopodobieństwa, skategoryzowane wykresy ramka-wąsy) możemy zestawiać wiele wykresów średnich, rozkładów, korelacji itp. z rozbiciem na grupy w analizowanej tabeli. Wykres poniżej przedstawia skategoryzowany histogram, który pozwala nam na szybką ocenę i wizualizację struktury danych w poszczególnych grupach (grupa1-kobiety, grupa2-kobiety, itd.).
Skategoryzowany wykres rozrzutu (jak na rysunku poniżej) pokazuje różnice między zależnościami zmiennej zależnej w poszczególnych grupach.
Ponadto, jeśli pakiet statystyczny posiada opcję eksploracji animowanej to możemy wybrać (tj. podświetlić) w tablicy wykresów rozrzutu wszystkie te dane, które należą do pewnej kategorii, aby sprawdzić jaki te wybrane obserwacje mają wpływ na relacje między innymi zmiennymi.
Indeks |
Przeznaczenie. Tabele liczności dla jednego czynnika klasyfikacyjnego reprezentują najprostszy sposób analizowania danych jakościowych (nominalnych , zob. Podstawowe pojęcia statystyki ). Są one często wykorzystywane w charakterze procedury eksploracyjnej (opisowej), aby sprawdzić, jak poszczególne kategorie są rozłożone w próbce. Na przykład w badaniu ankietowym zainteresowania poszczególnymi dyscyplinami sportowymi można podsumować zainteresowania ankietowanych piłką nożną w następującej tabeli liczności:
STATISTICA Statystyki podstawowe | FUTBOL: "Oglądanie futbolu amerykańskiego" | |||
---|---|---|---|---|
Kategoria | Liczność | Skumulow. Liczn. | Procent | Skumulow. Procent |
ZAWSZE : Zawsze zainteresowany ZWYKLE : Zazwyczaj zainteresowany CZASEM: Czasami zainteresowany NIGDY : Nigdy nie zainteresowany Braki | 39 16 26 19 0 | 39 55 81 100 100 | 39.00000 16.00000 26.00000 19.00000 0.00000 | 39.0000 55.0000 81.0000 100.0000 100.0000 |
Zastosowania. Praktycznie w każdym projekcie badawczym pierwsze spojrzenie na dane zawiera tabele liczności. Na przykład w badaniach opinii publicznej tabele liczności mogą pokazać liczby mężczyzn i kobiet biorących udział w badaniu, liczbę respondentów według pochodzenia etnicznego i rasowego itd. Można również w tabeli liczności ładnie podsumować definiowaną skalę zainteresowań (np. zainteresowanie piłką nożną). W badaniach medycznych możemy tabelaryzować liczby pacjentów wykazujących określone symptomy, w badaniach przemysłowych liczności różnych przyczyn uszkodzeń produktów poddanych obciążeniom (np. które części są odpowiedzialne za awarię telewizorów w warunkach ekstremalnych temperatur?). Można powiedzieć, że jeśli zbiór danych zawiera zmienne dyskretne, to jednym z pierwszych kroków analizy jest utworzenie tabel liczności dla tych zmiennych.
Indeks |
Przeznaczenie i zastosowanie tabel. Przeznaczenie i struktura tabeli. Tabela wielodzielcza stanowi kombinację dwóch lub więcej tabel liczności ułożonych w ten sposób, że każda komórka tabeli reprezentuje w jednoznaczny sposób kombinację konkretnych wartości tabelaryzowanych zmiennych. Dzięki temu tabele wielodzielcze umożliwiają analizę liczności odpowiadających kategoriom wyznaczanym przez więcej niż jedną zmienną. Poprzez analizę tych liczności można zidentyfikować relacje, jakie zachodzą między tabelaryzowanymi zmiennymi. Tabelaryzować należy jedynie zmienne dyskretne (nominalne ) lub zmienne o stosunkowo ograniczonej ilości sensownych wartości. Zwróćmy uwagę, że jeśli chcemy tabelaryzować zmienną ciągłą (np. dochód), to należy ją wpierw przekodować, zamieniając na pewną liczbę rozłącznych kategorii (np. niski, średni, wysoki).
Tabele 2 x 2. Najprostszą formą tabeli wielodzielczej jest tabela 2 x 2, w której dwie zmienne są sklasyfikowane krzyżowo, a każda z nich ma tylko dwie wartości. Na przykład załóżmy, że prowadzimy proste badanie, w którym mężczyzn i kobiety poproszono o wybranie jednego z dwóch gatunków wody mineralnej (gatunek A i gatunek B). Plik danych może wyglądać tak jak poniżej:
PŁEĆ | WODA | |
---|---|---|
przyp. 1 przyp. 2 przyp. 3 przyp. 4 przyp. 5 ... | mężczyzna kobieta kobieta kobieta mężczyzna ... | A B B A B ... |
WODA: A | WODA: B | ||
---|---|---|---|
PŁEĆ: Mężczyzna | 20 (40%) | 30 (60%) | 50 (50%) |
PŁEĆ: Kobieta | 30 (60%) | 20 (40%) | 50 (50%) |
50 (50%) | 50 (50%) | 100 (100%) |
Liczności brzegowe. Wartości podawane na marginesie tabeli są po prostu jednowymiarowymi tabelami liczności dla wszystkich wartości w tabeli. Są one o tyle ważne, że pozwalają nam ocenić rozkład liczności w wierszach lub kolumnach. Na przykład częstości 40% i 60% dla kategorii mężczyzna i kobieta (odpowiednio) wybierających wodę A (zob. pierwsza kolumna przykładowej tabeli 2 x 2) nie wskazywałyby na jakikolwiek związek między Płcią i Wodą , gdyby liczności brzegowe dla Płci wynosiły również 40% i 60%. W takim przypadku wskazywałoby to jedynie na różne liczności kobiet i mężczyzn w próbie. Widzimy więc, że różnice w rozkładzie liczności w pojedynczych wierszach (kolumnach) i w odpowiadających im rozkładach brzegowych wskazują na związek między tabelaryzowanymi zmiennymi.
Procentowe liczności kolumnowe, wierszowe i całkowite. Przykład przedstawiony w temacie Tabela 2 x 2 pokazuje, że dla oceny zależności pomiędzy zmiennymi, dla których tworzona jest tabela wielodzielcza, należy porównać rozkłady liczności brzegowych i warunkowych (kolumnowych lub wierszowych). Dokonanie takiego porównania jest łatwiejsze, jeżeli liczności podawane są w formie częstości względnej (procentu).
Prezentacja tabel wielodzielczych. Wybrane wiersze lub kolumny można dla celów analitycznych przedstawiać za pomocą wykresów słupkowych. Często jednak bardziej pomocną może okazać się możliwość przedstawienia całej tabeli w postaci graficznej. Przykładowo tabelę dwudzielczą można przedstawić graficznie za pomocą trójwymiarowego histogramu lub histogramu skategoryzowanego w przypadku którego jedna zmienna jest przedstawiana za pomocą pojedynczych histogramów wykreślanych dla każdego poziomu (kategorii) drugiej zmiennej. Zaleta histogramu 3W polega na tym, że pozwala on na utworzenie łącznego obrazu całej tabeli, natomiast histogram skategoryzowany umożliwia precyzyjną ocenę określonych liczności w obrębie każdej z komórek tabeli.
Tabele zbiorcze. Tabele zbiorcze są sposobem na przedstawienie wielu tabeli dwudzielczych w formie skondensowanej. Najlepiej wytłumaczyć to na przykładzie. Wróćmy do przykładu dotyczącego ankiety na temat zainteresowań sportowych (zwróćmy uwagę, że dla uproszczenia opisu ograniczamy się do kategorii Zawsze i Zazwyczaj).
STATISTICA Statystyki Podstawowe | Tabela zbiorcza: Procent w wierszu | ||
---|---|---|---|
Czynnik | FOOTBALL ZAWSZE | FOOTBALL ZAZWYCZAJ | Wiersz Razem |
BASEBALL: ZAWSZE BASEBALL: ZAZWYCZAJ | 92.31 61.54 | 7.69 38.46 | 66.67 33.33 |
BASEBALL: Razem | 82.05 | 17.95 | 100.00 |
TENIS: ZAWSZE TENIS: ZAZWYCZAJ | 87.50 87.50 | 12.50 12.50 | 66.67 33.33 |
TENIS: Razem | 87.50 | 12.50 | 100.00 |
BOKS: ZAWSZE BOKS: ZAZWYCZAJ | 77.78 100.00 | 22.22 0.00 | 52.94 47.06 |
BOKS : Razem | 88.24 | 11.76 | 100.00 |
Interpretacja tabeli zbiorczej. W przytoczonej przykładowej tabeli możemy obejrzeć tabelę dwudzielczą ujmującą deklarowane zainteresowanie piłką nożną w rozbiciu na deklarowane zainteresowanie baseballem, tenisem i boksem. Liczby podane w tabeli wyrażają procenty w wierszach co oznacza, że ich suma w wierszach musi wynosić 100%. Na przykład liczba w lewym górnym rogu tabeli (92,31) wskazuje, że 92,31% wszystkich respondentów twierdzi, iż są zawsze zainteresowani piłką nożną i zawsze zainteresowani oglądaniem baseballu. Niżej widzimy, że tych, którzy zawsze są zainteresowani oglądaniem piłki nożnej i zawsze zainteresowani tenisem jest 87,50 procent, zaś dla boksu odpowiednia liczba wynosi 77,78 procent. Procenty podane w ostatniej kolumnie (Wiersz Razem) są zawsze odnoszone do całkowitej liczby przypadków.
Tabele wielodzielcze ze zmiennymi kontrolnymi. Jeśli zestawiamy w tabeli jedynie dwie zmienne, to otrzymywana tabela nazywa się tabelą dwudzielczą. Idea tabelaryzacji może być oczywiście uogólniona na więcej niż dwie zmienne. Wróćmy dla przykładu do ankiety na temat wody mineralnej i dodajmy do tabeli prezentowanej wcześniej (patrz Chi-kwadrat Pearsona) trzecią zmienną. Będzie ona reprezentować stan, w którym przeprowadzono ankietę (Nebraska lub Nowy Jork).
PŁEĆ | WODA | STAN | |
---|---|---|---|
przyp. 1 przyp. 2 przyp. 3 przyp. 4 przyp. 5 ... | mężczyzna kobieta kobieta kobieta mężczyzna ... | A B B A B ... | Nebraska Nowy Jork Nebraska Nebraska Nowy Jork ... |
STAN: NOWY JORK | STAN: NEBRASKA | |||||
---|---|---|---|---|---|---|
WODA: A | WODA: B | WODA: A | WODA: B | |||
P:Mężczyzna | 20 | 30 | 50 | 5 | 45 | 50 |
P:Kobieta | 30 | 20 | 50 | 45 | 5 | 50 |
50 | 50 | 100 | 50 | 50 | 100 |
Graficzna prezentacja tabel wielodzielczych dla tabel zbiorczych. Możemy przedstawić dane za pomocą podwójnie skategoryzowanych histogramów, histogramów 3W,
czy też wykresów liniowych, które będą ilustrowały rozkłady liczności do trzech czynników włącznie na jednym wykresie.
Serie (kaskady) wykresów mogą być użyte do prezentacji tabel wielodzielczych dla większej liczby czynników (jak na rysunku poniżej).
Statystyki w tabelach wielodzielczych
Ogólne wprowadzenie. Tabele wielodzielcze, ogólnie rzecz ujmując, pozwalają na zidentyfikowanie relacji pomiędzy zmiennymi, których wartości są zestawiane w tabeli wielodzielczej. Poniższa tabela ilustruje przykład bardzo silnej zależności pomiędzy dwiema zmiennymi: zmienną Wiek (Dorosły, Dziecko) i zmienną (ulubione) Ciastko (A lub B).
CIASTKO: A | CIASTKO: B | ||
---|---|---|---|
WIEK: DOROSŁY | 50 | 0 | 50 |
WIEK: DZIECKO | 0 | 50 | 50 |
50 | 50 | 100 |
Chi-kwadrat Pearsona. Statystyka Chi-kwadrat Pearsona jest podstawą najbardziej rozpowszechnionego testu istotności dla zmiennych jakościowych (skategoryzowanych). Miara ta oparta jest na możliwości obliczenia liczności oczekiwanych w tabeli dwudzielczej (to znaczy liczności, jakich oczekiwalibyśmy, gdyby nie istniała zależność między zmiennymi). Przypuśćmy, że pytamy 20 mężczyzn i 20 kobiet o upodobanie do jednej z dwóch gatunków wody mineralnej (gatunki A i B). Gdyby nie było żadnej zależności między upodobaniem odnośnie wody mineralnej a płcią, wówczas należałoby oczekiwać mniej więcej jednakowych liczności w preferencjach gatunku Ai B dla obu płci. Test Chi-kwadrat staje się istotny w miarę wzrostu odstępstwa od tego oczekiwanego schematu (to znaczy w miarę jak liczności odpowiedzi dla mężczyzn i kobiet zaczynają się różnić).
Wartość statystyki chi-kwadrat i poziom jej istotności zależy od całkowitej liczby obserwacji i liczby komórek w tabeli. Zgodnie z zasadami dyskutowanymi w części Podstawowe pojęcia statystyki stosunkowo małe odchylenia częstości względnych w komórkach od oczekiwań okażą się istotne, jeśli liczność próbki jest duża.
Jedynym założeniem leżącym u podstaw stosowania testu chi-kwadrat (poza losowością próbki) jest, aby liczności oczekiwane nie były bardzo małe. Powodem jest tu fakt, że chi-kwadrat testuje prawdopodobieństwa w poszczególnych komórkach i jeśli jakieś liczności będą np. poniżej 5, to oceny tych prawdopodobieństw mogą okazać się niewystarczająco precyzyjne. Dalsze informacje na ten temat znaleźć można w podręcznikach Everitta (1977), Haysa (1988) lub Kendalla i Stuarta (1979).
Chi-kwadrat największej wiarygodności. Chi-kwadrat największej wiarygodności (N-W) testuje tę samą hipotezę co statystyka Chi-kwadrat Pearsona, jednak sposób jej obliczania oparty jest na teorii największej wiarygodności. W praktyce statystyka Chi-kwadrat N-W jest pod względem wartości zbliżona do statystyki Chi-kwadrat Pearsona. Dla zapoznania się ze szczegółami odsyłamy Czytelnika do pozycji: Bishop, Fienberg, Hollander (1975) lub Fienberg (1977). Statystyka ta została także bardziej szczegółowo opisana przy okazji opisu modułu Analiza log-liniowa .
Poprawka Yatesa. Przybliżenie statystyki Chi-kwadrat w tabelach 2x2 o małych licznościach można poprawić przez zmniejszenie bezwzględnej wartości różnic pomiędzy licznościami oczekiwanymi i zaobserwowanymi o wartość 0,5 przed podniesieniem do kwadratu (poprawka Yatesa). Poprawka ta, powodująca bardziej zachowawczą ocenę, stosowana jest zazwyczaj, jeśli liczności w tabeli są tak małe, że niektóre liczności oczekiwane stają się mniejsze niż 10. (Dalsza dyskusja tej poprawki zob. Conover, 1974; Everitt, 1977; Hays, 1988; Kendall i Stuart, 1979 oraz Mantel, 1974).
Dokładny test Fishera. Test ten jest dostępny jedynie dla tabel 2x2 i opiera się na następującym rozumowaniu: Przypuśćmy, że mamy dane liczności brzegowe w tabeli i załóżmy, że w populacji nie istnieje zależność między zmiennymi analizowanymi w tabeli. Postawmy pytanie: jakie jest prawdopodobieństwo, że liczności w poszczególnych komórkach ułożą się tak nierównomiernie (lub gorzej) jak to obserwujemy w tabeli? Dla małych n prawdopodobieństwo to można policzyć dokładnie przez zliczenie wszystkich możliwych tabel, które można skonstruować na podstawie liczności brzegowych. W ten sposób dokładny test Fishera oblicza dokładne prawdopodobieństwo przy hipotezie zerowej polegającej na uzyskaniu bieżącego rozkładu liczności w komórkach tak samo lub bardziej nierównomiernie. Podawane są zarówno prawdopodobieństwa jedno jak i dwustronne.
Chi-kwadrat McNemary. Test ten należy stosować jeśli liczności w tabeli 2x2 reprezentują próbki zależne. Na przykład w układzie doświadczalnym typu przed i po (zabiegu doświadczalnym) możemy zliczać liczbę studentów, którzy nie przeszli testu z podstaw matematyki na początku i na końcu semestru. Podawane są dwie wartości Chi-kwadrat : A/D i B/C. Chi-kwadrat A/D testuje hipotezę, że liczności w komórkach A i D (lewa górna i prawa dolna) są identyczne. Natomiast Chi-kwadrat B/C testuje hipotezę, że liczności w komórkach B i C (prawa górna i lewa dolna) są identyczne.
Współczynnik Fi. Fi-kwadrat jest miarą korelacji między dwiema zmiennymi jakościowymi (skategoryzowanymi) w tabeli 2 x 2. Jego wartość może się zmieniać od 0 (brak relacji między zmiennymi; Chi-kwadrat=0) do 1 (całkowita zależność między zmiennymi w tabeli). Dalsze szczegóły dotyczące tej statystyki zob. Castellan i Siegel (1988, str. 232).
Korelacja tetrachoryczna. Statystyka ta ma zastosowanie tylko w odniesieniu do tabeli 2x2. Jeśli tabela 2x2 może być traktowana jako wynik (sztucznego) rozdzielenia wartości każdej z dwóch zmiennych o charakterze ciągłym na dwie kategorie, wówczas współczynnik korelacji tetrachorycznej daje ocenę korelacji między tymi zmiennymi.
Współczynnik kontyngencji. Współczynnik kontyngencji jest opartą na wartościach statystyki Chi-kwadrat miarą zależności między dwiema zmiennymi jakościowymi (skategoryzowanymi) zaproponowaną przez Pearsona, twórcę testu Chi-kwadrat. Jej zaletą w porównaniu ze zwykłą wartością Chi-kwadrat jest to, że jest łatwiej interpretowalna ponieważ zawsze zawarta jest pomiędzy 0 i 1 (0 oznacza niezależność zmiennych). Podstawową wadą tej statystyki jest natomiast to, że jej maksymalna wartość zależy od rozmiaru tabeli. Współczynnik kontyngencji C może osiągnąć wartość 1 jedynie dla nieskończonej liczby kategorii (zob. Siegel, 1956, str. 201).
Interpretacja miar kontyngencji. Poważną wadą miar kontyngencji jest to, że nie są one łatwo interpretowalne w terminach prawdopodobieństwa lub proporcji zmienności jak to ma miejsce np. dla współczynnika korelacji r Pearsona (zob. Korelacje ). W ogóle należy dodać, że nie istnieją żadne miary relacji pomiędzy zmiennymi jakościowymi (skategoryzowanymi), które by umożliwiały taką czytelną interpretację.
Statystyki oparte na rangach. W wielu przypadkach kategorie wykorzystywane przy tworzeniu tabel wielodzielczych zawierają sensowną informację w postaci szeregowania (rangowania), to znaczy stanowią one miarę jakiejś cechy wyrażoną na skali porządkowej (zob. Podstawowe pojęcia statystyki). Przypuśćmy, że ankietowaliśmy próbkę respondentów celem zbadania ich zainteresowań transmisjami z zawodów sportowych według czterostopniowej skali (1) zawsze, (2) zazwyczaj, (3) czasami i (4) nigdy nie zainteresowany. Jest oczywiste, że odpowiedź czasami zainteresowany wskazuje na mniejsze zainteresowanie niż odpowiedź zawsze zainteresowany. Można w ten sposób uszeregować respondentów według np. ich zainteresowania oglądaniem meczu piłki nożnej. Jeżeli zmienne skategoryzowane mogą być interpretowane w ten sposób to mamy do dyspozycji szereg dalszych wskaźników, które można obliczyć celem wyrażenia miary zależności między tymi zmiennymi.
R Spearmana. Współczynnik R Spearmana można uważać za zwyczajny współczynnik korelacji (Pearsona) wg momentu mieszanego (r Pearsona), tzn. interpretowalny w terminach wyjaśnianej zmienności, z tą różnicą, że oblicza się go na podstawie rang a nie samych wartości. Jak wspomnieliśmy poprzednio dla obliczenia R Spearmana zakłada się, że zmienne zostały zmierzone co najmniej na skali porządkowej czyli że poszczególne obserwacje zostały uszeregowane w dwa uporządkowane ciągi. Szczegółowe informacje na temat statystyki R Spearmana, jej mocy oraz efektywności znaleźć można w pracach: Gibbons (1985), Hays (1981), McNemar (1969), Siegel (1956), Siegel i Castellan (1988), Kendall (1948), Olds (1949) lub Hotelling i Pabst (1936).
Tau Kendalla. Pod względem wymaganych założeń tau Kendalla jest równoważne z R Spearmana. Jest również pomiędzy R Spearmana i tau Kendalla podobieństwo ze względu na moc statystyczną. Obie miary są jednak najczęściej różne pod względem wartości ze względu na to, że logika leżąca u podstaw ich definicji, a także same formuły obliczeniowe, są różne. Siegel i Castellan (1988) wyrażają relację pomiędzy tymi dwiema wielkościami w następujący sposób:
-1 < = 3 * Kendall tau - 2 * Spearman R < = 1
Bardziej istotne jest to, że tau Kendalla i R Spearmana wymagają odmiennych interpretacji: podczas gdy R Spearmana należy uważać za zwykły współczynnik korelacji wg momentu mieszanego obliczany w oparciu o rangi, to tau Kendalla reprezentuje raczej prawdopodobieństwo. Można go uważać za różnicę prawdopodobieństw tego, że zmierzone dane są tak samo uszeregowane dla obydwóch zmiennych i tego, że są uszeregowane odwrotnie. Kendall (1948, 1975), Everitt (1977) oraz Siegel i Castellan (1988) dyskutują tau Kendalla bardziej szczegółowo. Obliczane są dwa warianty tau, oznaczane jako taub i tauc. Różnią się one jedynie co do tego, jak traktowane są rangi wiązane. W większości przypadków obie wartości są podobne, a kiedy zdarzają się rozbieżności, to najbezpieczniej jest brać pod uwagę wartość mniejszą.
d Sommera: d(X|Y), d(Y|X). D Sommera jest asymetryczną miarą zależności powiązaną z tb (zob. Siegel & Castellan, 1988, str. 303-310).
Gamma. W przypadku kiedy dane zawierają wiele obserwacji, którym przypisano jednakowe rangi (tzw. rangi wiązane), to zamiast stosować współczynnik R Spearmana czy tau Kendalla, należy raczej wybrać statystykę Gamma. Pod względem wymaganych założeń wszystkie te trzy statystyki są równoważne, natomiast pod względem interpretacji i procedury obliczeniowej statystyka gamma jest bardziej podobna do tau Kendalla niż do R Spearmana. Gamma również oznacza prawdopodobieństwo. Jest ono obliczane jako różnica prawdopodobieństw tego, że rangi dwóch zmiennych są ze sobą zgodne i tego, że rangi te są niezgodne podzielona przez 1 minus prawdopodobieństwo wystąpienia jednakowych rang. W tym sensie Gamma jest w zasadzie równoważne tau Kendalla z tą różnicą, że brane są pod uwagę przypadki jednakowych rang. Szczegółową dyskusję statystyki Gamma można znaleźć w: Goodman i Kruskal (1954, 1959, 1963, 1972), Siegel (1956) i Siegel i Castellan (1988).
Współczynniki niepewności. Są to wskaźniki zależności stochastycznej. Koncepcja zależności stochastycznej pochodzi z zastosowania teorii informacji do analizy tabel liczności. Czytelników zainteresowanych tym zagadnieniem odsyłamy do odpowiednich źródeł (zob. Kullback, 1959; Ku & Kullback, 1968; Ku, Varner & Kullback, 1971; zob. również Bishop, Fienberg i Holland, 1975, str. 344-348). S(Y,X) odnosi się do zależności symetrycznej, S(X|Y) i S(Y|X) do zależności asymetrycznej.
Wielokrotne odpowiedzi/dychotomie. Zmienne wielokrotnych odpowiedzi lub wielokrotne dychotomie spotyka się najczęściej przy analizie danych pochodzących z badań opinii publicznej. Najlepiej zilustrować je przy pomocy odpowiednich przykładów.
Zmienne wielokrotnych odpowiedzi. Przypuśćmy, że w trakcie większych badań marketingowych zadano konsumentom pytanie o trzy ulubione gatunki napojów chłodzących. Odpowiednia pozycja kwestionariusza mogła wyglądać następująco:
Podaj nazwy Twoich trzech ulubionych napojów chłodzących:
1:__________ 2:__________ 3:__________
Natychmiast pojawia się pytanie, w jaki sposób zapisywać dane do pliku danych, jeśli na przykład wymieniono 50 rodzajów napojów w ankiecie. Oczywiście można by wprowadzić 50 zmiennych - jedna na każdy rodzaj napoju i wpisywać 1 jeśli napój jest wymieniany w odpowiedzi i 0 jeśli nie. Na przykład:
COKE | PEPSI | SPRITE | . . . . | |
---|---|---|---|---|
przyp. 1 przyp. 2 przyp. 3 ... | 0 1 0 ... | 1 1 0 ... | 0 0 1 ... |
Sposób kodowania zmiennych wielokrotnych odpowiedzi. Jako alternatywę do sposobu postępowania przedstawionego powyżej, możemy wprowadzić trzy zmienne i schemat kodowania dla 50 napojów. Następnie do poszczególnych pozycji wprowadzać kody (lub etykiety literowo-cyfrowe) odnośnych napojów, tak jak pojawiają się one w odpowiedziach.
Odp. 1 | Odp. 2 | Odp. 3 | |
---|---|---|---|
przyp. 1 przyp. 2 przyp. 3 . . . | COKE SPRITE PERRIER . . . | PEPSI SNAPPLE GATORADE . . . | JOLT DR. PEPPER MOUNTAIN DEW . . . |
N=500 Kategoria | n | Procent Odpowiedzi | Procent Przypadków |
---|---|---|---|
COKE: Coca Cola PEPSI: Pepsi Cola MOUNTAIN: Mountain Dew PEPPER: Doctor Pepper . . . : . . . . | 44 43 81 74 .. | 5.23 5.11 9.62 8.79 ... | 8.80 8.60 16.20 14.80 ... |
842 | 100.00 | 168.40 |
Interpretacja tabeli liczności w przypadku wielokrotnych odpowiedzi. Całkowita liczba respondentów wyniosła N=500. Zwróćmy uwagę, że liczności w pierwszej kolumnie tabeli nie sumują się do 500, lecz dają w sumie 842. Jest to całkowita liczba odpowiedzi, ponieważ każdy respondent może podać 3 odpowiedzi (wypisać nazwy trzech napojów), więc całkowita liczba odpowiedzi musi być większa niż liczba respondentów. Na przykład, wracając do przedstawionego powyżej fragmentu pliku danych, pierwszy przypadek (Coke, Pepsi, Jolt) trzykrotnie wnosi wkład do tabeli liczności, raz do kategorii Coke, raz do kategorii Pepsi i raz do Jolt. Druga i trzecia kolumna w tabeli podają procenty względem liczby odpowiedzi (druga kolumna) i względem respondentów (trzecia kolumna). Zatem np. liczba 8.80 w pierwszym wierszu ostatniej kolumny oznacza, że 8.8% wszystkich respondentów umieściło napój Coke jako ulubiony na pierwszym, drugim lub trzecim miejscu.
Wielokrotne dychotomie. Przypuśćmy, że w przykładzie dotyczącym zmiennych wielokrotnych odpowiedzi interesują nas tylko trzy napoje: Coke, Pepsi i Sprite. Jak wspomnieliśmy już wcześniej, jeden ze sposobów kodowania danych w tej sytuacji może wyglądać jak poniżej:
COKE | PEPSI | SPRITE | . . . . | |
---|---|---|---|---|
przyp. 1 przyp. 2 przyp. 3 . . . | 1 . . . | 1 1 . . . | 1 . . . |
Tworzenie tabel wielodzielczych dla wielokrotnych odpowiedzi/dychotomii Wszystkie typy zmiennych mogą być użyte w tabelach wielodzielczych. Możemy na przykład tabelaryzować wielokrotną dychotomię dla Napojów chłodzących (zakodowaną, jak to zostało pokazane we fragmencie Wielokrotne dychotomie) ze zmienną wielokrotnych odpowiedzi Ulubione szybkie dania (z wieloma kategoriami takimi jak Hamburgery, Pizza itp.) i prostą zmienną skategoryzowaną Płeć. Podobnie jak w przypadku tabeli liczności procenty i liczności sumaryczne brzegowe w tabeli mogą być odnoszone do liczby respondentów oraz do liczby odpowiedzi. Dla przykładu załóżmy, że otrzymaliśmy następującą hipotetyczną ankietę:
Płeć | Coke | Pepsi | Sprite | Danie 1 | Danie 2 |
---|---|---|---|---|---|
kobieta | 1 | 1 | RYBA | PIZZA |
Danie | . . . | RAZEM L. RESP. | ||||
---|---|---|---|---|---|---|
Płeć | Napój | HAMBURG. | RYBA | PIZZA | . . . | |
KOBIETA MĘŻCZYZNA | COKE PEPSI SPRITE COKE PEPSI SPRITE | | X X | X X | | 2 2 |
Tworzenie tabel wielodzielczych dla skojarzonych zmiennych wielokrotnych odpowiedzi. Unikalną opcją przy tworzeniu tabel wielodzielczych dla zmiennych wielokrotnych odpowiedzi jest traktowanie zmiennych zawartych w dwóch lub więcej zmiennych wielokrotnych odpowiedzi jako odpowiadających sobie par. Zilustrujmy to znów na przykładzie. Załóżmy, że przeprowadzono badanie ankietowe na temat przeszłej i obecnej własności mieszkań. Poproszono ankietowanych o podanie informacji na temat ostatnich trzech zakupionych przez nich (włączając w to obecne) mieszkań. Naturalnie, dla niektórych z nich obecne mieszkanie jest jedynym, jakie zakupili, zaś inni posiadali w przeszłości więcej niż jedno. W ankiecie należy odpowiedzieć na pytanie o liczbę pokojów i liczbę mieszkańców w każdym z mieszkań. Poniżej pokazujemy przykład, jak jedna z ankiet (np. ankieta nr 112) została zakodowana w pliku danych.
Przyp. nr | Pokoje | 1 | 2 | 3 | L. mieszk. | 1 | 2 | 3 |
---|---|---|---|---|---|---|---|---|
112 | 3 | 3 | 4 | 2 | 3 | 5 |
Załóżmy teraz, że chcemy utworzyć tabelę wielodzielczą dla liczby pokoi względem liczby mieszkańców dla wszystkich respondentów. Jednym ze sposobów będzie sporządzenie trzech tabel dwudzielczych - każdej dla jednego mieszkania. Można również potraktować zmienne analizowane w tej ankiecie (Liczba pokoi, Liczba mieszkańców) jako zmienne wielokrotnych odpowiedzi. Jednakże zazwyczaj nie byłoby zbyt sensowne zaliczanie pokazanego wyżej respondenta 112 do komórki 3 pokoje - 5 mieszkańców w tabeli wielodzielczej, gdyby traktować te dwie zmienne jako zwykłe zmienne wielokrotnych odpowiedzi. Innymi słowy, chcielibyśmy nie brać pod uwagę kombinacji mieszkańców z trzeciego mieszkania z liczbą pokojów w pierwszym mieszkaniu. Raczej chcielibyśmy brać te zmienne parami - rozpatrywać liczbę pokojów w pierwszym domu w połączeniu z liczbą mieszkańców w pierwszym domu, liczbę pokojów w drugim domu w połączeniu z liczbą mieszkańców w drugim domu itd. Dokładnie taki cel osiągniemy, jeśli zażądamy skojarzonej tabeli wielodzielczej dla tych zmiennych wielokrotnych odpowiedzi.
Komentarz końcowy. W trakcie przeprowadzania złożonych analiz za pomocą procedury tworzenia tabel wielodzielczych dla wielokrotnych odpowiedzi/dychotomii, często trudno jest (tak przynajmniej wskazują nasze doświadczenia) prześledzić dokładnie, jak poszczególne przypadki z pliku danych są zaklasyfikowane w tabeli wielodzielczej. Najlepszym sposobem weryfikacji poprawności naszego zrozumienia, jak powstają kolejne tabele, jest tabelaryzowanie jakiegoś prostego przykładowego zbioru danych i śledzenie, jak każdy przypadek jest uwzględniany w tabeli. Przykład Tabele wielodzielcze wykorzystuje tę metodę dla zilustrowania sposobu, w jaki dane są zliczane w tabeli zawierającej zmienne wielokrotnych odpowiedzi i wielokrotne dychotomie.
Indeks |