analiza danych jakościowych dąbrowski

Analiza danych jakościowych
Andrzej Dabrowski
�
2
Spis treści
1 Dane 7
Skale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Statystyczne modele danych jakościowych 11
Rozk�ady prawdopodobieństwa dla liczności w tablicach . . . . . . . . . 13
Testowanie zgodności modelu z danymi . . . . . . . . . . . . . . . . . . 15
Testowanie jednorodności . . . . . . . . . . . . . . . . . . . . . . . . . 18
Test niezalezności �2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Iloraz krzyzowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3 Modele logitowe 31
Modele logitowe dla zmiennych liczbowych . . . . . . . . . . . . . . . . 32
Regresja logitowa ze zmiennymi nominalnymi . . . . . . . . . . . . . . 34
Regresja logitowa ze zmiennymi porzadkowymi . . . . . . . . . . . . . . 36
�
4 Modele logarytmiczno-liniowe 39
Modele hierarchiczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
A Skale dla prawdopodobieństw 59
B Metoda IPF 63
C Ćwiczenia 67
Zadania na ćwiczenia w laboratorium . . . . . . . . . . . . . . . . . . . 68
Zadania egzaminacyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Egzamin poprawkowy . . . . . . . . . . . . . . . . . . . . . . . . . 73
3
4 SPIS TREŚCI
Wstep
�
5
6 Wstep
�
Skrypt ten zawiera zapis wyk�adów z analizy danych jakościowych, wyg�oszonych
przeze mnie na Uniwersytecie Wroc�awskim w semestrze zimowym roku aka-
demickiego 2002/2003.
Wyk�ad ten rozszerza w istotny sposób wyk�ady ze statystyki, które na ogó� za-
wieraja opis metod dla danych ilościowych. Praktyczne zastosowania statystyki w
�
naukach biologicznych, medycznych czy w naukach spo�ecznych wymagaja wiedzy
�
z tego szczególnego dzia�u statystyki.
Andrzej Dabrowski
�
luty 2003
Rozdzia� 1
Dane
7
8 Dane
Dane sa efektem pomiarów i obserwacji, dokonywanych w doświadczeniach
�
planowanych i takich, które polegaja na zebraniu informacji o badanym zjawisku.
�
Temu samemu obiektowi moga� być przypisane rózne dane. Na przyk�ad, danymi,
kóre moga� być przypisane choremu sa: diagnoza, stopień zaawansowania choroby,
�
wiek, ciśnienie krwi, temperatura.
Skale
Dane wyrazaja swoje wartości w róznych skalach.
�
Skala nominalna. Skale nominalna stosuje sie w celu klasy& kacji (nazwania)
� � �
obiektów w populacji. Kazdej klasie nadaje sie odrebne oznaczenie (nazwe) w ten
� � �
sposób, aby rózne klasy mia�y rózne oznaczenia. Czesto te oznaczenia bedziemy
� �
nazywać poziomami. Na przyk�ad w skali nominalnej wyrazona moze być diag-
noza (grypa, katar), stopień zaawansowania choroby (lekko chory, ciezko chory,
�
bardzo ciezko chory), temperatura (ponizej 37ą, miedzy 38ą a 40ą), temperatura
� �
(37ą;38ą;40ą). Struktura skali nominalnej nie zmieni sie, jeśli dokonamy zmiany
�
oznaczeń za pomoca przekszta�cenia róznowartościowego. Na przyk�ad, diagnoza
�
moze być zapisana za pomoca� numeru statystycznego choroby1, stan chorego jako
A,B,C itp.
Skala porzadkowa. Jest to szczególny rodzaj skali nominalnej. Pozwala ona
�
uporzadkować klasy wed�ug stopnia intensywności opisywanej cechy. Na przyk�ad,
�
stopień zaawansowania choroby (lekko chory, cie�zko chory, bardzo cie�zko chory),
temperatura (ponizej 37ą, miedzy 38ą a 40ą), temperatura (37ą;38ą;40ą) wyrazaja�
�
sie w skali porzadkowej, natomiast diagnoza (grypa, katar) nie jest wyrazona w
� �
skali porzadkowej. Struktura skali porzadkowej zachowa sie, gdy dokonamy zmi-
� � �
any oznaczeń przez przekszta�cenie, zachowuja�ce porzadek. Tradycyjnie, jeśli
�
skale porzadkowa� koduje sie za pomoca� liczb, to porza�dek naturalny tych liczb2odzwierciedla
� � �
porzadek skali. Podobnie, kodujac za pomoca liter alfabetu A,B,... porzadek skali
� � � �
odzwierciedla sie w porzadku alfabetycznym. I tak system ocen: niedostateczny,
� �
dostateczny, dobry bardzo dobry wyrazaja�cy sie w skali porzadkowej koduje sie3
� � �
w Polsce za pomoca liczb 2,3,4,5. Analogiczny system ocen w USA koduje sie za
� �
pomoca liter alfabetu A,B,...
�
Skala przedzia�owa. Skala ta pozwala nie tylko klasy& kować i porzadkować
�
obiekty ale i porównywać je ilościowo. Wymaga ona ustalenia jednostki pomiaru
i punktu zerowego skali. W tej skali naturalna operacja porównania jest róznica.
� �
Skala zachowuje sie tak samo przy przekszta�ceniach a& nicznych x0 = ax +b (a >
�
0), których efektem jest zmiana jednostek. Na przyk�ad temperatura (37ą;38ą;40ą)
jest wyrazona w skali przedzia�owej a jednostki, w których jest wyrazona to skala
1
ale wtedy pe�ni on wy�acznie funkcje opisowa
� �
2
ale nie ich wartość!
3
co nie oznacza, ze oceny maja jakakolwiek wartość liczbowa
� �
Dane 9
Celsjusza. Przejście do skali Fahrenheita odbywa sie przez przekszta�cenie F =
�
9
C + 32. Zero skali Fahrenheita jest w punkcie, odpowiadajacym Ą17: 778ąC.
�
5
Skala ilorazowa. Rózni sie ona od skali przedzia�owej tym, ze wystepuje w
� �
niej absolutny poczatek skali (absolutne zero). W skali ilorazowej wyraza sie wiele
� �
parametrów biologicznych (wzrost, waga cia�a, ciśnienie krwi). Struktura skali
nie zmieni sie, jeśli zastosujemy przekszta�cenie x0 = ax (a > 0). Na przyk�ad,
�
wage cia�a mozemy wyrazić w gramach, ale równiez w kilogramach, funtach itp.
�
Naturalna� operacja� porównania dla skali ilorazowej jest iloraz dwóch wielkości.
Skale: nominalna i porzadkowa opisuja charakterystyki jakościowe danych i
� �
dane, wyrazone w takich skalach nazywaja� sie jakościowymi. Dane, wyrazone w
�
skalach: przedzia�owej i ilorazowej nazywamy danymi ilościowymi .
Materia�, przedstawiony w dalszej cześci skryptu, dotyczyć bedzie metod statysty-
� �
cznych zwiazanych z analiza danych jakościowych.
� �
10 Dane
Rozdzia� 2
Statystyczne modele
danych jakościowych
11
12 Statystyczne modele danych jakościowych
Przypuśćmy, ze dana jest zmienna nominalna lub porzadkowa X o wartościach
�
x1; x2; :::; xI . Prawdopodobieństwo, ze X = xi oznaczymy przez pi:
Dane wynikajace z obserwacji w n-elementowej próbce, powstajacej z nieza-
� �
leznego losowawania wartości cechy X; bedziemy zapisywać w tablicy kontyn-
�
gencji
x1 x2 ::: xI
(2.1)
n1 n2 ::: nI
Parametr ni określa, ile razy zaobserwowano w próbce wartość xi:
Problemem, z jakim mozemy sie spotkać w przypadku takich danych, to spre-
�
cyzowanie rozk�adu prawdopodobieństwa zmiennej X; czyli uk�adu liczb fp1; p2; ::::pIg ;
spe�niajacych warunki
�
I
X
pi = 1; pi � 0 i = 1; 2; :::I
i=1
Rozk�adem, zwia�zanym z jednowymiarowa� tablica� (2.1) jest rozk�ad zmiennej
losowej Ni określajacej, ile wyników cechy X na poziomie xi wystapi w próbce.
� �
Rozk�ad ten zalezy od rozk�adu prawdopodobieństwa zmiennej X:
Jezeli kazdemu obiektowi przypisujemy dwie lub wiecej zmiennych nominal-
�
nych albo porzadkowych X; Y; Z; ::: to dane, uzyskane z obserwacji tych zmien-
�
nych zapisuje sie w postaci tablicy kontyngencji. Tablica kontyngencji dla pary
�
zmiennych (X; Y ) o wartościach X = fx1; x2; ::::xIg i Y = fy1; y2; ::::yJg ma
postać:
y1 y2 ... yJ
x1 n11 n12 ... n1J
,
x2 n21 n22 ... n2J
... ... ... ... ...
xI nI1 nI2 ... nIJ
gdzie nij jest liczba obserwacji w n-elementowej próbce takich, ze X = xi oraz
�
Y = yj. Nij niech bedzie zmienna, określajaca� ile wysta�pi�o w próbce wyników
� �
zmiennej X na poziomie xi i jednocześnie wyników zmiennej Y na poziomie
yj: Prawdopodobieństwo P (X = xi; Y = yj) oznaczymy symbolem pij. Praw-
dopodobieństwa pij spe�niaja warunki
�
I J
X X
pij = 1; pij � 0
i=1 j=1
Podobnie, tablica kontyngencji dla trójki zmiennych (X; Y; Z) o wartościach
X = fx1; x2; ::::xIg ; Y = fy1; y2; ::::yJg i Z = fz1; z2; ::::zKg ma postać:
Statystyczne modele danych jakościowych 13
z1 z2 ... zK
x1 y1 n111 n112 ... n11K
y2 n121 n122 ... n12K
... ... ... ... ...
yJ n1J1 n1J2 ... n1JK
... ... ... ... ... ...
xI y1 nI11 nI12 ... nI1K
y2 nI21 nI22 ... nI2K
... ... ... ... ... ...
yJ nIJ1 nIJ 2 ... nIJK
Oznaczenia uzyte w ostatniej tablicy sa� analogiczne do uzytych w opisie tabl-
icy dwuwymiarowej: nijk jest liczba obserwacji w próbce takich, ze X = xi,
�
Y = yj i Z = zk, natomiast liczba pijk jest prawdopodobieństwem tego zdarzenia,
a Nijk zmienna� o wartościach nijk.
Analogiczne sposoby zapisu danych i oznaczenia sa� uzywane dla uk�adu wiecej
�
niz trzech zmiennych.
Oznaczenie 2.1 Zastapienie symbolem + w indeksie zmiennej oznacza operacje
� �
sumowania po tym indeksie. Na przyk�ad
X X
n+j = nij; n++ = nij;
i i;j
X
ni+k = nijk
;j
Rozk�ady prawdopodobieństwa dla liczności
w tablicach
Rózne sposoby uzyskania informacji w próbce maja wp�yw na rozk�ad zmiennych
�
losowych Ni; Nij; Nijk:
Rozk�ad dwumianowy (Bernoullego) B(p)
Powtarzamy n-krotnie eksperyment, polegajacy na wykonaniu n0 niezaleznych
�
powtórzeń zmiennej o dwóch poziomach: sukces, porazka z prawdopodobieńst-
wem sukcesu p: Zmienna X mierzy liczbe sukcesów w n0 powtórzeniach, natomi-
�
ast ni jest liczba� eksperymentów w której wystapi�o xi sukcesów.
�
�� ! !ni
I
Y
n0
P (N1 = n1; N2 = n2; :::; NI = nI ) = pxi (1 Ą p)n0Ąxi
xi
i=1
Rozk�ad Poissona P (�)
14 Statystyczne modele danych jakościowych
Rozk�ad Poissona jest przypadkiem granicznym w rozk�adzie dwumianowym1.
Wystapi on w tej sytuacji, gdy n-krotnie, niezaleznie powtarzamy pewien ekspery-
�
ment o wynikach sukces, porazka z ma�ym prawdopodobieństwem sukcesu i oczeki-
wana� liczba� sukcesów � w jednym eksperymencie. Przypuśćmy, ze w tablicy (2.1)
poziom xi oznacza liczbe sukcesów w jednym eksperymencie, a ni liczbe ekspery-
� �
mentów w której wystapi�o xi sukcesów.
�
� !ni
I
Y
�xi
P (N1 = n1; N2 = n2; :::; NI = nI) = exp (Ą�ni)
xi!
i=1
� !ni
I
Y
�xi
= exp (Ą�n) (2.2)
xi!
i=1
Rozk�ad wielomianowy W (p1; p2; ::::; pI)
Przypuśćmy, ze zmienna X ma poziomy x1; x2; :::; xI, prawdopodobieństwo,
ze X jest na poziomie xi jest równe pi. Elementy próbki utworzone sa z n nieza-
�
leznych obserwacji zmiennej X .
I
Y
pni
i
P (N1 = n1; N2 = n2; :::; NI = nI ) = n+! (2.3)
ni!
i=1
Stwierdzenie 2.2 Rozk�ad wielomianowy ma nastepujace w�asności
� �
1. Ni B (pi);
2. (N1; N2; :::; Nr; N0) W (p1; p2; ::::; pr; p0), gdzie
I I
X X
N0 = Ni; p0 = pi
i=r+1 i=r+1
Rozk�ad produktowo-wielomianowy V (p11; p12; ::::; pIJ)
Niezalezne zmienne Xi maja poziomy xi1; xi2; :::; xiJ, prawdopodobieństwo,
�
ze Xi jest na poziomie xij jest równe pij. Powtarzamy ni+-krotnie niezaleznie
eksperyment obserwacji zmiennej Xi i ta� operacje, niezaleznie powtarzamy dla
�
i = 1; 2; :::; I. Wielkość nij oznacza liczbe powtórzeń, kiedy osiagnieto poziom
� � �
xij:
I J
Y Y
pnij
ij
P (N11 = n11; N12 = n12; :::; NIJ = nIJ) = ni+! ; (2.4)
nij!
i=1 j=1
J
X
pi+ = pij = 1
j=1
Stwierdzenie 2.3 Dla kazdego i = 1; 2; :::; I wektory losowe (Ni1; Ni2; :::; NiJ)
1. sa� niezalezne,
2. maja rozk�ady wielomianowe W (pi1; pi2; ::::; piJ)
�
1
jezeli liczba powtórzeń n0 jest duza a prawdopodobieństwo sukcesu jest ma�e; parametr �
jest oczekiwana liczba� sukcesów
�
Statystyczne modele danych jakościowych 15
Testowanie zgodności modelu z danymi
De& nicja 2.4 Odchyleniem danych fn1;n2; :::; nIg od modelu M nazywamy liczbe
�
I
X
ni
G2 (M) = 2 ni ln ;
b
ni
i=1
b b b
gdzie ni = npi oraz pi jest estymatorem najwiekszej wiarygodności pi w modelu
�
M
De& nicja 2.5 Odleg�ościa �2 Pearsona2 danych fn1;n2; :::; nI g od modelu M nazy-
�
wamy liczbe�
I
X
b
(ni Ą ni)2
�2 (M) = ;
b
ni
i=1
b b b
gdzie ni = npi oraz pi jest estymatorem najwiekszej wiarygodności pi w modelu
�
M;
Twierdzenie 2.6 Odleg�ość �2 (M) Pearsona jest, pomnozonym przez n; oczeki-
3
wanym kwadratowym b�edem wzglednym danych wzgledem modelu M :
� � �
�
I
X
b
ni Ą ni ś2
b
�2 (M) = n pi ;
b
ni
i=1
b
ni
b
pi =
n
Twierdzenie 2.7 Odleg�ość �2 (M) Pearsona jest asymptotycznie, przy n ! 1
równa odchyleniu G2 (M)
Twierdzenie 2.8 Dla modelu M Poissona, dwumianowego lub wielomianowego
(równiez produktowo-wielomianowego) odchylenie G2 jest proporcjonalne do pod-
wojonego logarytmu ilorazu wiarygodności hipotezy zgodności z modelem M prze-
ciwko hipotezie niezgodności z tym modelem.
Twierdzenie 2.9 Zmienne losowe G2 (M) i �2 (M) maja asymptotycznie, przy
�
n ! 1 rozk�ad �2: Liczba stopni swobody tego rozk�adu jest róznica liczby stopni
�
swobody hipotezy H1orzekajacej, ze do danych nie mozna stosować modelu M i
�
liczby stopni swobody hipotezy H0orzekajacej, ze do danych mozna stosować model
�
M:
2
Odleg�ość ta zosta�a zaproponowana przez Karla Pearsona w artykule z 1900 pod tytu�em
On the Criterion that a Given System of Deviations from the Probable in the Case of a Cor-
related System of Variables is such that it Can be Reasonably Supposed to Have Arisen from
Random Sampling. Motywacja tego artyku�u by�o sprawdzenie m.in. jednorodności pojawiania
�
sie� wyników ruletki w Monte Carlo.
3
Oczekiwany b�ad wzgledny danych wzgledem modelu nazywany jest inercja�
� � �
16 Statystyczne modele danych jakościowych
Twierdzenie 2.10 Wartości
b
ni Ą ni
p
di = ; i = 1; 2; :::; I
b
ni
maja� asymptotycznie, przy n ! 1 rozk�ad standardowy normalny.
Uwaga 2.11 (praktyczna) Na poziomie istotności � = 0:05 istotnie rózne od
0 sa te komórki tabeli dla których jdij > 1:96 (d2 > 3:84); na poziomie istotności
�
i
� = 0:01 istotnie rózne od 0 sa te komórki tabeli dla których jdij > 2:58 (d2 >
�
i
6:66)
Uwaga 2.12 (praktyczna) Dobre przyblizenie dla zgodności z rozk�adem �2
b
uzyskuje sie� dla odleg�ości G2 (M) gdy wszystkie wartości ni sa� nie mniejsze niz
b
1. Analogiczny warunek dla �2 (M) jest wyrazony przez nierówność ni � 5
Lemat 2.13 Problem maksymalizacji
X
ci ln qi = max;
i
X
qi = 1
i
ma rozwiazanie
�
ci
b
qi =
P
ci
i
Przyk�ad 2.14 (dane von Bortkiewicza) Statystyk niemiecki Ladislaus von
Bortkiewicz przytoczy� w 1898 dane, dotyczace rocznej liczby wypadków śmiertel-
�
nych, spowodowanych kopnieciem przez konia wśród zo�nierzy 10 korpusów armii
�
pruskiej w ciagu 20 lat:
�
Liczba wypadków w roku 0 1 2 3 4
Liczba korpusów i lat 109 65 22 3 1
Sprawdzimy, czy dane te moga� być opisane rozk�adem Poissona.
Wyznaczymy najpierw estymator najwiekszej wiarygodności dla parametru �:
�
Logarytm funkcji wiarygodności (2.2) ma postać
� � !ni!
I
Y
�xi
ln (L) = ln exp (Ą�n) =
xi!
i=1
X
= Ą�n + ni (xi ln � Ą ln (xi!))
X
@ ln (L) xi
0 = = Ąn + ni ()
@� �
X
1
b
� = nixi
n
co w naszym przypadku daje wartość estymatora
1
b
� = (0 ń 109 + 1 ń 65 + 2 ń 22 + 3 ń 3 + 4 ń 1) = 0:61
200
Statystyczne modele danych jakościowych 17
Przygotujemy tabele do obliczeń statystyki testowej G2 (lub �2)
�
xi 0 1 2 3 4
ni ł � 109 65 22 3 1
�xi
b
b
pi = exp Ą� : 543 35 : 331 44 : 101 09 :02056 :00313
xi!
c b
ni = npi 108: 67 66: 29 20: 22 4: 11 : 63
c
W ostatniej kolumnie oczekiwana liczebność wynosi ni = : 63, co wskazuje
na to, ze szukanie poziomu krytycznego rozk�adu �2 moze być niedok�adne (zbyt
ma�a wartość - patrz Uwaga 2.12). W takich przypadkach zaleca sie� �aczenie
�
c
sasiednich kategorii, tak aby wartość ni by�a dostatecznie duza. Po po�aczeniu
� �
dwóch ostatnich kategorii otrzymamy tablice, dla której mozemy obliczyć wartość
�
G24
xi 0 1 2 3 lub 4
ni ł � 109 65 22 4
�xi
b
b
pi = exp Ą� : 543 35 : 331 44 : 101 09 :0 236 9
x !
i
c b
ni = npi 108: 67 66: 29 20: 22 4: 74
ni
ni ln : 330 5 Ą1: 277 4 1: 856 1 Ą: 678 97
ni
b
Wartość G2 = : 460 46. Hipoteza H1 ma 3 stopnie swobody, gdyz nieznanymi
parametrami sa p0; p1; p2; p3, oznaczajace prawdopodobieństwa wartości xi; spe�-
� �
niajace jedno równanie
�
3
X
pi = 1
i=0
Hipoteza H0 ma 1 stopień swobody, gdyz � jest jedynym nieznanym parametrem.
G2 ma wiec rozk�ad �2 z 2 stopniami swobody. Poziom krytyczny dla modelu
�
Poissona wynosi wiec
�
ł �
P G2 > : 460 46 = 0:79435
Wynika stad, ze z duzym przekonaniem mozemy przyja�ć model Poissona dla
�
danych von Bortkiewicza.
Przyk�ad 2.15 (listy federalistów) W historii Stanów Zjednoczonych wazna�
role� odegra�o ustalenie autorstwa tzw Listów federalistów . Zazwyczaj w ta-
kich przypadkach charakteryzuje sie styl autora poprzez podanie rozk�adu praw-
�
dopodobieństwa wystepowania charakterystycznych s�ów danego jezyka. Zbadano
� �
262 bloki tekstu, zawierajace po 200 s�ów kazdy. Zbadamy, czy s�owo may 5 moze
�
być opisane modelem Poissona. Zmienna X podaje liczbe wystapień tego s�owa w
�
bloku.
Liczba wystapień s�owa may 0 1 2 3 4 5 6
�
Liczba fragmentów 156 63 29 8 4 1 1
Wartość estymatora parametru � wynosi
1
b
� = (0 ń 156 + 1 ń 63 + 2 ń 29 + 3 ń 8 + 4 ń 4 + 5 ń 1 + 6 ń 1) = : 656 49
262
4
Ale nie �2!
5
Majace dwa znaczenia: miesiac maj lub czasownik moze (od móc)
� �
18 Statystyczne modele danych jakościowych
Tabela do obliczeń statystyki testowej G2 (lub �2)
xi 0 1 2 3 4 5 6
ni ł � 156 63 29 8 4 1 1
�xi
b
b
pi = exp Ą� : 518 67 : 340 5 : 111 77 :02 446 :00401 :00053 :00006
xi!
c b
ni = npi 135: 89 89: 21 29: 28 6: 41 1: 05 : 14 :0 2
Po po�aczeniu trzech ostatnich poziomów otrzymamy tablice
� �
xi 0 1 2 3 4,5,6
ni 156 63 29 8 6
c b
ni = npi 135: 89 89: 21 29: 28 6: 41 1: 21
n
i
ni ln 21: 53 Ą21: 915 Ą: 278 66 1: 772 7 9: 606 8
ni
b
Wartość G2 = 21: 432. Hipoteza H1 ma 4 stopnie swobody, H0 ma 1 stopień
swobody. G2 ma wiec rozk�ad �2 z 3 stopniami swobody. Poziom krytyczny dla
�
modelu Poissona wynosi wiec
�
ł �
P G2 > 21: 432 = 0:00009
Wynika stad, ze z duzym przekonaniem mozemy odrzucić model Poissona dla
�
tych danych. Otwartym zagadnieniem pozostaje, jakim rozk�adem mozna opisać
te dane.
Testowanie jednorodności
Gdy dane, zawarte w tabeli kontyngencji dla pary zmiennych (X; Y ) mozna
opisać rozk�adem produktowo-wielomianowym, to naturalnym pytaniem o relacje�
miedzy X i Y jest hipoteza jednorodności. Rozk�ad produktowo-wielomianowy
�
narzuca interpretacje roli, jaka odgrywaja zmienne X i Y :
� � �
� zmienna X jest grupujaca, to znaczy na kazdym poziomie xi tej zmiennej
�
obserwujemy niezaleznie wartości zmiennej Y ,
� zmienna Y jest wynikowa, co oznacza, ze interesujemy sie jej wartościami
�
w zalezności od róznych kon& guracji przyczyn (tu pogrupowania poprzez
zmienna� X)
Hipoteza jednorodności g�osi, ze rozk�ad zmiennej Y jest taki sam w kazdej
grupie, odpowiadajacej innemu poziomowi zmiennej X .
�
T�umacza�c to na jezyk rozk�adu produktowo-wielomianowego:
�
H0 : 8j=1;2;:::;j p1j = p2j = ::: = pIj def qj
=
Statystyczne modele danych jakościowych 19
Twierdzenie 2.16 Test hipotezy
H0 : 8j=1;2;:::;J p1j = p2j = ::: = pIj = qj
jest oparty na statystyce testowej G2
X
nij
G2 = 2 nij ln
c
nij
ij
lub �2
X
c
(nij Ą nij)2
�2 =
c
nij
ij
gdzie
ni+n+j
c
nij =
n++
Statystyki te maja asymptotycznie rozk�ad �2 z (I Ą 1) (J Ą 1) stopniami swobody.
�
Dowód. Estymatory najwiekszej wiarygodności dla nieznanych parametrów
�
qj uzyskamy minimalizuja�c logarytm funkcji wiarygodności (2.4):
0 1 0 1
I J I J
Y Y Y Y
pnij A qnij A
ij j
@ @
ln ni+! = ln ni+! =
nij! nij!
i=1 j=1 i=1 j=1
X X
= c + nij ln qj = c + n+j ln qj
ij j
przy warunku
X
qj = 1
j
Korzystajac z lematu 2.13 otrzymamy rozwiazanie
� �
n+j n+j
b
qj = P = ;
n+j n++
j
ni+n+j
c b
nij = ni+qj =
n++
Liczba stopni swobody dla hipotezy H1 wynosi IJ Ą I; gdyz mamy IJ niez-
nanych parametrów, ale I dodatkowych warunków pi+ = 1; i = 1; 2; :::; I. Liczba
stopni swobody dla hipotezy H0 wynosi J Ą1; gdyz w tym przypadku nieznanymi
P
parametrami sa qj, j = 1; 2; :::; J z jednym warunkiem qj = 1: Liczba stopni
�
j
swobody dla rozk�adu �2, zgodnie z twierdzeniem 2.9, wynosi
DF (H1) Ą DF (H0) = I J Ą I Ą (J Ą 1) = (I Ą 1) (J Ą 1)
20 Statystyczne modele danych jakościowych
Przyk�ad 2.17 (preferencje klientów) (zród�o [[4], str. 447]). Mieszkańcy
po�udniowej dzielnicy pewnego miasta zostali podzieleni na 4 grupy: mieszkajacych
�
na pó�nocy dzielnicy (N), po�udniu (S), wschodzie (E) i zachodzie (W ). Z kazdej z
tych grup wylosowano niezaleznie po 100 osób i kazdej osobie zadano pytanie, czy
w ciagu ostatniego tygodnia odwiedzili centrum handlowe, umieszczone w środku
�
osiedla. Celem tej ankiety by�o rozstrzygniecie, czy klienci w jednakowym stopniu
�
korzystaja� z centrum dzielnicowego.
Zmienna grupujaca X o poziomach N; S; W; E wskazuje, skad pochodza� anki-
� �
etowani mieszkańcy dzielnicy. Zmienna Y ma dwa poziomy: T (tak, odwiedzi�em
centrum handlowe), N (nie odwiedzi�em centrum handlowego). Wyniki ankiety
umieszczone sa w tablicy kontyngencji:
�
T N
N 28 72
S 56 44
W 43 57
E 34 66
Zgodnie z twierdzeniem 2.16 musimy wyznaczyć tablice� liczności oczekiwanych
i wartości �2:
c d
nij T N ni+ �2 T N �2
ij i+
N 40: 25 59: 75 100 N 3: 728 2: 512 6:240
S 40: 25 59: 75 100 S 6: 163 4: 152 10:305
W 40: 25 59: 75 100 W : 188 : 125 :313
E 40: 25 59: 75 100 E : 970 : 654 1:624
d
n+j 161 239 400 �2 11:049 7:433 18:482
ij
Poniewaz liczebności oczekiwane sa wieksze od 5, uzyliśmy statystyki �2. Liczba
� �
stopni swobody wynosi 3*1=3. Poziom krytyczny wyliczamy z dystrybuanty rozk�adu
�2 z 3 stopniami swobody wynosi
ł �
p = P �2 > 18:482 = :00035
co jest zdecydowanym argumentem za odrzuceniem hipotezy jednorodności. Spo-
jrzenie na tablice wartości �2pokazuje, gdzie realizuje sie to odchylenie od jed-
� �
norodności - w grupie S, gdzie wartości �2 sa wieksze od 3.84, co oznacza is-
� �
ij
totnie duze (na poziomie 0.05) odchylenie od hipotezy jednorodności. Liczba
odpowiedzi T (tak, korzystam z centrum handlowego) sa� zdecydowanie wyzsze
niz liczba odpowiedzi T, gdyby wszyscy odpowiadali tak samo. Podobnie, liczba
odpowiedzi N (nie korzystam z centrum) jest zdecydowanie mniejsza. Mozna to
interpretować tak, ze mieszkańcy po�udniowej cze�ści dzielnicy chetniej korzystaja�
�
z centrum, usytuowanego w kierunku ich przejazdu do centrum miasta.
Statystyczne modele danych jakościowych 21
Test niezalezności �2
Drugim waznym problemem, który dotyczy dwuwymiarowych tablic kontyngencji
jest testowanie niezalezności. Naturalnym rozk�adem, który wystepuje w tym
�
zagadnieniu jest rozk�ad wielomianowy.
Test niezalezności jest szczególnym przypadkiem twierdzenia 2.9.
Twierdzenie 2.18 Test hipotezy niezalezności
H0 : 8i=1;2;:::;I 8j=1;2;:::;J pij = pi+p+j
jest oparty na statystyce testowej G2
X
nij
G2 = 2 nij ln
c
nij
ij
lub �2
X
c
(nij Ą nij)2
�2 =
c
nij
ij
gdzie
ni+n+j
c
nij =
n++
Statystyki te maja asymptotycznie rozk�ad �2 z (I Ą 1) (J Ą 1) stopniami swo-
�
body6.
Dowód. Estymatory najwiekszej wiarygodności dla nieznanych parametrów
�
pi+; p+j uzyskamy minimalizujac logarytm funkcji wiarygodności (2.3):
�
0 1 0 1
Y Y
pnij A pnijpnij A
ij i+ +j
@ @
ln n++! = ln n++!
nij! nij!
i;j i;j
X
= c + nij ln (pi+p+j)
ij
X X
= c + ni+ ln pi+ + n+j ln p+j
i j
przy warunku
X X
pi+ = 1; p+j = 1
i j
6
Pearson w swojej oryginalnej pracy z 1900 b�ednie podawa� liczbe stopni swobody jako
�
IJ Ą 1. Dopiero Fisher wyjaśni� w 1922 poprawnie, na gruncie geometrii , pojecie stopni
�
swobody i poda� regu�y ich obliczania.
22 Statystyczne modele danych jakościowych
Korzystajac z lematu 2.13 otrzymamy rozwiazanie
� �
ni+ ni+
d
pi+ = P = ;
ni+ n++
i
n+j n+j
d
p+j = P = ;
n+j n++
j
ni+n+j ni+n+j
c d d
nij = n++ pi+ p+j = n++ =
n++
(n++)2
Liczba stopni swobody dla hipotezy H1 wynosi IJ Ą1; gdyz mamy IJ nieznanych
P
parametrów, ale 1 dodatkowy warunek pij = 1. Liczba stopni swobody dla
ij
hipotezy H0 wynosi I Ą 1 +J Ą 1 = I + J Ą 2; gdyz w tym przypadku nieznanymi
P
parametrami sa pi+, i = 1; 2; :::;P z jednym warunkiem pi+ = 1 oraz p+j, j =
I
�
i
1; 2; :::; J z jednym warunkiem p+j = 1: Liczba stopni swobody dla rozk�adu
j
�2, zgodnie z twierdzeniem 2.9, wynosi
DF (H1) Ą DF (H0) = IJ Ą 1 Ą (I + J Ą 2) = (I Ą 1) (J Ą 1)
Przyk�ad 2.19 (artretyzm, terapia, p�eć) (zród�o [[3]]), Tabela przedstawia
wyniki obserwacji 84 pacjentów, chorych na artretyzm. Cechy, obserwowane w
eksperymencie to:
W : wyniki leczenia (z - zadne, u - umiarkowane, l - lepsze);
P: p�eć (k - kobieta, m - me�zczyzna),
T: zastosowana terapia (a - aktywna, p - placebo).
nijk W
P T z u l
k a 6 5 16
p 19 7 6
m a 7 2 5
p 10 0 1
Zbadamy, czy zastosowana terapia mia�a wp�yw na wyniki leczenia. �aczac
� �
dane dla kobiet i mezczyzn, otrzymamy tabele
� �
nij W
T z u l
a 13 7 21
p 29 7 7
Zbudujemy tabele liczebności oczekiwanych i odleg�ości �2
�
c �2 W
nij W
ij
T z u l ni+ T z u l �2
i+
a 20: 5 6: 83 13: 67 41 a 2: 744 :0042 3: 930 6.678
p 21: 5 7: 17 14: 33 43 p 2: 616 :0040 3: 749 6.369
n+j 42 14 28 84 �2 5.360 .0082 7.679 13.047
+j
Statystyczne modele danych jakościowych 23
Liczba stopni swobody wynosi 1*2=2 a poziom krytyczny
ł �
p = P �2 > 13:047 = :0015
co pozwala na odrzucenie hipotezy o niezalezności wyników od zastosowanej ter-
apii. Pogrubione pole w tablicy �2 pokazuje na istotna� róznice� w liczbie lepszych
ij
wyników przy zastosowanej aktywnej terapii w stosunku do hipotetycznej liczby,
odpowiadajacej niezalezności.
�
Iloraz krzyzowy
Inna koncepcja opisania zwiazku miedzy cechami opiera sie na pojeciu stosunku
� � � �
szans.
De& nicja 2.20 (stosunek szans) Prawdopodobieństwo zajścia zdarzenia A jest
równe p. Stosunkiem szans dla tego zdarzenia nazywamy iloraz
p
$ = $ (A) =
1 Ą p
Dobrym estymatorem stosunku szans jest wielkość
n (A) n (A)
c c
$ = $ (A) = = ;
n Ą n (A) n (A0)
gdzie n (A) jest liczba� obserwacji w próbie, dla których zasz�o zdarzenie A, n jest
wielkościa� próby. Gdy próba nie jest wielka zaleca sie stosowanie nieco innego
�
estymatora
n (A) + 0:5 n (A) + 0:5
f f
$ = $ (A) = =
n Ą n (A) + 0:5 n (A0) + 0:5
Przyk�ad 2.21 Dane o wykszta�ceniu i dochodzie rocznym zebrano wśród 300
osób:
dochód niski dochód wysoki
wykszta�cenie średnie 70 30
wykszta�cenie wyzsze 80 120
Niech A be�dzie zdarzeniem, ze osoba ma wykszta�cenie średnie, B - ze ma niski
dochód. Gdy ograniczymy sie� do osób z niskim dochodem to stosunek szans dla
zdarzenia A mozna oszacować, jako
70
c
$ (A jB ) = = : 875
80
co oznacza, ze wśród osób z niskim dochodem jest prawie taka sama liczba osób
o wykszta�ceniu średnim i wyzszym z lekka� przewaga� liczby osób z wykszta�ceniem
wyzszym.
24 Statystyczne modele danych jakościowych
Gdy ograniczymy sie do osób z wyzszym dochodem to stosunek szans dla
�
zdarzenia A mozna oszacować, jako
30
c
$ (A jB0) = = : 25
120
co oznacza, ze wśród osób z wysokim dochodem jest ma�a liczba osób o wykszta�ce-
niu średnim a duza z wyzszym (4 razy wieksza).
�
Z kolei, gdy ograniczymy sie do osób z wykszta�ceniem średnim to stosunek
�
szans dla zdarzenia B mozna oszacować, jako
70
c
$ (B jA ) = = 2:33
30
a wśród osób z wykszta�ceniem wyzszym
80
c
$ (B jA0) = = :67
120
Zauwazmy, ze
c c
$ (A jB ) $ (B jA ) 70 ń 120
= = = 3:5
c c
$ (A jB0 ) $ (B jA0 ) 30 ń 80
Pierwszy stosunek mówi, ze iloraz szans dla średniego wykszta�cenia jest 3.5
raza wiekszy w grupie zarabiajacych ma�o od takiego ilorazu w grupie zarabiaja-
� � �
cych duzo. Drugi stosunek mówi, ze iloraz szans dla niskiego dochodu jest 3.5
raza wiekszy w grupie osób o średnim wykszta�ceniu od takiego ilorazu dla osób z
�
wyzszym wykszta�ceniem. Podsumowujac, jest silny zwiazek miedzy niskim wyk-
� � �
szta�ceniem a niskim dochodem. Liczba 3.5 jest miara si�y tego zwiazku.
� �
Z poprzedniego przyk�adu wynika potrzeba zde& niowania nowego pojecia.
�
De& nicja 2.22 (iloraz krzyzowy) Dana jest para cech binarnych (X; Y ) : Ilo-
razem krzyzowym dla tych cech nazywamy liczbe�
p11p22
� = � (X; Y ) = ;
p12p21
gdzie pij = P (X = xi; Y = yj) ; i; j = 1; 2
Estymator ilorazu krzyzowego z tablicy kontyngencji
y1 y2
x1 n11 n12
x2 n21 n22
bedzie postaci
�
n11n22
b b
� = � (X; Y ) =
n12n21
lub, gdy dysponujemy ma�a liczba obserwacji
�
(n11 + 0:5) (n22 + 0:5)
e e
� = � (X; Y ) =
(n12 + 0:5) (n21 + 0:5)
Statystyczne modele danych jakościowych 25
Twierdzenie 2.23 Niech dana bedzie para cech binarnych (X; Y ): Oznaczmy:
�
pij = P (X = xi; Y = yj); i; j = 1; 2
A = fX = x1g ; B = fY = y1g
Zachodza� wtedy równości:
$(AjB ) $(BjA) $(A0jB0 ) $(B0jA0 )
1. � = = = =
$(AjB0 ) $(BjA0 ) $(A0jB ) $(B0jA )
2. Niech pńj = c1 p1j; pń = c2 p2j; c1 p1+ + c2 p2+ = 1. Wtedy pń jest
1 2j ij
rozk�adem prawdopodobieństwa dla pary (X; Y ) takim, ze odpowiadajacy mu iloraz
�
krzyzowy
pń1pń2
1 2
�ń =
pń2pń1
1 2
jest równy iloczynowi krzyzowemu �:
3. Dla kazdego � istnieje uk�ad prawdopodobieństw pij (�) taki, ze
1 1
p1+ (�) = ; p2+ (�) = ;
2 2
1 1
p+1 (�) = ; p+2 (�) =
2 2
oraz
p11 (�)p22 (�)
= �
p12 (�)p21 (�)
Uk�ad taki nazywamy standardowa reprezentacja ilorazu krzyzowego �
� �
Reprezentacja standardowa jest wyznaczona jednoznacznie ze wzoru
1
ł �
p12 (�) = p21 (�) = p ;
2 1 + �
1
p11 (�) = p22 (�) = Ą p12 (�)
2
Reprezentacja standardowa przedstawia sytuacje, gdyby doświadczenie wyko-
�
nano tak, ze zarówno cecha X jak i Y maja swoje wartości reprezentowane z
�
taka� sama� czestościa� (nie preferujemy zadnych wartości tych cech). Wtedy praw-
�
dopodobieństwa wystepujace w tablicy standardowej odzwierciedlaja� si�e zwia�zku
� � �
miedzy tymi cechami.
�
b
Reprezentacja standardowa dla estymatora ilorazu krzyzowego � wynika z
powyzszych wzorów:
ł � ł �
1
b
� q ś
p12 b = p21 � = ;
�
b
2 1 + �
ł � ł � ł �
1
b
p11 b = p22 � = Ą p12 b
� �
2
26 Statystyczne modele danych jakościowych
Przyk�ad 2.24 Cecha X wskazuje, czy osoba jest czy nie jest chora na rzadko
wystepujaca chorobe a Y czy wystepuje, czy nie wystepuje u badanej osoby spadek
� � � � � �
wagi cia�a. Ze wzgledu na ma�e prawdopodobieństwa spadku czy braku spadku
�
wagi wśród osób u których wystepuje ta choroba, moglibyśmy nie zauwazyć rzeczy-
�
wistych rozmiarów wzajemnych relacji miedzy wartościami tych cech. Wady tej
�
jest pozbawiona reprezentacja standardowa.
Przypuśćmy, ze uda�o nam sie� zebrać dane tylko od 18 osób chorych na ta�
chorobe
�
spadek wagi brak spadku wagi
chory 10 8
nie chory 300 600
10 ń 600
b
� = = 2: 5
8 ń 300
Reprezentacja standardowa tej tabeli ma postać
spadek wagi brak spadku wagi
chory :306 :194
nie chory :194 :306
co ujawnia, ze gdyby chorych by�o tyle samo, co zdrowych to iloraz szans dla
spadku wagi by�by równy 1.58 (= :306=:194) a nie 1.25 jak to by�o w naszej z
trudem zebranej próbie.
Wartość ilorazu krzyzowego � (b) mozna przedstawić za pomoca� wykresu
�
ko�owego, czy kwadratowego, pozwalajacego zobrazować si�e zwiazku miedzy cechami,
� � � �
reprezentowana przez iloraz krzyzowy. Na osi pionowej, odpowiadajacej osobom
�
chorym i osi poziomej, odpowiadajacej spadkowi wagi rysujemy kwadrat7 o boku
�
ł �
p11 b , na osi pionowej, odpowiadajacej osobom chorym ił �poziomej, odpowiada-
� osi
jacej brakowi spadku wagi rysujemy kwadrat o boku p12 b itd. Stosunek sumy
� �
pól kwadratów lewy- górny, prawy-dolny do sumy pól prawy-górny, lewy_dolny
wynosi
ł ł ��2 ł ł ��2 ł ł ��2
b
p11 b + p22 � 2 p11 b
� �
= =
ł ł ��2 ł ł ��2 ł ł ��2
b
p12 b + p21 � 2 p12 b
� �
ł � ł �
p11 b p22 b
� �
b
ł � ł �
= �
p12 b p21 b
� �
Zgodnie z teoria� percepcji ogladajac obiekty na p�aszczyznie porównujemy ich
� �
wielkości poprzez porównanie pól. Tak wiec nasz wykres, poprzez porównanie
�
pól kwadratów, dobrze ilustruje wielkość ilorazu krzyzowego.
7
Mozo to być ćwiartka ko�a o tym promieniu
Statystyczne modele danych jakościowych 27
chory
spadek nie spadek
nie chory
b
Kiedy obliczamy estymator � ilorazu krzyzowego � interesować nas musi rozk�ad
prawdopodobieństwa tego estymatora. Pozwoli nam to na zbudowanie przedzia�u
ufności, co umozliwi testowanie hipotezy o prawdziwej wartości ilorazu krzyzowego.
Twierdzenie 2.25 W tablicy kontyngencji dla binarnych cech (X;łY� o rozk�adach
)
b
dwumianowym, Poissona lub wielomianowym, zmienna losowa ln � ma, asymp-
b
totycznie przy n ! 1 rozk�ad N (ln (�) ; �), gdzie
s�
ś
1 1 1 1
b
� = + + +
n11 n12 n21 n22
Wniosek 2.26 Przedzia� ufności na poziomie 1 Ą � dla ln (�) ma postać:
� � ś � ś ś
ł � ł �
� �
b b
b b
ln � Ą z 1 Ą �; ln � + z 1 Ą � ;
2 2
ł �
� �
gdzie z 1 Ą jest kwantylem rzedu 1 Ą dla standardowego rozk�adu normal-
�
2 2
nego8.
Stwierdzenie to jest równowazne temu, ze przedzia� ufności dla � jest postaci
� � � ś ś � � ś śś
� �
b b
b b
� exp Ąz 1 Ą � ; � exp z 1 Ą �
2 2
Przyk�ad 2.27 (kontynuacja przyk�adu 2.24).
b
Wartość � obliczamy ze wzoru
s�
ś
1 1 1 1
b
� = + + + =
n11 n12 n21 n22
s�
ś
1 1 1 1
= + + + = : 479 58
10 8 300 600
8
Dla � = 0:05 kwantyl ten wynosi 1:96 a dla � = 0:01 kwantyl ten wynosi 2:58
28 Statystyczne modele danych jakościowych
Przedzia� ufności dla � na poziomie 0:95 bedzie mia� postać:
�
� � � ś śś
�ś bś b � � �
b
b
� exp Ąz 1 Ą � ; � exp z 1 Ą �
2 2
= (2:5 exp (Ą1:96 ń : 479 58); 2:5 exp (1:96 ń : 479 58))
= (: 976 59; 6: 399 8)
Wskazuje to na olbrzymi zakres mozliwych wartości ilorazu krzyzowego. Odpowiedzialne
za to sa� nadzwyczaj ma�e ilości obserwacji zwiazanych z osobami chorymi.
�
Niezalezność i jednorodność cech mozna �atwo wyrazić poprzez iloraz krzyzowy.
Twierdzenie 2.28 Cechy X o poziomach fx1; x2; :::; xIg i Y o poziomach fy1; y2; :::; yJg ;
majacych �aczny rozk�ad prawdopodobieństwa
� �
pij = P (X = xi; Y = yj) ; i = 1; 2; :::; I; j = 1; 2; :::; J
sa� niezalezne wtedy i tylko wtedy, gdy kazdy iloraz krzyzowy
0
pijpi j0
� (i; j; i0; j0) = ; i; i0 = 1; 2; :::; I; j; j0 = 1; 2; :::; J
0 0
pi jpij
jest równy 1.
Sprawdzenie niezalezności za pomoca� ilorazów krzyzowych wymaga wiec sprawdzenia
�
(IJ )2 warunków. Uciazliwość tej procedury mozna znaczaco zmniejszyć.
� �
Twierdzenie 2.29 Cechy X i Y sa niezalezne wtedy i tylko wtedy, gdy kazdy
�
iloraz krzyzowy
p11pij
� (1; 1; i; j) = ; i = 2; 3; :::; I; j = 2; 3; :::; J
p1jpi1
jest równy 1.
W szczególności, gdy X i Y sa� cechami binarnymi to ich niezalezność jest
równowazna temu, ze ich iloraz krzyzowy jest równy 1.
Analogiczne wyniki dotycza jednorodności rozk�adów
�
Twierdzenie 2.30 Cecha X o poziomach fx1; x2; :::; xIg jest grupujaca. Rozk�ad
�
cechy Y o poziomach fy1; y2; :::; yJg ; ma rozk�ad prawdopodobieństwa
pij = P (Y = yjj X = xi; ) ; i = 1; 2; :::; I; j = 1; 2; :::; J
Rozk�ad cechy Y jest jednorodny wzgledem X to znaczy taki, ze
�
8j=1;2;:::;J p1j = p2j = ::: = pIj
wtedy i tylko wtedy, gdy kazdy iloraz krzyzowy
pijpi0
j0
� (i; j; i0; j0) = ; i; i0 = 1; 2; :::; I; j; j0 = 1; 2; :::; J
0 0
pi jpij
jest równy 1.
Statystyczne modele danych jakościowych 29
Twierdzenie 2.31 Rozk�ad cechy Y jest jednorodny wzgledem X wtedy i tylko
�
wtedy, gdy kazdy iloraz krzyzowy
p11pij
� (1; 1; i; j) = ; i = 2; 3; :::; I; j = 2; 3; :::; J
p1jpi1
jest równy 1.
Iloraz krzyzowy estymujemy na podstawie tablicy kontyngencji. W takim
razie wazny jest problem, czy estymator ilorazu krzyzowego wskazuje na danym
poziomie istotności, ze prawdziwa wartość tego ilorazu jest równa 1. Odpowiedz
na to pytanie wynika natychmiast z twierdzenia 2.25.
Twierdzenie 2.32 Statystyka testowa do testowania hipotez
H0 : � = 1;
H1 : � = 1 (� < 1) (� > 1)
6
oparta jest na statystyce testowej
b
ln �
z =
b
�
majacej asymptotycznie standardowy rozk�ad normalny.
�
Hipoteze� H0 odrzucamy na rzecz hipotezy H1 gdy zachodza� odpowiednie nierówności
� ś
�
jzj > z 1 Ą ;
2
z < Ąz (1 Ą �) ;
z > z (1 Ą �)
gdzie z (u) jest kwantylem rzedu u standardowego rozk�adu normalnego.
�
Przyk�ad 2.33 (kontynuacja przyk�adu 2.24)
Zbadamy, czy zachorowanie na analizowana� chorobe� i spadek wagi sa� od siebie
niezalezne. Obliczyliśmy, ze estymator ilorazu krzyzowego ma w tym przypadku
b
b
wartość � = 2:5; � = : 479 58. Wartość statystyki z jest równa
b
ln � ln 2:5
z = = = 1: 910 6
b
� : 479 58
Poziom krytyczny dla hipotez
H0 : � = 1;
H1 : � = 1
6
jest równy
p = P (jZj > 1: 910 6) = :0561
co prowadzi do konkluzji, ze dysponujemy s�abymi argumentami za odrzuceniem
hipotezy zerowej a wiec s�abymi argumentami za uznaniem zalezności miedzy za-
� �
chorowaniem na analizowana� chorobe� i spadkiem wagi, mimo wydawa�oby sie�
b
duzej wartości �:
30 Statystyczne modele danych jakościowych
Rozdzia� 3
Modele logitowe
31
32 Modele logitowe
W dwóch kolejnych rozdzia�ach bedziemy rozwazać modele prawdopodobieństw
�
lub liczebności zdarzeń jako funkcji innych zmiennych. Stworzenie takich mod-
eli jest o tyle k�opotliwe, ze zastosowanie klasycznej teorii regresji z b�edami
�
modelu, majacymi rozk�ad normalny nie jest w tym przypadku mozliwe. Praw-
�
dopodobieństwa bowiem ograniczone sa do przedzia�u (0; 1) a wartości bliskie
�
krańcom skali maja szczególne znaczenie. Znacznie trudniej jest uzyskać wzrost
�
prawdopodobieństwa o 0:01 gdy obserwujemy zdarzenie o prawdopodobieństwie
0:95 niz wtedy, gdy obserwujemy zdarzenie o prawdopodobieństwie 0:6. Rozwiazanie
�
tego zagadnienia moze u�atwić przedstawienie prawdopodobieństwa w innej skali(
patrz Dodatek A)
Modele logitowe dla zmiennych liczbowych
Modele logitowe sa� modelami regresyjnymi, opisujacymi relacje miedzy zmienna�
� � �
wynikowa� dychotomiczna�1 a zmiennymi objaśniajacymi. W modelu tym in-
�
teresuje nas regresja, najlepiej liniowa, miedzy prawdopodobieństwem sukcesu,
�
wyrazonym w skali logitowej a zmiennymi objaśniajacymi2.
�
Przyk�ad 3.1 (Ciśnienie) (zród�o, [1] str. 93)
Mieszkańcy Framingham (Massachusetts), mezczyzni w wieku 40-60 lat, byli
�
obserwowani przez 6 kolejnych lat. Notowano, czy w tym czasie zachorowali na
wieńcowa� chorobe� serca. Zbadamy, jaki wp�yw na prawdopodobieństwo zachorowa-
nia moze mieć poziom ciśnienia krwi
ciśnienie chorzy zdrowi probit
3
112 3 153 ln = Ą3: 93
153
17
122 17 235 ln = Ą2: 63
235
12
132 12 272 ln = Ą3: 12
272
16
142 16 255 ln = Ą2: 77
255
12
152 12 127 ln = Ą2: 36
127
8
162 8 77 ln = Ą2: 26
77
16
177 16 83 ln = Ą1: 65
83
8
192 8 35 ln = Ą1: 48
35
Regresja liniowa okaza�a sie dobrym modelem relacji ciśnienie - logit:
�
1
tzn, majaca dwie wartości; jedna z nich tradycyjnie nazywa sie sukcesem
� �
2
Dla niektórych danych zamiast skali logitowej trzeba uzyć innej skali prawdopodobieństw,
na przyk�ad probitowej czy tez podwójnie logarytmicznej.
Modele logitowe 33
REGRESJA LOGITOWA
0,00
100 110 120 130 140 150 160 170 180 190 200
-0,50
-1,00
y = 0,0267x - 6,503
R2 = 0,8572
-1,50
-2,00
-2,50
-3,00
-3,50
-4,00
-4,50
CISNIENIE
Wspó�czynnik determinacji modelu wynosi 0:8572 co wskazuje na dobre jego
dopasowanie do danych. Jak widać z wykresu, jedynie dwa punkty, odpowiadajace
�
dwom najnizszym wartościom ciśnienia odbiegaja� istotnie od prostej logitowej.
Model, który uzyskaliśmy ma postać
lgt = Ą6:503 + 0:0237 c
gdzie c oznacza ciśnienie krwi. Wzrost tego ciśnienia o 1 jednostke powoduje
�
wzrost logitu o 0:0237 co oznacza, ze iloraz krzyzowy dla zachorowania i dla danego
ciśnienia przy jego wzroście o 1 jednostke� wynosi exp (0:0237) = 1: 024:Zwiekszenie
�
ciśnienia o 1 jednostke powoduje zwiekszenie ilorazu szans zachorowania o 2%.
� �
Majac model logitowy odwracajac skale mozemy narysować relacje miedzy cis-
� � � � �
nieniem a prawdopodobieństwem zachorowania
REGRESJA LOGITOWA
0,250
prawdopodobieństwa rzeczywiste
prawdopodobieństwa oszacowane
0,200
0,150
0,100
0,050
0,000
100 110 120 130 140 150 160 170 180 190 200
CIRNIENIE
Moglibyśmy w tej sytuacji zastosować regresje� probitowa. Jest ona nawet
�
nieco lepiej dopasowana do danych (wspó�czynnik determinacji jest równy 0:8781).
LOGIT
PRAWDOPODOBIEŃSTWO
34 Modele logitowe
Praktyczna jednak �atwość wykorzystania regresji logitowej rekompensuje nieco
lepszy model probitowy. Dla ilustracji pokazemy relacje miedzy ciśnieniem a praw-
� �
dopodobieństwem, uzyskanym z modelu probitowego.
REGRESJA PROBITOWA
0,250
prawdopodobieństwa rzeczywiste
prawdopodobieństwa oszacowane
0,200
0,150
0,100
0,050
0,000
100 110 120 130 140 150 160 170 180 190 200
CIRNIENIE
Twierdzenie 3.2 W regresji logitowej liczba stopni swobody w teście zgodności
G2 lub �2 jest równa liczbie wystepujacych w danych logitów minus liczba parametrów
� �
w modelu regresyjnym.
Dowód. Zgodnie z technika wyznaczania liczby stopni swobody w testach
�
zgodności, jest ona równa liczbie wolnych parametrów w hipotezie konkurencyjnej
minus liczba wolnych parametrów w hipotezie zerowej. W naszym przypadku
w hipotezie konkurencyjnej jest tyle parametrów, ile jest logitów do oszacowa-
nia. W hipotezie zerowej, opisujacej dane za pomoca równania regresji jest tyle
� �
parametrów, ile wystepuje w tym równaniu.
�
Regresja logitowa ze zmiennymi nominal-
nymi
Regresja logitowa moze znalezć zastosowanie równiez wtedy, gdy niektóre zmi-
enne objaśniajace sa� nominalne. Kazdej zmiennej nominalnej przyporzadku-
� �
jemy tyle zmiennych indykatorowych, ile róznych wartości ma dana zmienna.
Po wprowadzeniu takich zmiennych budujemy zwyk�y model regresji logitowej
De& nicja 3.3 Niech zmienna nominalna X ma wartości fx1; x2; :::; xIg. Zmien-
(2)
nymi indykatorowymi, odpowiadajacymi X; nazywamy zmienne liczbowe X(1); X ; :::;
�
(i)
X(IĄ1)o wartościach f0; 1g, takie, ze X = 1 () X = xi
PRAWDOPODOBIEŃSTWO
Modele logitowe 35
Przyk�ad 3.4 (kontynuacja przyk�adu 2.19)
Interesuje nas jak prawdopodobieństwo uzyskania lepszego wyniku zalezy od
p�ci i zastosowanej terapii. Przekszta�ćmy tabele tak, aby przygotować dane do
�
obliczeń
(a)
nijk prawdop lg t P(k) T
P T pij
21 21
k a = : 778 ln = 1: 253 1 1
27 6
13 13
p = : 406 ln = Ą: 379 1 0
32 19
7 7
m a = : 500 ln = :000 0 1
14 7
1 1
p = :091 ln = Ą2: 303 0 0
11 10
Równanie regresji logitowej be�dzie mia�o postać
( (
lgt (pij) = � + Ż(P)Pijk) + Ż(T )Tija)
Po zastosowaniu metody najmniejszych kwadratów otrzymamy nastepujace esty-
� �
matory
d) )
(T
b
� = Ą1:9037; Ż(P = 1:4687; = 1:7817 (3.1)
Z tych estymatorów mozemy oszacować logity i prawdopodobieństwa oraz oczeki-
wane liczebności
c d
lgt prawdop
c
P T pij
1
k a Ą1:9037 + 1:4687 + 1:7817 = 1: 346 7 = : 794
1+exp(Ą1: 346 7)
1
p Ą1:9037 + 1:4687 = Ą: 435 = : 393
1+exp(: 435)
1
m a Ą1:9037 + 1:7817 = Ą: 122 = : 470
1+exp(: 122)
1
p Ą1:9037 = Ą1: 903 7 = : 130
1+exp(1: 9037)
d
nijk W nijk W
P T z l P T z l
k a 27 Ą 21: 438 = 5: 562 27 ń : 794 = 21: 438 k a 6 21
p 32 Ą 12: 576 = 19: 424 32 ń : 393 = 12: 576 p 19 13
m a 14 Ą 6: 58 = 7: 42 14 ń : 470 = 6: 58 m a 7 7
p 11 Ą 1: 43 = 9: 57 11 ń : 130 = 1: 43 p 10 1
G2 W
P T z l
6 21
k a 6 ln = : 454 81 21 ln = Ą: 433 49
5:562 21: 438
19 13
p 19 ln = Ą: 419 34 13 ln = : 437 27
19: 424 12: 57
7 7
m a 7 ln = Ą: 407 88 7 ln = : 433 13
7: 42 6: 58
10 1
p 10 ln = : 439 52 1 ln = Ą: 357 67
9: 57 1: 43
G2 = : 292 7. Dla 1 stopni swobody (1 = 4 Ą 3) poziom krytyczny, odpowiada-
jacy G2 = : 292 7 wynosi 0:5885 co oznacza niez�e dopasowanie do danych.
�
Parametry równania regresji 3.1 pozwalaja odpowiedzieć na niektóre pytania
�
36 Modele logitowe
� Jaki wp�yw ma p�eć na prawdopodobieństwo wyleczenia?
d
Róznica logitów dla kobiet i mezczyzn przy tej samej terapii wynosi Ż(P) =
�
1:4687, co oznacza ze stosunek szans lepszego wyniku jest dla kobiet exp (1:4687) =
4: 3 raza wiekszy niz dla me�zczyzn
�
� Jaki wp�yw ma terapia na prawdopodobieństwo wyleczenia?
Róznica logitów dla terapii aktywnej i placebo dla tej samej p�ci chorego
d
wynosi Ż(T) = 1:7817, co oznacza ze stosunek szans lepszego wyniku jest dla
terapii aktywnej exp (1:7817) = 5: 9 raza wiekszy niz dla placebo.
�
Regresja logitowa ze zmiennymi porzad-
�
kowymi
Czesto zmienna wynikowa ma wiecej niz dwie wartości. Jeśli te wartości wys-
� �
tepuja� w skali porzadkowej, to do opisania ich zaleznosci stosuje sie model pro-
� � �
porcjonalnych szans.
Model ten jest seria� modeli logitowych, uporzadkowanych wed�ug stopnia
�
narastania intensywności cechy wynikowej. Na przyk�ad, gdy cecha wynikowa
X ma wartości ma�y, średni, duzy, olbrzymi uporzadkowane to modele logitowe
�
by�yby utworzone wed�ug narastajacych poziomów dychotomicznych: ma�y/wiecej
� �
niz ma�y; co najwyzej średni/wiecej niz średni;co najwyzej duzy/wiecej niz duzy;
� �
mniej niz olbrzymi/olbrzymi
Proporcjonalność szans polega na tym, ze wszystkie te modele tworza równoleg�e
�
hiperp�aszczyzny regresji. Oznacza to taki sam wp�yw zmiennych objaśniaja-
�
cych w kazdej klasie intensywności cechy wynikowej. Zmiany prawdopodobieństw
cechy wynikowej w tych klasach sa� niezalezne od cech objaśniajacych.
�
Dzia�anie modelu proporcjonalnych szans wyjaśnimy na przyk�adzie.
Przyk�ad 3.5 (kontynuacja przyk�adu 2.19) Przypomnimy dane:
nijk W
P T z u i
k a 6 5 16
p 19 7 6
m a 7 2 5
p 10 0 1
Rozbijemy te� tablice� na dwie, zawierajace dychotomiczne podzia�y zmiennej W :
�
z=l; Ąu=i, gdzie l oznacza wyniki lepsze (umiarkowane lub istotne), Ąu wyniki co
najwyzej umiarkowane.
Modele logitowe 37
nijk W nijk W
P T z l P T Ąu i
k a 6 21 k a 11 16
p 19 13 p 26 6
m a 7 7 m a 9 5
p 10 1 p 10 1
Napiszemy model proporcjonalnych szans dla tych tablic
ł �
(k;1) (
lgt p(1) = �1 + Ż(P )Pij + Ż(T)Tija;1)
ij
ł �
(k;2) (
lgt p(2) = �2 + Ż(P )Pij + Ż(T)Tija;2)
ij
2)
W tych wzorach p(1); p(j oznaczaja� prawdopodobieństwa odpowiednio wyniku z i
ij i
( (k;2)
Ąu w tablicach 1 i 2; Pijk;1); Pij zmienne (indykatorowe) odpowiadajace p�ci w
�
( (
tablicach; Tija;1); Tija;2)zmienne odpowiadajace terapii.
�
Wprowadzajac dwie zmienne indykatorowe C(1); C(2) wskazujace na numer
� �
tablicy mozna oba równania zapisać za pomoca jednego, co umozliwia wykorzys-
�
tanie standardowego oprogramowania
ł �
lgt p(r) = �1C(1) + �2C(2) + Ż(P)Pi(k;r) + Ż(T)Ti(a;r)
ij j j
Dane z tablicy, które umozliwiaja estymacje modelu przyjma teraz postać:
� � �
( (
lgt Pijk;r) Tija;r) C(1) C(2)
P T
k a Ą1:253 1 1 1 0
p :379 1 0 1 0
m a :000 0 1 1 0
p 2:303 0 0 1 0
k a Ą:375 1 1 0 1
p 1:466 1 0 0 1
m a :588 0 1 0 1
p 2:303 0 0 0 1
Parametry wyznaczone z tych danych metoda najmniejszych kwadratów sa
� �
nastepujace
� �
�1 = 1:91575; �2 = 2:55400; Ż(P ) = Ą1:24425; Ż(T) = Ą1:87275
Model regresyjny dobrze pasuje do danych - jego wspó�czynnik determinacji wynosi
0:9502.
Co mozna odczytać z danych?
Dla mezczyzn leczonych placebo, iloraz szans z�ych do lepszych wyników wynosi
�
exp (1:91575) = 6:8, natomiast iloraz szans wyników co najwyzej umiarkowanych
do istotnych wynosi exp (2:55400) = 12:9: Obie te wielkości nalezy pomnozyć przez
exp (Ą1:24425) = : 29 gdy badana osoba jest kobieta, a przez exp (Ą1:87275) = :
� �
38 Modele logitowe
15 gdy zastosowano terapie aktywna. Na przyk�ad, gdy zastosuje sie terapie akty-
� � � �
wna u mezczyzn to iloraz szans z�ych do lepszych wyników wynosi 6:8 ń : 15 = 1: 0
� �
natomiast iloraz szans wyników co najwyzej umiarkowanych do istotnych wynosi
2:9 ń : 15 = 1: 9, co jak widać dobrze świadczy o zastosowanej terapii. Dla kobiet,
leczonych aktywnie, te wyniki sa jeszcze lepsze: w pierwszym przypadku wynosza
� �
1: 0 ń : 29 = :29 a w drugim 1: 9 ń : 29 = : 55 co wskazuje na przewage praw-
�
dopodobieństwa wyników lepszych nad gorszymi na kazdym poziomie oczekiwań.
Rozdzia� 4
Modele logarytmiczno-liniowe
39
40 Modele logarytmiczno-liniowe
W poprzednich rozdzia�ach rozwazaliśmy sytuacje, w których interesowa�a
nas zalezność czy niezalezność pary cech. Jezeli do pary cech do�aczy trzecia,
�
to powstaje uk�ad, który jest bardziej skomplikowany, niz by to sie z pozoru
�
wydawa�o. Jednym z przejawów tej komplikacji jest tzw paradoks Simpsona1.
Paradoks ten polega na tym, ze dla trzech zdarzeń A; B;C jest mozliwy uk�ad
nierówności
P (A jB \ C ) < P (A jBc \ C ) ; P (A jB \ Cc ) < P (A jBc \ Cc )
ale P (A jB ) > P (A jBc )
Paradoks ten ostrzega nas, ze w rozwazaniu relacji zdarzeń nie wystarczy
udowodnić, ze dana relacja zachodzi dla wszystkich przypadków (tu C i Cc).
Konkluzja, jak widać moze być inna.
Przyk�ad 4.1 (Paradoks Simpsona) (zród�o:[1] str.136)
Obrońca O& ara Kara śmierci
Tak Nie
Bia�y Bia�y 19 132
Murzyn 0 9
Murzyn Bia�y 11 52
Murzyn 6 97
Tabela 4.1 Kara śmierci i rasa
Niech A= orzeczono kare� śmierci , B= Obrońca jest Bia�y , C= O& ara� jest
Bia�y . �atwo obliczyć odpowiednie prawdopodobieństwa
19 17
P (A jB ) = = : 119; P (A jBc ) = = : 102 ; P (A jB ) > P (A jBc )
160 166
19 11
P (A jB \ C ) = = : 126; P (A jBc \ C ) = = : 175;
151 63
0 6
P (A jB \ Cc ) = = 0; P (A jBc \ Cc ) = = : 059;
9 103
P (A jB \ C ) < P (A jBc \ C ) ; P (A jB \ Cc ) < P (A jBc \ Cc )
De& nicja 4.2 Dana jest tablica wyników obserwacji trzech cech X; Y; Z:
Niech pijk = P (X = xi; Y = yj; Z = zk), oraz niech mijk = n pijk (mijk jest
oczekiwana liczba obserwacji w komórce tabeli)
� �
De& nicja 4.3 (Model logarytmiczno-liniowy) Modelem logarytmiczno-liniowym
nazywamy taki, w którym
ln mijk = ą + �X + �Y + �Z + �XZ + �XY + �Y Z + �X Y Z (4.1)
i j k ik ij jk ijk
1
Nazwa tego paradoksu pochodzi od artyku�u, opublikowanego przez E.H. Simpsona w 1951,
choć zjawisko to by�o znane wcześniej, np by�o omawiane przez Yule a w 1903.
Modele logarytmiczno-liniowe 41
X Y Z
z1 z2
x1 y1 n111 n112
y2 n121 n122
x2 y1 n211 n212
y2 n221 n222
Tabela 4.2 Tablica wyników obserwacji
oraz
X X X
�X = 0; �Y = 0; �Z = 0; (4.2)
i j k
i j
k
X X
�XY = 0; �XY = 0;
ij ij
i j
X X
Z
�Yk = 0; �Y Z = 0;
j jk
j k
X X
�XZ = 0; �XZ = 0;
ik ik
i k
X X X
�XY Z = 0; �XY Z = 0; �XY Z = 0;
ijk ijk ijk
i j
k
Wielkości �X; �Y ; �Z nazywamy efektami g�ównymi, �XZ; �XY ; �Y Z efektami in-
i j k ik ij jk
terakcji ( interakcjami) rzedu 2, �XY Z efektami interakcji ( interakcjami) rzedu
� �
ijk
3.
Zapis ln mijk w postaci równań 4.1 i 4.2 nazywamy zapisem bilansowym. Zapis
bilansowy jest uk�adem równań liniowych.
Twierdzenie 4.4 Dla kazdego uk�adu fmijkg istnieje dok�adnie jeden zapis bi-
lansowy.
De& nicja 4.5 Rozróznia sie modele logarytmiczno-liniowe:
�
Model ln mijk
[XY Z] ą + �X + �Y + �Z + �XZ + �XY + �YkZ + �XY Z
i j k ik ij j ijk
[XZ][X Y ][Y Z] ą + �X + �Y + �Z + �XY + �XZ + �YkZ
i j k ij ik j
[XZ][Y Z] ą + �X + �Y + �Z + �XZ + �Y Z
i j k ik jk
[XY ][Z] ą + �X + �Y + �Z + �XY
i j k ij
[X][Y ][Z] ą + �X + �Y + �Z
i j k
[] ą
Tabela 4.3 Modele logarytmiczno-liniowe
Model [XY Z] nazywa sie modelem nasyconym, model [] - sta�ym2.
�
2
W modelu sta�ym wszystkie prawdopodobieństwa pijk sa� równe.
42 Modele logarytmiczno-liniowe
Modele logarytmiczno liniowe, w przeciwieństwie do modeli logitowych, nie
wyrózniaja zadnej z cech. Ich zadaniem jest stworzenie jak najprostszego modelu,
�
objaśniajacego zwiazki miedzy wystepujacymi cechami.
� � � � �
Twierdzenie 4.6 Rózne modele logarytmiczno-liniowe reprezentuja� rózne typy
zalezności miedzy cechami
�
Model Typ zalezności pijk
pi+k p+jk
[XZ][Y Z] X?Y jZ
p++k
[XY ][Z] (X; Y ) ?Z pij+p++k
[X][Y ][Z] X?Y ?Z pi++ p+j+p++k
Tabela 4.4 Modele zalezności
Dowód. [XZ][Y Z] :
ln mijk = ą + �X + �Y + �Z + �XZ + �Y Z ()
i j k ik jk
n pijk = � ŻXŻY ŻZŻXZ ŻY Z
i j k ik jk
X
npi+k = � ŻXŻZŻXZ ŻY ŻY Z;
i k ik j jk
j
X
np+jk = �ŻY ŻZ ŻY Z ŻXŻXZ;
j k jk i ik
i
X X
np++k = �ŻZ ŻY ŻY Z ŻXŻX Z;
k j jk i ik
j i
P
X
�ŻY ŻZŻY Z ŻXŻXZ
pi+kp+jk
n = � ŻXŻZŻXZ ŻY ŻY Z j k jk Z i i ik =
P P
i k ik j jk
p++k
�ŻZ j ŻY ŻY i ŻXŻXZ
j k j jk i ik
= � ŻXŻY ŻZŻXZ ŻY Z = n pijk
i j k ik jk
[XY ][Z] :
ln mijk = ą + �X + �Y + �Z + �XY () n pijk = � ŻXŻY ŻZŻXY
i j k ij i j k ij
X
n pij+ = � ŻXŻY ŻZŻXY ; n p++k = � ŻZ ŻXŻY ŻXY ;
i j + ij k i j ij
ij
X
n = n p+++ = � ŻZ ŻXŻY ŻX Y
+ i j ij
ij
P
� ŻZ ŻXŻY ŻXY
n pij+ p++k = � ŻXŻY ŻZŻXY k ij i j ij =
i j + ij
n
P
� ŻZ ŻXŻY ŻXY
= � ŻXŻY ŻZŻXY k ij i j ij = n pijk
P
i j + ij
� ŻZ ij ŻXŻY ŻXY
+ i j ij
[X][Y ][Z] :
Modele logarytmiczno-liniowe 43
ln mijk = ą + �X + �Y + �Z () n pijk = � ŻXŻY ŻZ
i j k i j k
n pi++ = � ŻXŻY ŻZ ; n p+j+ = � ŻXŻY ŻZ; n p++k = � ŻXŻY ŻZ
i + + + j + + + k
n = n p+++ = � ŻXŻY ŻZ
+ + +
� ŻXŻY ŻZ
� ŻXŻY ŻZ
n pi++p+j+p++k = � ŻXŻY ŻZ + j + + + k =
i + +
n n
� ŻXŻY ŻZ
� ŻXŻY ŻZ
= � ŻXŻY ŻZ + j + + + k = � ŻXŻY ŻZ = n pijk
i + +
� ŻXŻY ŻZ � ŻXŻY ŻZ i j k
+ + + + + +
Wniosek 4.7 W modelu [XZ][Y Z] cechy X i Y sa niezalezne warunkowo, to
�
znaczy
pijjk = pi+jk p+jjk
Dowód.
pijk pi+kp+jk pi+k p+jk
pijjk = = = = pi+jkp+jjk
p++k p++k p++k
(p++k)2
Wniosek 4.8 W modelu [XY ][Z] zachodza relacje: X?Z; Y ?Z
�
P P
Dowód. pi+k = pijk = pij+p++k = pi++ p++k. Podobnie,
j
P Pj
p+jk = pijk = pij+p++k = p+j+ p++k
i i
Uwaga 4.9 Relacja Y ?Z jX nie implikuje relacji Y ?Z
Dowód. Dla dowodu wystarczy podać przyk�ad .
Tablica przedstawia prawdopodobieństwa dla uk�adu trzech cech:
X wykszta�cenie {s - ścis�e, h - humanistyczne},
Y p�eć {k - kobieta, m -mezczyzna}
�
Z zarobki {w - wysokie, n - niskie}
X Y Z
w n
s k :08 :02
m :32 :08
h k :12 :18
m :08 :12
Y ?Z jX = s gdyz w tym przypadku tablica prawdopodobieństw sprowadza
sie do tablicy
�
44 Modele logarytmiczno-liniowe
Y Z
w n
,
k :16 :04
m :64 :16
:16ń:16
dla której iloraz krzyzowy wynosi � = = 1 co oznacza niezalezność.
:64ń:04
Podobnie,
Y ?Z jX = h. W tym przypadku tablica prawdopodobieństw ma postać
Y Z
w n

k :24 :36
m :16 :24
:24ń:24
dla której iloraz krzyzowy wynosi � = = 1 co równiez oznacza nieza-
:16ń:36
lezność. Natomiast tabela prawdopodobieństw dla pary cech (Y; Z), gdy nie
znamy wartości X przedstawia sie nastepujaco:
� � �
Y Z
w n
,
k :20 :20
m :40 :20
:20ń:20
dla której iloraz krzyzowy wynosi � = = :50; co oznacza, ze te cechy sa
�
:40ń:20
zalezne.
Lemat 4.10 Stopnie swobody dla modeli prostych:
P1 : ln (mijk) = ą;
P2 : ln (mijk) = �X;
i
P3 : ln (mijk) = �XY ;
ij
P4 : ln (mijk) = �XY Z
ijk
wynosza odpowiednio: 1; I Ą 1; (I Ą 1) (J Ą 1) ; (I Ą 1)(J Ą 1)(K Ą 1)
�
Dowód. Liczba wolnych parametrów w modelu P1 wynosi 1; gdyz w tym
przypadku nie ma zadnych ograniczeń na wartość ą:
W modelu P2 liczba wolnych parametrów wynosi I Ą 1 gdyz mamy jedno
PI
ograniczenie �X = 0:
i=1 i
W modelu P3 liczba wolnych parametrów moze być wyznaczona z tabeli
�XY ... �XY ... * 0
11 1j
... ... ... ... ... ...
�XY ... �XY ... * 0
i1 ij
... ... ... ... ... ...
* * * ... * 0
0 ... 0 ... 0 0
pamietajac, ze suma �XY w wierszach i kolumnach jest równa 0, skad wynika,
� � �
ij
ze wystarczy wype�nić pola w miejscach nie zaznaczonych *. Pola z * musza� byc
Modele logarytmiczno-liniowe 45
wype�nione taka wartościa, aby suma wartości �XY w wierszach i kolumnach by�a
� �
ij
równa 0. Takich pól jest (I Ą 1) (J Ą 1) :
Podobnie w modelu P4, tylko w tym przypadku mamy tablice trójwymiarowa,
� �
z ostatnimi wierszami/kolumnami/warstwami wype�nionymi *, stad liczba stopni
�
swobody równa (I Ą 1) (J Ą 1) (K Ą 1).
Twierdzenie 4.11 Estymatory najwiekszej wiarygodności dla liczby obserwacji
�
w polach tablic wielodzielczych, odpowiadajacych efektom w modelu M o rozk�adzie
�
wielomianowym lub Poissona sa� równe obserwowanej liczbie obserwacji dla efek-
tów. Estymatory te sa� wyznaczone jednoznacznie.
Dowód. Dowód przeprowadzimy na przyk�adzie rozk�adu wielomianowego i
modelu [XY ][Y Z]. Dowód w kazdym innym przypadku jest analogiczny. Nasz
model oznacza zachodzenie równości
Z
ln mijk = ln (npijk) = ą + �X + �Y + �Z + �XY + �Yk
i j k ij j
Funkcja logarytmu wiarygodności w rozk�adzie wielomianowym z dok�adnoś-
cia� do sta�ych ma postać
X
nijk ln pijk
ijk
co, z dok�adnościa� do sta�ych jest równe
ł �
X X
nijk ln npijk = nijk ą + �X + �Y + �Z + �XY + �Y Z
i j k ij jk
ijk ijk
W zagadnieniu estymacji nalezy obliczyć maksimum powyzszej funkcji przy ograniczeni-
ach
X X
1
1 = pijk = mijk;
n
ijk ijk
X X X
�X = 0; �Y = 0; �Z = 0;
i j k
i j
k
X X X X
�X Y = 0; �XY = 0; �Y Z = 0; �Y Z = 0
ij ij jk jk
i j j k
Potraktujemymijk jako funkcje zmiennych ą; �X; �Y ; �Z; �XY ; �Y Z. Niech u
�
i j k ij jk
bedzie jedna z tych zmiennych. Wtedy
� �
ł �
Z
@mijk @ exp ą + �X + �Y + �Z + �XY + �Yk
i j k ij j
= =
@u @u
ł �
Z
@ ą + �X + �Y + �Z + �XY + �Yk
i j k ij j
mijk
@u
@( )
ą+�X+�Y +�Z+�XY +�YkZ
i j ij
k j
Wyrazenie jest równe 1 lub 0 w zalezności od tego,
@u
czy u wystepuje, czy tez nie wystepuje wśród ą; �X; �Y ; �Z; �XY ; �Y Z:
� �
i j k ij jk
46 Modele logarytmiczno-liniowe
Uzywajac metody mnozników Lagrange a nalezy znalezć maksimum funkcji
�
ł �
X
F = nijk ą + �X + �Y + �Z + �XY + �Y Z +
i j k ij jk
ijk
X
+� mijk +
ijk
X X X
+ŻX �X + ŻY �Y + ŻZ �Z +
1 i 1 j 1 k
i j k
X X X X
+ Ż2j �XY + Ż3i �XY +
ij ij
j i i j
X X X X
+ Ż4k �Y Z + Ż5j �Y Z
jk jk
k j j k
Obliczamy pochodne wzgledem nieznanych parametrów i przyrównamy je do
�
0
@F
0 = =
@ą
X X
= nijk + � mijk =
ijk ijk
X
= n + � (npijk) = n (� + 1) =) � = Ą1
ijk
Dla �X
i
@F
0 = =
@�X
Xi X
= nijk + � mijk + ŻX =
1
jk ijk
= ni++ Ą mi++ + ŻX
1
Dodajac stronami po i powyzsza� równość, otrzymamy
�
ł �
X X
0 = ni++ Ą mi++ + ŻX = n Ą (npi++) + nŻX = nŻX
1 1 1
i i
=) ŻX = 0
1
d
Stad otrzymamy, ze dla efektu �X zachodzi równośc3ni++ = ni++:
�
i
d
Podobnie,dla efektu �Y zachodzi równośc n+j+ = n+j+;dla efektu �Z zachodzi
j k
d
równośc n++k = n++k
Analogiczne rachunki przeprowadzimy dla efektu �XY
ij
X X
@F
0 = = nijk + � mijk + Ż2j + Ż3i = (4.3)
@�XY k
ij
k
= nij+ Ą mij+ + Ż2j + Ż3i
3
b
Zawsze symbolem � oznaczać bedziemy estymator parametru �, uzyskany z maksymali-
�
zowania funkcji wiarygodności
Modele logarytmiczno-liniowe 47
Sumujac jak powyzej, najpierw po i, potem po j otrzymamy
�
0 = n+j+ Ą m+j+ + I Ż2j + Ż3+ = IŻ2j + Ż3+; (4.4)
0 = ni++ Ą mi++ + Ż2+ + JŻ3i = Ż2+ + JŻ3i
Sumujac teraz najpierw po j, potem po i otrzymamy
�
0 = IŻ2+ + JŻ3+; (4.5)
Z równań 4.4 mnozonych: pierwsze przez J, drugie przez I oraz dodanych
stronami uzyskamy
ł �
IJ Ż3i + Ż2j + IŻ2+ + J Ż3+ = 0;
co w po�aczeniu z 4.5 daje, ze Ż2j + Ż3i = 0 oraz, ze w 4.3 zachodzi równość
�
d
nij+ = nij+:
d
W analogiczny sposób mozna pokazać, ze dla efektu �Y Z, n+jk = n+jk
jk
d
Wniosek 4.12 W modelu nasyconym estymatory najwiekszej wiarygodności nijk
�
spe�niaja� równość
b
nijk = nijk
dla kazdego i; j; k:
Wniosek 4.13 Zachodza nastepujace implikacje:
� � �
b b b b
8i;j;k (nijk = nijk ) =) 8i;jnij+ = nij+; 8i;kni+k = ni+k; 8j;kn+jk = n+jk; =)
b b b
=) 8i ni++ = ni++;8j n+j+ = n+j+;8k n++k = n++k; =)
b
=) n+++ = n+++;
Dowód. Oczywisty
Modele hierarchiczne
Niech M1 bedzie danym modelem logarytmiczno liniowym.
�
De& nicja 4.14 Model M2 nazwiemy hierarchicznie podporzadkowanym modelowi
�
M1 (w skrócie - podporzadkowanym M1; M2 � M1) gdy zbiór efektów w modelu
�
M2 jest podzbiorem zbioru efektów M1.
De& nicja 4.15 Odchyleniem modelu M2 od M1 nazywamy liczbe�
1)
X X X b
n(jk
bijk i2)
G2 (M2 jM1 ) = 2 n(1) ln ;
b
n(jk
i j k
i
bijk
gdzie n(r) jest estymatorem najwiekszej wiarygodności nijk w modelu Mr (r = 1; 2).
�
48 Modele logarytmiczno-liniowe
Zauwazmy, ze odchylenie danych od modelu logarytmiczno-liniowego jest równe
odchyleniem tego modelu od modelu nasyconego.
Twierdzenie 4.16 Gdy model M1 jest prawdziwy to
G2 (M2 jM1 ) = G2 (M2) Ą G2 (M1)
Co wie�cej,
ł � ł � ł �
DF G2 (M2 jM1 ) = DF G2 (M2) Ą DF G2 (M1)
Wniosek 4.17 Jezeli dany jest ciag hierarchicznie podporzadkowanych modeli
� �
M0 � M1 � ::: � MkĄ1 � Mk
gdzie M0 jest modelem nasyconym oraz modele M0; M1; :::; MkĄ1 sa prawdziwe, to
�
zachodzi wzór
k
X
G2 (Mk) = G2 (Mr jMrĄ1 )
r=1
z liczba stopni swobody równa
� �
k
ł � ł �
X
DF G2 (Mk) = DF G2 (Mr jMrĄ1 )
r=1
Dowód twierdzenia. Dowód przeprowadzimy w szczególnym przypadku,
gdy
ł �
ln m(1) = ą + �X + �Y + �X Y + �XZ;
i j ij ik
ijk
ł �
ln m(2) = ą + �Y + �XZ
ijk j ik
Wtedy
1)
X b
n(jk
bijk i2)
G2 (M2 jM1 ) = 2 n(1) ln (4.6)
b
n(jk
i;j;k
i
łł � ł ��
X
1)
b
= 2 n(jk ą + �X + �Y + �XY + �XZ Ą ą + �Y + �XZ
i i j ij ik j ik
i;j;k
ł �
X X X
1) 1)
b b bij+ ij
= 2 n(jk �X + �XY = 2 n(++�X + 2 n(1) �XY :
i
i i ij i
i;j;k i i;j
Z twierdzenia 4.11 wynika, ze gdy model M1 jest prawdziwy to estymatory na-
jwiekszej wiarygodności dla liczby obserwacji, odpowiadajacych efektom �X oraz
� �
i
b bij+
�X Y sa� równe obserwowanej liczbie obserwacji. Stad n(1)+ = ni++ oraz n(1) = nij+
�
i+
ij
dla dowolnych i; j.
Modele logarytmiczno-liniowe 49
Wstawiajac ostatnie równości do wzoru 4.6 i zwijajac ten wzór od ty�u, otrzy-
� �
mamy
X X
bi++ i b
2 n(1) �X + 2 n(1) �XY
ij+ ij
i i;j
X X
= 2 ni++�X + 2 nij+�XY
i ij
i i;j
łł � ł ��
X
= 2 nijk ą + �X + �Y + �XY + �XZ Ą ą + �Y + �XZ
i j ij ik j ik
i;j;k
X
nijk X nijk
= 2 nijk ln Ą 2 nijk ln = G2 (M2) Ą G2 (M1) :
b bijk
n(2) i;j;k n(1)
i;j;k
ijk
Liczba stopni swobody w modelu M2 jM1 jest równa (patrz Lemat 4.10) (I Ą
1) + (I Ą 1)(J Ą 1), czyli róznicy
1 + (I Ą 1) + (J Ą 1) + (I Ą 1)(J Ą 1) + (I Ą 1)(K Ą 1)
i
1 + (J Ą 1) + (I Ą 1)(K Ą 1)
co dowodzi drugiej cześci tezy twierdzenia.
�
Dowód w kazdym innym przypadku jest analogiczny.
Twierdzenie 4.18 Utwórzmy ciag hierarchicznie podporzadkowanych modeli:
� �
M0 : [XY Z]
M1 : [XY ][XZ][Y Z]
M2 : [XY ][Y Z]
M3 : [XY ][Z]
M4 : [X][Y ][Z]
Wtedy
DF (M1 jM0 ) = (I Ą 1)(J Ą 1) (K Ą 1)
DF (M2 jM1 ) = (I Ą 1)(K Ą 1)
DF (M3 jM2 ) = (J Ą 1)(K Ą 1)
DF (M4 jM3 ) = (I Ą 1)(J Ą 1)
gdzie I; J; K jest liczba róznych wartości cech X; Y; Z:
�
Dowód. Model M0 (nasycony) jest postaci [XY Z], co oznacza, ze
ł �
ln m(0) = ą + �X + �Y + �Z + �XY + �X Z + �Y Z + �X Y Z
ijk i j k ij ik jk ijk
50 Modele logarytmiczno-liniowe
Model M1 postaci [XY ][XZ][Y Z] ma postać:
ł �
1)
ln m(jk = ą + �X + �Y + �Z + �XY + �XZ + �Y Z
i i j k ij ik jk
Odchylenie G2 (M1 jM0 ) jest statystyka testowa w uk�adzie hipotez:
� �
H0 : prawdziwy jest model M1;
H1 : prawdziwy jest model M0
Liczba stopni swobody dla takiego uk�adu hipotez jest róznica� DF (H1) Ą
DF (H0).
Liczba stopni swobody modelu M0 wynosi
1 + I Ą 1 + J Ą 1 + K Ą 1 + (I Ą 1)(J Ą 1) + (I Ą 1)(K Ą 1) + (J Ą 1)(K Ą 1)
+(I Ą 1)(J Ą 1)(K Ą 1)
Podobnie, liczba stopni swobody modelu M1 wynosi
1 + I Ą 1 + J Ą 1 + K Ą 1 + (I Ą 1)(J Ą 1) + (I Ą 1)(K Ą 1) + (J Ą 1)(K Ą 1):
Jak �atwo zobaczyć, róznica tych liczb wynosi (I Ą 1)(J Ą 1)(K Ą 1), czyli
jest liczba stopni swobody prostego modelu �XY Z, który wystepuje w M0 a nie
� �
ijk
wystepuje w M1. W podobny sposób mozna uzasadnić pozosta�e wzory w tezie
�
twierdzenia.
Uwaga 4.19 (praktyczna) Liczba stopni swobody w modelu warunkowym Mr+1 jMr jest
liczba stopni swobody w modelu prostym, który wystepuje w Mr a nie wystepuje
� � �
w Mr+1:
Twierdzenie 4.20 Estymatory najwie�kszej wiarygodności n(r+1) w modelach hi-
ijk
erarchicznych Mr+1 jMr (patrz Twierdzenie 4.18) wyrazaja� sie� wzorami
n(1) n(1)
ij+
+jk
n(2) =
ijk
n(1)
+j+
n(2) n(2)
ij+
++k
n(3) =
ijk
n(2)
+++
n(3) n(3) n(3)
i++ +j+ ++k
n(4) =
ł �2
ijk
n(3)
+++
1)
Estymatory n(jk mozna wyznaczyć metoda� iteracyjnego oszacowania propor-
i
cjonalnego (Dodatek A)
Modele logarytmiczno-liniowe 51
Dowód. Model M2 jM1 ;postaci [XY ][Y Z], jest modelem warunkowej nieza-
lezności X ? Z jY (Twierdzenie 4.6), co oznacza, ze
p(2) = p(2) p(2)
ikjj i+jj +kjj
czyli równowaznie
p(2) p(2) p(2)
ijk ij+ +jk
=
p(2)+ p(2) p(2)
+j +j+ +j+
Mnozac obie strony tego równania przez n(2) otrzymamy, po uproszczeniach
�
+++
p(2)
2)
n(2) = n(j+ +jk
i
ijk
p(2)
+j+
Mnozac teraz licznik i mianownik u�amka po prawej stronie przez n(2) ; otrzy-
�
+++
mamy równość:
n(2) n(2)
ij+ +jk
n(2) =
ijk
n(2)
+j+
Korzystaja�c z twierdzenia4.11 mamy, ze n(2) = n(1) ; n(2) = n(1) ; n(2) =
ij+ ij+ +jk +jk +j+
n(1)+
+j
Analogicznie, model M3 jM2 ;postaci [XY ][Z], jest modelem niezalezności pary
(X; Y ) i Z. Korzystajac znów z twierdzenia 4.6 mamy
�
p(3) = p(3) p(3)
ijk ij+ ++k
co po analogicznych operacjach, jak wyzej (mnozenie obustronne przez n(3) ,
+++
potem mnozenie i dzielenie po prawej stronie przez n(3) i wykorzystanie twierdzenia
+++
??) daje
2)
n(j+ n(2)
i ++k
n(3) =
ijk
n(2)
+++
Ostatnia równość w tezie twierdzenia uzyskuje sie w analogiczny sposób.
� �
Uwaga 4.21 (praktyczna) Wyniki, uzyskane w tym punkcie mozemy podsumować
w tabeli
Model
M0 : [XY Z]
M1 : [XY ][XZ][Y Z]
M2 : [XY ][Y Z]
M3 : [XY ][Z]
M4 : [X][Y ][Z]
52 Modele logarytmiczno-liniowe
Model Typ Estymacja DF
warunkowy zalezności
- nasycony 0
M1 jM0 - IPF (I Ą 1) (J Ą 1) (K Ą 1)
n(1) n(1)
ij+ +jk
M2 jM1 X?Z jY (I Ą 1) (K Ą 1)
n(1)+
+j
n(2) n(2)
ij+ ++k
M3 jM2 (X; Y ) ?Z (J Ą 1) (K Ą 1)
n(2)
+++
n(3) n(3) n(3)
i++ +j+
++k
ł
M4 jM3 X?Y ?Z (I Ą 1) (J Ą 1)
2
n(3)
+++
Tabela 4.5 Dopasowanie módelu hierarchicznego
Przyk�ad 4.22 (artretyzm, terapia, p�eć) (c.d. przyk�adu 2.19)
Zbadamy strukture� tych danych, stosujac model logarytmiczno-liniowy na poziomie
�
istotności 0,05
n(0) W
ijk
P T z l
k a 6 21
p 19 13
m a 7 7
p 10 1
Oszacujemy, metoda� IPF liczebności n(1) dla modelu [P W][TW ][PT ]
ijk
(0)
wijk z l
k a 1 1
p 1 1
m a 1 1
p 1 1
Najpierw dopasujemy model [PW ]
0) (0)
�i+k
n(+k wi+k
i
25
k z = 12: 5
k z 25 k z 2
2
34
l = 17: 0
l 34 l 2
2
17
m z = 8: 5
m z 17 m z 2
2
8
l = 4: 0
l 8 l 2
2
Po uwzgle�dnieniu wspó�czynnika skalujacego otrzymamy nowa� macierz:
�
(1) 1)
wijk z l w(jk z l
i
k a 1 ń 12: 5 1 ń 17: 0 k a 12: 5 17: 0
=
p 1 ń 12: 5 1 ń 17: 0 p 12: 5 17: 0
m a 1 ń 8: 5 1 ń 4: 0 m a 8: 5 4: 0
p 1 ń 8: 5 1 ń 4: 0 p 8: 5 4: 0
W drugim kroku pierwszego cyklu dopasujemy model [T W]
Modele logarytmiczno-liniowe 53
(1)
�+jk
n(0)k w+jk
+j
13
a z = : 619
a z 13 a z 12: 5 + 8: 5
21
28
l = 1: 333
l 28 l 17: 0 + 4: 0
21
29
p z = 1: 381
p z 29 p z 12: 5 + 8: 5
21
14
l = : 667
l 14 l 17: 0 + 4: 0
21
(2)
wijk z l w(2) z l
ijk
k a 12: 5 ń : 619 17: 0 ń 1: 333 k a 7: 74 22: 66
=
p 12: 5 ń 1: 381 17: 0 ń : 667 p 17: 26 11: 34
m a 8: 5 ń : 619 4: 0 ń 1: 333 m a 5: 26 5: 32
p 8: 5 ń 1: 381 4: 0 ń : 667 p 11: 74 2: 67
W trzecim kroku pierwszego cyklu dopasujemy model [PT]
0) (2)
�ij+
n(j+ wij+
i
27
k a = : 889
k a 27 k a 7: 74 + 22: 66
30: 4
32
p = 1: 119
p 32 p 17: 26 + 11: 34
28: 6
14
m a = 1: 323
m a 14 m a 5: 26 + 5: 32
10: 58
11
p = : 763
p 11 p 11: 74 + 2: 67
14: 41
(3)
wijk z l w(3) z l
ijk
k a 7: 74 ń : 889 22: 66 ń : 889 k a 6: 89 20: 14
=
p 17: 26 ń 1: 119 11: 34 ń 1: 119 p 19: 31 12: 69
m a 5: 26 ń 1: 323 5: 32 ń 1: 323 m a 6: 96 7: 04
p 11: 74ń : 763 2: 67ń : 763 p 8: 96 2: 04
Rozpoczynamy drugi cykl iteracji
Model [PW ]
(3)
�i+k
wi+k
25
k z = : 954
k z 6: 89 + 19: 31
26: 2
34
l = 1: 036
l 20: 14 + 12: 69
32: 83
17
m z = 1: 068
m z 6: 96 + 8: 96
15: 92
8
l = : 881
l 7: 04 + 2: 04
9: 08
(4)
wijk z l w(4) z l
ijk
k a 6: 89 ń : 954 20: 14 ń 1: 036 k a 6: 57 20: 86
=
p 19: 31 ń : 954 12: 69 ń 1: 036 p 18: 42 13: 15
m a 6: 96 ń 1: 068 7: 04ń : 881 m a 7: 43 6: 20
p 8: 96 ń 1: 068 2: 04ń : 881 p 9: 57 1: 80
Model [TW ]
54 Modele logarytmiczno-liniowe
(4)
�+jk
w+jk
13
a z = : 929
a z 6: 57 + 7: 43
14:0
28
l = 1: 035
l 20: 86 + 6: 20
27: 06
29
p z = 1: 036
p z 18: 42 + 9: 57
27: 99
14
l = : 936
l 13: 15 + 1: 80
14: 95
(5)
wijk z l w(5) z l
ijk
k a 6: 57 ń : 929 20: 86 ń 1: 035 k a 6: 10 21: 59
=
p 18: 42 ń 1: 036 13: 15 ń : 936 p 19: 08 12: 31
m a 7: 43 ń : 929 6: 20 ń 1: 035 m a 6: 90 6: 42
p 9: 57 ń 1: 036 1: 80ń : 936 p 9: 91 1: 68
Model [PT]
(5)
�ij+
wij+
27
k a = : 975
k a 6: 10 + 21: 59
27: 69
32
p = 1: 019
p 19: 08 + 12: 31
31: 39
14
m a = 1: 051
m a 6: 90 + 6: 42
13: 32
11
p = : 949
p 9: 91 + 1: 68
11: 59
(6)
wijk z l w(6) z l
ijk
k a 6: 10 ń : 975 21: 59 ń : 975 k a 5: 95 21: 05
=
p 19: 08 ń 1: 019 12: 31 ń 1: 019 p 19: 44 12: 54
m a 6: 90 ń 1: 051 6: 42 ń 1: 051 m a 7: 25 6: 75
p 9: 91 ń : 949 1: 68ń : 949 p 9: 40 1: 59
Obliczenia w tym modelu zatrzymujemy po dwóch cyklach4.
Przyjmiemy wiec tabele wartościami w(6) jako tabele z estymatorami n(1) dla
� � �
ijk ijk
modelu [PW ][T W ][P T]:
n(1) z l
ijk
k a 5: 95 21: 05
p 19: 44 12: 54
m a 7: 25 6: 75
p 9: 40 1: 59
G2 (M1 jM0 ) z l
ijk
6 21
k a 6 ln 21 ln
5: 95 21: 05
19 13
p 19 ln 13 ln =) G2 (M1 jM0 ) = : 395 16
ijk
19: 44 12: 54
7 7
m a 7 ln 7 ln
7: 25 6: 75
10 1
p 10 ln 1 ln
9: 40 1: 59
Poziom krytyczny, odpowiadajacy wartości : 395 16 dla rozk�adu �2 z 1 stop-
�
niem swobody ( (I Ą 1) (J Ą 1)(K Ą 1) = 1 ) wynosi 0; 5296 co upowaznia nas
do zaakceptowania modelu M1:
4
Kryteria stopu zaleza� od wybranej opcji. Moze to być dok�adność liczności brzegowych czy
tez, jak w naszym przyk�adzie, liczba cykli obliczeń.
Modele logarytmiczno-liniowe 55
Oszacujemy teraz parametry modelu M2 jM1 gdzie M2 : [P W][TW ]: Od razu
mozemy obliczyć estymatory n(2) w tym modelu (patrz tabela 4.5) ze wzoru n(2) =
ijk ijk
n(1)k n(1)k
i+ +j
:
n(1)
++k
1)
n(+k n(1)
i +jk
n(1)
k z 25: 39 a z 13: 20
++k
l 33: 59 l 27: 80
z 42: 04
l 41: 93
m z 16: 65 p z 28: 84
l 8: 34 l 14: 13
2)
n(jk z l n(2) z l
i ijk
25: 39ń13: 20 33: 59ń27: 80
k a k a 7: 97 22: 27
42: 04 41: 93
25: 39ń28: 84 33: 59ń14: 13
=
p p 17: 42 11: 32
42: 04 41: 93
16: 65ń13: 20 8: 34ń27: 80
m a m a 5: 23 5: 53
42: 04 41: 93
16: 65ń28: 84 8: 34ń14: 13
p p 11: 42 2: 81
42: 04 41: 93
G2 (M2 jM1 ) z l
ijk
5: 95 21: 05
k a 5: 95 ln 21: 05 ln
7: 97 22: 27
19: 44 12: 54
p 19: 44 ln 12: 54 ln
17: 42 11: 32
7: 25 6: 75
m a 7: 25 ln 6: 75 ln
5: 23 5: 53
9: 40 1: 59
p 9: 40 ln 1: 59 ln
11: 42 2: 81
=) G2 (M2 jM1 ) = 2: 938 8 =) G2 (M2) = G2 (M2 jM1 ) + G2 (M1 jM0 )
ijk ijk ijk ijk
= : 39516 + 2: 938 8 = 3: 334
Poziom krytyczny, odpowiadajacy wartości 3: 334 dla rozk�adu �2 z 2 stopni-
�
ami swobody ( (I Ą 1)(J Ą 1) (K Ą 1) + (I Ą 1)(K Ą 1) = 2 ) wynosi 0; 1888 co
upowaznia nas do zaakceptowania modelu M2:
Oszacujemy teraz parametry modelu M3 jM2 gdzie M3 : [P ][T W]: Mozemy
obliczyć estymatory n(3) w tym modelu (patrz tabela 4.5) ze wzoru
ijk
n(2) n(2)
i++ +jk
n(3) =
ijk
n(2)
+++
2)
n(jk z l
i
k a 7: 97 22: 27
p 17: 42 11: 32
m a 5: 23 5: 53
p 11: 42 2: 81
n(2)
+jk
2)
n(++
a z 13: 20
i
l 27: 80 n(2) 83: 97
k 58: 98
+++
m 24: 99
p z 28: 84
l 14: 13
56 Modele logarytmiczno-liniowe
3)
n(jk z l n(3) z l
i ijk
58: 98ń13: 20 58: 98ń27: 80
k a k a 9: 27 19: 53
83: 97 83: 97
58: 98ń28: 84 58: 98ń14: 13
=
p p 20: 26 9: 92
83: 97 83: 97
24: 99ń13: 20 24: 99ń27: 80
m a m a 3: 93 8: 27
83: 97 83: 97
24: 99ń28: 84 24: 99ń14: 13
p p 8: 58 4: 21
83: 97 83: 97
G2 (M3 jM2 ) z l
ijk
7: 97 22: 27
k a 7: 97 ln 22: 27 ln
9: 27 19: 53
17: 42 11: 32
p 17: 42 ln 11: 32 ln
20: 26 9: 92
5: 23 5: 53
m a 5: 23 ln 5: 53 ln
3: 93 8: 27
11: 42 2: 81
p 11: 42 ln 2: 81 ln
8: 58 4: 21
=) G2 (M3 jM2 ) = 3: 962 8 =) G2 (M3) = 3: 962 8 + 3: 334 = 7: 296 8
ijk ijk
Poziom krytyczny, odpowiadajacy wartości 7: 296 8 dla rozk�adu �2 z 3 stop-
�
niami swobody ( 2 + (I Ą 1) (K Ą 1) = 3) wynosi 0; 06302 co upowaznia nas do
zaakceptowania modelu M3:
Oszacujemy teraz parametry modelu M4 jM3 gdzie M3 : [P][T][W ]: Estymatory
4)
n(jk mozemy obliczyć ze wzoru
i
n(3) n(3) n(3)
i++ +j+
++k
ł �2
n(4) =
ijk
n(3)
+++
3)
n(++ n(3) n(3)
i +j+ ++k
n(3) 83: 97
k 58: 98 a 41:0 z 42: 04
+++
m 24: 99 p 42: 97 l 41: 93
4)
n(jk z l n(4) z l
i ijk
58: 98ń41:0ń42: 04 58: 98ń41:0ń41: 93
k a k a 14: 42 14: 38
83: 972 83: 972
58: 98ń42: 97ń42: 04 58: 98ń42: 97ń41: 93
=
p p 15: 11 15: 07
83: 972 83: 972
24: 99ń41:0ń42: 04 24: 99ń41:0ń41: 93
m a m a 6: 11 6: 09
83: 972 83: 972
24: 99ń42: 97ń42: 04 24: 99ń42: 97ń41: 93
p p 6: 40 6: 39
83: 972 83: 972
G2 (M4 jM3 ) z l
ijk
9: 27 19: 53
k a 9: 27 ln 19: 53 ln
14: 42 14: 38
20: 26 9: 92
p 20: 26 ln 9: 92 ln
15: 11 15: 07
3: 93 8: 27
m a 3: 93 ln 8: 27 ln
6: 11 6: 09
8: 58 4: 21
p 8: 58 ln 4: 21 ln
6: 40 6: 39
=) G2 (M4 jM3 ) = 10: 462
ijk
=) G2 (M4) = 10: 462 + 7: 2968 = 17: 759
ijk
Poziom krytyczny, odpowiadajacy wartości 17: 759 dla rozk�adu �2 z 4 stop-
�
niami swobody ( 3 + (J Ą 1) (K Ą 1) = 4) wynosi 0; 0014 co upowaznia nas do
odrzucenia modelu M4:
Ostatecznie mozemy przyjać, ze na poziomie istotności 0:05 modelem, opisu-
�
jacym dane jest [P][TW ], co oznacza , ze zwiazane ze soba� sa� wyniki leczenia i
� �
zastosowana terapia. Wybór pacjentów wg kryteriów p�ci ani nie by� zwiazany z
�
wyborem zastosowanej terapii, ani z uzyskanymi wynikami.
Modele logarytmiczno-liniowe 57
Gdybyśmy przeprowadzili rozumowanie na poziomie 0:15 to ostatnim zaakcep-
towanym modelem by�by [PW ][TW ] z poziomem krytycznym 0; 1661: Model taki
oznacza, ze przy kazdych danych wynikach leczenia nie ma zwiazku mie�dzy p�cia� a
�
wyborem terapii, natomiast zarówno p�eć jak i terapia moga� mieć wp�yw na wyniki
leczenia6.
Oszacowany przez nas model danych nie musi być jedynym. Poszliśmy jedna�
z mozliwych ściezek w drzewku modeli hierarchicznych. Przypuśćmy, jak to ro-
bia pakiety statystyczne, ze oszacowaliśmy wszystkie dopuszczalne modele na
�
wybranym poziomie istotności. Który z nich wybrać? Jednym z uzywanych w
statystyce kryteriów jest kryterium AI C, podane przez Akaike czy tez kryterim
bayesowskie BIC. Pozwalaja one wybrać ten model, który jednocześnie najlepiej
�
pasuje do danych i jest najoszczedniejszy w swoim opisie. Wybiera sie wiec ten
� � �
model, który ma wieksza� wartość kryterium.Dla modeli logarytmiczno - liniowych
�
(p.[1] str. 251) mozna te kryteria wyrazić wzorami
AI C (M) = G2 (M) Ą 2DF (M);
BI C (M) = G2 (M) Ą ln (nM) DF (M) ;
gdzie nM jest liczba� obserwacji dla modelu M
W rozwazanym przyk�adzie wartość kryterium Akaike zmienia�a sie nastepu-
� �
jaco:
�
AIC (M1) = 0:39516 Ą 2 ń 1 = Ą1: 6048;
AIC (M2) = 3:334 Ą 2 ń 2 = Ą: 666
AIC (M3) = 7:2968 Ą 2 ń 3 = 1: 2968
5
co czesto jest przyjmowane w programach statystycznych jako wartość domyślna (np. w
�
programie Statistica)
6
Patrz tez wyniki modelu logitowego dla tych danych
58 Modele logarytmiczno-liniowe
Dodatek A
Skale dla prawdopodobieństw
59
60 Skale dla prawdopodobieństw
De& nicja A.1 Przypuśćmy, ze obserwowana wielkość X jest wyrazona w jakiejś
skali liczbowej. Skala dla wielkości X nazywamy kazda rosnaca i ciag�a funkcje
� � � � � � �
H. Wartości X w nowej skali sa� równe H (X)
Wymóg ścis�ego wzrostu skali jest zrozumia�y - wartości obserwowanego zjawiska
wyrazone w nowej skali powinny zachować porzadek skali poczatkowej. Podob-
� �
nie, ciag�ość oznacza, ze wartości bliskie w skali poczatkowej beda bliskie w nowej
� � � �
skali. Róznowartościowość funkcji H umozliwia powrót z nowej skali do skali
poczatkowej.
�
Uwaga A.2 Z�ozenie skal H1 i H2 jest skala. W szczególności z�ozenie skali
�
liniowej H1 = � + Żu (Ż > 0) jest skala. Na�ozenie skali liniowej umozliwia
�
wybór zera i jednostki kazdej skali.
De& nicja A.3 Skala prawdopodobieństw to funkcja rosnaca i ciag�a1
� �
H : (0; 1) Ą! R
De& nicja A.4 Skala prawdopodobieństw jest symetryczna gdy H (1 Ą p) = ĄH (p)
ł �
1
Uwaga A.5 Dla skali symetrycznej H = 0
2
Twierdzenie A.6 Kazda skale mozna zsymetryzować
� �
H0 (p) = H (p) Ą H (1 Ą p)
Dowód. 1. H0 jest funkcja� ciag�a, bo jest róznica� funkcji cia�g�ych.
� �
2. Niech p1 < p2: H0 (p1) = H (p1) Ą H (1 Ą p1) < H (p2) Ą H (1 Ą p2) =
H0 (p2) (funkcja ĄH (1 Ą p) jest rosnaca)
�
3. H0 jest symetryczna: H0 (1 Ą p) = H (1 Ą p) Ą H (1 Ą (1 Ą p)) = ĄH0 (p)
Przyk�ad A.7 (Skale kwantylowe) Niech F be�dzie rosnaca� i ciag�a� dystry-
� �
buanta rozk�adu zmiennej losowej.
�
Lewostronna skala kwantylowa oparta na F jest funkcja
�
Ą1
HL(p) = F (p)
Prawostronna skala kwantylowa oparta na F jest funkcja
�
HP(p) = ĄFĄ1 (1 Ą p)
Uwaga A.8 Niech F be�dzie rosnaca�i ciag�a� dystrybuanta� rozk�adu prawdopodobieństwa,
� �
symetrycznego w zerze. Wtedy:
1. lewostronna i prawostronna skala kwantylowa jest symetryczna,
2. dla kazdego p ; HL(p) = HP(p)
1
Zazwyczaj de& niuje sie skale� dla przedzia�u otwartego, wykluczajac z rozwazań zdarzenia
� �
niemozliwe i pewne
Skale dla prawdopodobieństw 61
Dowód. 1. Niech HL(p) = u; HL(1Ąp) = v. Wtedy F (u) = p; F (v) = 1Ąp.
Z de& nicji rozk�adu symetrycznego w 0 mamy, ze v = Ąu. Podobnie, niech
HP (p) = u; HP (1 Ą p) = v. Wtedy F (Ąu) = 1 Ą p; F (Ąv) = p co implikuje
równość v = Ąu:
2. Niech HL(p) = u; HP(p) = v. Wtedy F (u) = p; F (Ąv) = 1 Ą p. Z tej
równości i symetrii wynika, ze v = u:
De& nicja A.9 Skale kwantylowa oparta na dystrybuancie � rozk�adu normalnego
� � �
standardowego2 nazywamy skala probitowa
� �
Skale probitowa� stosujemy dla zjawisk o rozk�adzie prawdopodobieństwa symetrycznie
�
1
roz�ozonym wokó� wartości i niezbyt daleko odbiegajacym od tej wartości.
�
2
Dla zjawisk, w których obserwujemy zjawiska ekstremalne (np. śmiertel-
ność owadów na skutek stosowania środków chemicznych) stosuje sie prawo i
�
lewostronna� skale kwantylowa� oparta� na rozk�adzie Gumbela3 o dystrybuancie
�
F (u) = exp (Ą exp (Ąu))
Wtedy HL(p) = Ą ln (Ą ln (p)); HP(p) = ln (Ą ln (1 Ą p)). Takie przekszta�cenie
nazywane jest skala podwójnie logarytmiczna. Jak �atwo zauwazyć skala pod-
� �
wójnie logarytmiczna nie jest symetryczna.
Najcześciej, ze wzgledu na swoja� prostote i dopasowanie do czesto wystepu-
� � � � �
jacych w praktyce zjawisk asymetrycznych4 jest skala logitowa.
�
De& nicja A.10 Skala logitowa jest symetryzacja� skali logarytmicznej dla praw-
dopodobieństw
� !
p
lgt (p) = ln (p) Ą ln (1 Ą p) = ln
1 Ą p
Jak widać, skala logitowa jest równa logarytmowi stosunku szans dla zdarzenia o
prawdopodobieństwie p.
Majac wartość logitu, �atwo obliczyć prawdopodobieństwo ze wzoru
�
1
lgtĄ1 (u) =
1 + exp (Ąu)
Przyk�ad A.11 (Kennedy i Nixon) W rywalizacji o fotel prezydenta USA w
listopadzie 1960 wygra� Kennedy. Dane przedstawiaja� procent poparcia dla Kennedy ego
2
Dystrybuanta ta jest ciag�a i rosnaca, a rozk�ad jest symetryczny w 0.
� �
3
Rozk�ad Gumbela jest jednym z trzech mozliwych rozk�adów granicznych dla wartości
najwiekszej z ciagu niezaleznych zmiennych losowych. To ciekawe twierdzenie udowodni�
� �
Gniedenko w 1943.
4
wystepuja ma�o prawdopodobne zjawiska, ale z jednego końca skali, np bardzo praw-
� �
dopodobne sa stany zdrowia i lekkiego stanu choroby a ma�o prawdopodobne stany ciezkiej
� �
choroby
62 Skale dla prawdopodobieństw
i Nixona w listopadzie 1960 i styczniu 1962 (w po�owie kadencji) wśród katolików
(elektorat Kennedy ego) i protestantów (elektorat Nixona)
% poparcia Kennedy Nixon
protestanci XI,60 38 62
I,62 59 41
katolicy XI,60 78 22
I,62 89 11
Czytajac bezpośrednio procenty poparcia dla Kennedy ego widzimy, ze wśród
�
protestantów poparcie wzros�o w po�owie kadencji o 21 punktów procentowych, a
wśród katolików o 11 punktów procentowych. Czyzby Kennedy zas�uzy� sobie wśród
protestantów na wiekszy wzrost poparcia? Pamietajac, jak trudno zdobyć choć
� � �
jeden procent poparcia w grupie wysokiego poziomu poparcia wyrazmy poparcie dla
Kennedy ego w skali logitowej
logit poparcia Kennedy
38
protestanci XI,60 ln = Ą: 490
62
59
I,62 ln = : 364
41
78
katolicy XI,60 ln = 1: 266
22
89
I,62 ln = 2: 091
11
Przyrost poparcia dla Kennedy ego w skali logitowej wynosi wśród protestantów
: 854 a wśród katolików : 825. Wskazuje to na równomierny wzrost poparcia dla
Kennedy ego w obu grupach.
Dodatek B
Metoda IPF
63
64 Metoda IPF
Metoda iteracyjnego oszacowania proporcjonalnego (metoda Iterative Proportional
Fitting) zosta�a opracowana przez Deminga i Stephana w 1940 [2]. Metoda ta jest
przydatna w znajdowaniu estymatorów n(r) w hierarchicznych modelach warunk-
ijk
owych. Procedure ta mozna opisać w kilku krokach
� �
(0)
1. Iteracja zerowa wijk estymatorów n(r) powinna być tak wybrana, aby odpowiada�a
ijk
modelowi podporzadkowanemu modelowi, dla którego wyznaczamy estyma-
�
(0)
tory n(r). Takim modelem jest model sta�y, dla którego wijk = 1
ijk
2. Mnozac przez odpowiednie wspó�czynniki skalujace sukcesywnie dopasuj
� �
(0)
wijk tak, aby zachowane zosta�y liczebności brzegowe dla efektów, wystepu-
�
jacych w estymowanym modelu; w ten sposób otrzymamy kolejne przyblize-
�
(1) (2) (3)
nia wijk; wijk; wijk; :::
3. Proces kontynuuj tak d�ugo, az róznica miedzy liczbnościami brzegowymi
�
(s) r)
wijk i liczbnościami brzegowymi n(jk dla efektów, wystepujacych w modelu
� �
i
bedzie mniejsza od zadanej wartości ":
�
Wspó�czynniki skalujace sa obliczane w specy& czny sposób dla kazdego efektu
� �
. Przypuśćmy, ze jesteśmy w s Ą 1 iteracji w(sĄ1) i chcemy dopasować nowe
ijk
(s)
wartości wijk tak, aby zachowane by�y liczebności, odpowiadajace efektowi �X Y
�
ij
z modelu Mr. Wiadomo (twierdzenie ??), ze wtedy n(r) = n(rĄ1). Wspó�czyn-
ij+ ij+
nikiem skalujacym bedzie wtedy
� �
n(rĄ1)
ij+
�ij =
(sĄ
wij+1)
Nowe wartości w(s) otrzymujemy ze wzoru
ijk
sĄ1)
w(s) = �ijw(jk
ijk i
Zauwazmy, ze wtedy
K K
X X
(s) (s) (sĄ1)
wij+ = wijk = �ijw(sĄ1) = �ijwij+ = n(rĄ1)
ijk ij+
k=1 k=1
Analogicznie mozemy wyznaczyć wspó�czynniki skalujace dla dowolnych efek-
�
tów oraz wykonać kolejne kroki iteracyjne.
s)
Anderson, Fienberg i Haberman pokazali, ze w(jk sa� zbiezne do estymatorów
i
najwiekszej wiarygodności n(r).
�
ijk
rĄ1)
Przyk�ad B.1 Dopasujmy model [XY ][Y Z] do danych n(jk :
i
Metoda IPF 65
rĄ1) (0)
n(jk z1 z2 wijk z1 z2
i
x1 y1 1 2 x1 y1 1 1
y2 3 4 y2 1 1
x2 y1 5 6 x2 y1 1 1
y2 7 8 y2 1 1
Dopasujemy macierz dla efektu �XY , gdyz wystepuje on w naszym modelu
�
ij
[XY ][Y Z]
rĄ1)
�ij
n(j+ w(0)
i ij+
x1 y1 3 = 1: 5
x1 y1 3 x1 y1 2
2
y2 7 = 3: 5
y2 7 y2 2
2
x2 y1 11 = 5: 5
x2 y1 11 x2 y1 2
2
y2 15 = 7: 5
y2 15 y2 2
2
Po uwzglednieniu wspó�czynnika skalujacego otrzymamy nowa macierz:
� � �
(1)
wijk z1 z2 w(1) z1 z2
ijk
x1 y1 1 ń 1: 5 1 ń 1:5 x1 y1 1: 5 1: 5
=
y2 1 ń 3: 5 1 ń 3:5 y2 3: 5 3: 5
x2 y1 1 ń 5: 5 1 ń 5:5 x2 y1 5: 5 5: 5
y2 1 ń 7: 5 1 ń 7:5 y2 7: 5 7: 5
Teraz wyliczymy kolejne przyblizenie odpowiadajace efektowi �Y Z dla modelu
�
jk
[XY ][Y Z]:
�jk z1 z2
n(rĄ1) z1 z2 w(1) z1 z2
+jk +jk
8
y1 6 = : 857 = 1: 143
y1 6 8 y1 7 7
7 7
12
y2 10 = : 909 = 1:091
y2 10 12 y2 11 11
11 11
I kolejne przyblizenie estymatorów:
(2)
wijk z1 z2 w(2) z1 z2
ijk
x1 y1 1: 5 ń : 857 1: 5 ń 1: 143 x1 y1 1: 286 1: 714
=
y2 3: 5 ń : 909 3: 5 ń 1: 091 y2 3: 182 3: 815
x2 y1 5: 5 ń : 857 5: 5 ń 1: 143 x2 y1 4: 714 6: 286
y2 7: 5 ń : 909 7: 5 ń 1: 091 y2 6: 818 8: 182
W ten sposób zakończyliśmy pierwszy cykl przyblizeń. Wartości brzegowe dla
efektu �XY wynosza
�
ij
(2)
wij+ w(2)
ij+
x1 y1 1: 286 + 1: 714 x1 y1 3:0
=
y2 3: 182 + 3: 815 y2 6: 997
x2 y1 4: 714 + 6: 286 x2 y1 11:0
y2 6: 818 + 8: 182 y2 15:0
która juz jest idealnie zblizona do n(rĄ1), nie ma wie�c potrzeby wprowadzać
ij+
poprawki na ten efekt. Trzeba jeszcze sprawdzić wartości brzegowe dla efektu �Y Z
jk
66 Metoda IPF
(2)
w+jk w(2)
+jk
y1 z1 1: 286 + 4: 714 y1 z1 6:0
=
z2 1: 714 + 6: 286 z2 8:0
y2 z1 3: 182 + 6: 818 y2 z1 10:0
z2 3: 815 + 8: 182 z2 11: 997
Tu tez wartości brzegowe sa� bardzo bliskie n(rĄ1), co oznacza, ze znalezliśmy
+jk
(2)
estymatory najwiekszej wiarygodności dla n(r), równe wijk:
�
ijk
(2)
wijk z1 z2
x1 y1 1: 286 1: 714
y2 3: 182 3: 815
x2 y1 4: 714 6: 286
y2 6: 818 8: 182
Tutaj zbiezność uzyskaliśmy po dwóch iteracjach w jednym cyklu, obejmuja-
cym wszystkie efekty modelu1. W przypadku ogólnym takich iteracji trzeba bedzie
�
wykonać wiecej.
�
1
Nie jest to przypadek. Haberman w 1974 pokaza�, ze jeśli liczba nieznanych parametrów
modelu nie przekracza 6, to metoda IPF jest zbiezna w jednym cyklu.
Dodatek C
Ćwiczenia
67
68 Ćwiczenia
Zadania na ćwiczenia w laboratorium
Materia�y na ćwiczenia:
http://www.math.yorku.ca/SCS/Courses/grcat/
1. Dopasowywanie rozk�adów.
1.1 Wykres poisonness
Dane:
Dane von Bortkiewicza (1898). Liczba wypadków śmiertelnych w 10 kor-
pusach armii pruskiej w ciagu 20 lat:
�
liczba wypadków 0 1 2 3 4
liczba obserwacji (korpusy x lata) 109 65 22 3 1
Listy Federalistów. Wystepowanie s�owa may w 262 blokach po 200 s�ów.
�
liczba wystapień 0 1 2 3 4 5 6
�
liczba bloków 156 63 29 8 4 1 1
Metoda.
1.1.1 Pokaz, ze gdy w nk próbach wysta�pi�o k sukcesów i gdy rozk�ad liczby
sukcesów jest rozk�adem Poissona z parametrem � to dla duzej liczby n obserwacji
zachodzi w przyblizeniu równość
� !
k! nk
df
uk = ln = Ą� + (ln �) k
n
Wielkość uk nazywamy pseudolicznikiem (ang. count metameter)
1.1.2. Napisz za pomoca najwygodniejszego dla ciebie narzedzia (np. Excela)
� �
procedure, która rysuje wykres punktowy f(k; uk) : k = 0; 1; :::g oraz wpisuje w
�
ten uk�ad prosta� regresji, oblicza jej równanie i drukuje wartość wspó�czynnika
determinacji R2.
Ćwiczenia 69
1.1.3. Oceń wizualnie, na podstawie sporzadzonych wykresów czy mozna
�
przyjać, ze Dane von Bortkiewicza pochodza z rozk�adu Poissona.
� �
1.1.4. Zrób zadanie 1.1.3. Dla Listów Federalistów.
1.2. Wykresy Orda.
Metoda (Ord,1967) zapoznaj sie z metoda w [3]
� �
2. Sprawdz metoda� Orda typ rozk�adu dla poznanych przyk�adów. Napisz
odpowiednia� procedure w znanym ci jezyku programowania.
� �
3. W�asności ilorazu krzyzowego �
Dana jest tablica prawdopodobieństw 2 Ł 2
Y
X y1 y2
x1 p11 p12
x2 p21 p22
p p
11 22
i odpowiadajacy jej iloraz krzyzowy � = .
�
p12p21
3.1 Pokaz, ze prawdziwe sa nierówności:
�
� > 1 () P (Y = y1 jX = x1 ) > P (Y = y1 jX = x2 );
� > 1 () P (X = x1 jY = y1 ) > P (X = x1 jY = y2 );
� < 1 () P (Y = y1 jX = x1 ) < P (Y = y1 jX = x2 );
� < 1 () P (X = x1 jY = y1 ) < P (X = x1 jY = y2 )
3.2 Udowodnij, ze dla kazdego � > 0 i dla kazdych 0 < p < 1 i 0 < q < 1
istnieje tablica prawdopodobieństw 2 Ł 2
Y
X y1 y2
x1 p11 p12
x2 p21 p22
df
taka, ze jej iloraz krzyzowy jest równy � i taka, ze p1ó = p11 + p12 = p oraz
df
pó2 = p12 + p22 = q.
Wskazówka. Oznaczmy p12 df x. Pokaz, korzystajac z w�asności Darboux,
= �
ze równanie f (x) = � ma zawsze rozwiazanie. Funkcja f (x) jest zde& niowana
�
wzorem
(p Ą x) (q Ą x)
f (x) =
x (x + 1 Ą p Ą q)
3.3 Spróbuj wyznaczyć taka� tablice dla � = 1:5; p = 0:2; q = 0:6
�
4. Test �2 i test oparty na ilorazie krzyzowym �
4.1 Oblicz iloraz krzyzowy � dla danych Pearsona o rozwoju umys�owym i
& zycznym uczniów. Zilustruj na podstawie tych danych nierówności, opisane w
70 Ćwiczenia
zadaniu 3.1, zastepujac odpowiednie prawdopodobieństwa przez ich czestości. Co
� � �
te nierówności oznaczaja?
�
4.2 Przedstaw te tablice w postaci standaryzowanej i narysuj odpowiadajacy
� � �
jej wykres ko�owy. Jak wyglada w tablica w postaci standaryzowanej i odpowiada-
�
jacy jej wykres ko�owy dla przypadku niezalezności i jednorodności?
�
4.3 Zastosuj test �2 i test oparty na ilorazie krzyzowym � dla testowania
hipotezy niezalezności dla tych danych. Zapoznaj sie z metoda� obliczeń testu
�
�2w programach Excel i Statistica
4.4 Znajdz 95% przedzia� ufności dla �:
4.5 Dla lewego i prawego końca tego przedzia�u zbuduj tablice w postaci
standaryzowanej i narysuj odpowiadajace im wykresy ko�owe. Porównaj wykresy,
�
otrzymane w punktach 4.2 i 4.5. Jak z tych wykresów odczytać zalezność (nieza-
lezność) wierszy i kolumn?
Dane: Rozwój umys�owy i & zyczny uczniów.
Rozwój umys�owy
Rozwój & zyczny dobry z�y
dobry 581 561
z�y 209 351
yród�o. Pearson, K., (1906) On the relationship of inteligence to size and shape of head,
and to other physical and mental characters, Biometrica, 5, 105-146
4.4 Wykonaj to samo dla danych:
Dane: Liczba dobrze rozwiazanych zadań z matematyki
�
Zadania
P�eć geometryczne niegeometryczne
uczennice 21 29
uczniowie 22 32
yród�o. Wyniki matury próbnej z matematyki (poziom podstawowy) w III LO w Wa�brzy-
chu w 2001 (informacja od nauczyciela)
5. Test symetrii
5.1 Próba z rozk�adu wielomianowego o prawdopodobieństwie
P (X = xi; Y = yj) = pij; (i; j = 1; 2; :::; I ) umieszczona jest w tablicy N =
[nij] (nij jest liczba� obserwacji w próbie takich, ze X = xi oraz takich, ze
Y = yj).
Znajdz test �2 do testowania hipotezy
H0 : pij = pji
dla wszystkich i; j = 1; 2; :::; I.
5.2 Uzyj tego testu do testowania hipotezy H0 w tablicy danych:
Dane: Porównanie wzrostu 205 par ma�zeńskich.
Ćwiczenia 71
Zona
Ma�z wysoka średnia niska
wysoki 18 28 14
średni 20 51 28
niski 12 25 9
Co oznacza hipoteza H0 dla wzrostu par ma�zeńskich?
yród�o. Wyniki zebrane przez Galtona, Christensen [59]
5.3 Zbadaj symetrie rozwoju umys�owego i & zycznego uczniów
�
6. Eksperyment przedszkolny. W 1962 roku przeprowadzono ekspery-
ment, w którym wzia�o udzia� 123 dzieci z 3 i 4-letnich z ubogich rodzin w Ypsi-
�
lanti w stanie Michigan. Cześć dzieci, wybranych losowo, uczeszcza�a przez dwa
� �
lata do przedszkola. Pozosta�e dzieci do przedszkola nie uczeszcza�y.
�
Zadania egzaminacyjne
1. Na ponizszym drzewku podane sa� wyniki obliczeń dla hierarchicznych model
logliniowych trzech zmiennych X; Y; Z. Na krawedzi, �aczacej dwa modele
� � �
podane sa wartości G2 (Mr jMrĄ1 ) :
�
Na przyk�ad G2 ([X Z][Y Z] j[XY ][Y Z][XZ]) = 8: Pocza�tkowa wartość, nie
zaznaczona na drzewku, oznaczajaca G2 (M1 jM0 ) = G2 ([XY ][Y Z][X Z]j[XY Z )
�
wynosi 10. Liczba róznych wartości cechy X jest równa I = 3;cechy Y jest
równa J = 4; cechy Z jest równa K = 2:
[XY][XZ][YZ]
8 4
4
[XZ][YZ] [XY][YZ] [XY][XZ]
4 8 4 12
10 [X][YZ] [XY][Z] 14
[XZ][Y]
[XZ][Y] 8 4
2 2
[X][Y][Z]
Podaj wzór na ostateczny model, wynikajacy z tych obliczeń.
�
2. Tablica zawiera prawdopodobieństwa P (X = xi; Y = yj; Z = zk). Wybierz,
jaki typ zalezności
(a) [XZ][Y Z]
72 Ćwiczenia
(b) [XY ][Z]
(c) [X][Y ][Z]
(d) zaden z nich
wystepuje w danych. Dla u�atwienia, wystarczy sprawdzić czy warunek,
�
określajacy typ zalezności zachodzi dla p111
�
z1 z2
y1 0,060 0,240
x1
y2
0,040 0,060
y1
0,240 0,160
x2
y2
0,160 0,040
3. Zmienna X ma dwie wartości: w wysokie zarobki, n niskie zarobki, zmi-
enna Y wartości - k kobieta, m mezczyzna, Z: s wykszta�cenie średnie, z
�
wykszta�cenie wyzsze. Model logitowy, �aczacy te zmienne ma postać:
� �
(m)
L = Ą1 Ą Y + 2 Z(w);
gdzie L jest logitem prawdopodobieństwa uzyskania wysokich zarobków,
(m)
Y jest równe 1 gdy Y ma wartość m, 0 gdy Y ma wartość k; Z(w) jest
równe 1 gdy Z ma wartość w, 0 gdy Z ma wartość s.
(a) Kto ma wieksze prawdopodobieństwo wysokich zarobków: kobieta z
�
wykszta�ceniem wyzszym, czy mezczyzna ze średnim?
�
(b) Ile to wieksze prawdopodobieństwo wynosi?
�
(c) Oblicz iloraz krzyzowy dla par zmiennych (Y; X)
4. Napisz uk�ad równań w modelu logitowym proporcjonalnych szans, w którym
zmienna wynikowa P oznacza stosunek danej osoby do palenia: nie pali,
troche pali, duzo pali. Zmiennymi objaśniajacymi sa� P p�eć: kobieta, mezczyzna,
�
� �
R stosunek rodziców do palenia: oboje pala, jedno z nich pali, zadne nie pali.
�
Jakie znaki beda� mia�y wspó�czynniki przy zaprojektowanych przez ciebie
�
zmiennych objaśniajacych, jeśli dzieci obojga palacych rodziców wiecej pala�
� � �
niz dzieci rodziców, z których jedno pali, a ci pala wiecej niz dzieci rodziców
� �
niepalacych. Podobnie, jeśli mezczyzni pala wiecej od kobiet?
� � � �
5. Cechy X i Y sa� niezalezne. Uzupe�nij tabele z liczebnościami
�
? ? 4
8 12 16
28 ? ?
Ćwiczenia 73
6. Wśród studentów ADJ uzyskano nastepujace wyniki
� �
ocena 2 3 4 5
Kobiety 10 40 120 10
Mezczyzni 10 10 80 20
�
Czy na poziomie 0.05 mozna twierdzić, ze wyniki z egzaminu i p�eć sa� od
siebie niezalezne?
Egzamin poprawkowy
1. Rozpoznaj w�aściwy model zalezności dla prawdopodobieństw:
z1 z2
y1
0,04 0,06
x1
y2
0,18 0,12
y1 0,16 0,24
x2
y2 0,12 0,08
Wsk. Wybierz spośród modeli: [??][??], [??][?], [X][Y][Z]. Zamiast ? musisz
wstawić odpowiednie litery X,Y,Z. Jeśli kilka modeli pasuje, wybierz jeden
z nich.
2. Zbuduj metoda� najmniejszych kwadratów model logitowy dla danych:
W P L
w k 1
m 0
n k -1
m -1
gdzie L jest logitem prawdopodobieństwa dobrego samopoczucia, W wzrostem
(w - wysoki, n- niski), P p�cia badanego.
�
Wsk. Metoda najmniejszych kwadratów dla danych (xi; yi) i = 1; 2; :::n w
modelu
y = f (x; �; Ż; :::)
gdzie �; Ż; ::: sa� nieznanymi parametrami modelu, polega na ich wyznacze-
niu takim, ze
n
X
(f (xi; �; Ż; :::) Ą yi)2
i=1
osia�ga minimum wzgledem �; Ż; :::
�
3. Po wykonaniu zad.2 wyznacz iloraz krzyzowy dla tablicy
zadowoleni niezadowoleni
kobiety
mezczyzni
�
74 Ćwiczenia
dla kazdego ustalonego poziomu wzrostu. Która para dominuje
(a) zadowolone kobiety i niezadowoleni mezczyzni, czy
�
(b) niezadowolone kobiety i zadowoleni mezczyzni
�
4. Ala, Basia i Celina rzuca�y po 100 razy, kazda swoja moneta. Ala uzyska�a
� �
40 or�ów, Basia i Celina po 30 or�ów. Czy na poziomie 0.05 mozna twierdzić,
ze Ala i Basia rzuca�y taka� sama� moneta� a prawdopodobieństwo wyrzucenia
or�a przez Celine by�o dwa razy mniejsze od prawdopodobieństwa wyrzuce-
�
nia or�a przez Ale?
�
5. Na ponizszym drzewku podane sa� wyniki obliczeń dla hierarchicznych model
logliniowych trzech zmiennych X; Y; Z. Na krawedzi, �aczacej dwa modele
� � �
podane sa wartości G2 (Mr jMrĄ1 ) :
�
Na przyk�ad G2 ([X Z][Y Z] j[XY ][Y Z][XZ]) = 8: Poczatkowa wartość, nie
�
zaznaczona na drzewku, oznaczajaca G2 (M1 jM0 ) = G2 ([XY ][Y Z][X Z]j[XY Z )
�
wynosi 10. Liczba róznych wartości cechy X jest równa I = 4;cechy Y jest
równa J = 4; cechy Z jest równa K = 2:
[XY][XZ][YZ]
8 4
2
[XZ][YZ] [XY][YZ] [XY][XZ]
4 10 6 4
9 [X][YZ] [XY][Z] 13
[XZ][Y]
[XZ][Y] 8 12
3 3
[X][Y][Z]
Znajdz wszystkie modele, zaakceptowane na poziomie 0.05.
Indeks
�2, 15 ze zmiennymi porzadkowymi, 36
�
probitowa, 33
dane, 8
rozk�ad
ilościowe, 9
dwumianowy, 13
jakościowe, 9
wielomianowy, 14
produktowy, 14
G2, 15
rozk�ad
Poissona, 13
hipoteza
jednorodności, 18
skala
niezalezności, 21
ilorazowa, 9
kwantylowa, 60
iloraz krzyzowy, 24
logitowa, 61
reprezentacja standardowa, 25
nominalna, 8
kryterium
podwójnie logarytmiczna, 61
Akaike, 57
porzadkowa, 8
�
bayesowskie, 57
prawdopodobieństw, 60
probitowa, 61
metoda
przedzia�owa, 8
IPF, 64
stopnie swobody
model
dla modeli prostych, 44
hierarchiczny, 47
stosunek szans, 23
logarytmiczno-liniowy, 40
nasycony, 41
tablica
proporcjonalnych szans, 36
kontyngencji, 12
sta�y, 41
zapis bilansowy, 41
niezalezność
zmienna
warunkowa, 43
grupujaca, 18
�
wynikowa, 18
odchylenie G2, 15
zmienne
odleg�ość
indykatorowe, 34
�2 Pearsona, 15
paradoks Simpsona, 40
regresja
logitowa, 32
ze zmiennymi nominalnymi, 34
75
76 INDEKS
Literatura
[1] Agresti, A., (1990), Categorical Data Analysis, New York: Wiley
[2] Deming, W.E., Stephan F.F., (1940), On a least squares adjustment of a
sampled frequency table when the expected marginal totals are known. Ann.
Math. Statist. 11: 427-444
[3] Friendly, M., Categorical Data Analysis with Graphics,
http://www.math.yorku.ca/SCS/Courses/grcat/
[4] McPherson, G.,(1990), Statistics in Scienti& c Investigation, New York:
Springer
77

Wyszukiwarka

Podobne podstrony:
Analiza danych jakościowych SPSS metody badań geografii społeczno ekonomicznej
Praca mag Interaktywny system regułowej analizy danych marketingowych dotyczących satysfakcji klie
Zajecia 5 Analizy statystyczne?nych jakosciowych
Excel Analiza danych biznesowych
Analiza ilościowo jakościowa procesów projektowania REFERAT
Analiza danych
13 Analiza danych w podgrupach
Wstępna analiza danych Materiał statystyczny i jego porządkowanie Szeregi statystyczne
07 Analiza danych
lab5 Analiza danych sprzedazowych
metoda analizy kosztów jakości
analiza danych przestrzennych
Malarska A Statystyczna analiza danych wspomagana SPSS (rozdział 1, 2)

więcej podobnych podstron