Analiza w sytuacji braków danych i ważenie próby


Jarosław Górniak
Analiza w sytuacji braków danych i ważenie próby
I. Braki danych i imputacja
Jednym z podstawowych problemów w badaniach sondażowych jest występowanie
zniekształceń na skutek braków danych. Braki te mogą być dwojakiego rodzaju:
1. Całkowity brak danych o wylosowanej jednostce, wynikający z niepowodzenia w
uzyskaniu od niej odpowiedzi na cały kwestionariusz. Może to wynikać z odmowy
udziału w badaniu, z niemożliwości nawiązania kontaktu lub długotrwałych okoliczności,
które stały na przeszkodzie w zrealizowaniu badania (choroba, długotrwały wyjazd itp.).
Zwykle dysponujemy tylko niewielką liczbą danych, które dostępne były na poziomie
operatu lub mogą być dostarczone przez ankietera poprzez wypełnienie specjalnej karty
niezrealizowanego wywiadu. Remedium na zniekształcenia wywołane całkowitym
brakiem danych jest ważenie próby.
2. Brak odpowiedzi na pojedyncze pytania kwestionariusza w przypadku osób, które
zgodziły się wziąć udział w badaniu (udzieliły wywiadu, odesłały ankietę pocztową).
Może być spowodowany odmową udzielenia odpowiedzi (np. na pytanie o dochody),
nieznajomością odpowiedzi na określone pytanie, błędami ankieterów lub niemożliwymi
do zweryfikowania błędami we wprowadzaniu danych.
Kompletne
obserwacje
Braki danych w X X
pojedynczych
X X X
pozycjach
X X
X
Niezrealizowane X X X X X X X
wywiady/ankiety X X X X X X X
Specjalny przypadek stanowią badania panelowe, gdy osoba, która poprzednio uczestniczyła
w badaniu, nie bierze udziału w danej realizacji. Wówczas dysponujemy danymi z
poprzednich badań, które mogą być wykorzystane w kompensacji braków danych.
Braki danych mogą poważnie zniekształcić obraz ogólnej zbiorowości objętej
reprezentacyjnym badaniem sondażowym. Wielu badaczy i zleceniodawców badań ma
świadomość wpływu sposobu doboru próby na reprezentatywność wyników badań, a więc ich
jakość z punktu widzenia odbiorcy. Niestety, zbyt mała jest świadomość wpływu braków
danych na tę jakość lub nawet jeśli istnieje, nie bardzo wiadomo jak zaradzić konsekwencjom
występowania braków danych w wynikach badań.
Najczęstszym sposobem postępowania z brakami danych jest ich... ignorowanie. Sporządza
się tabele, w których obserwacje z brakami danych są wyłączane z podstawy analizy. Już w
przypadku prostych tabel krzyżowych dwóch zmiennych często bywa tak, że 10-20%
obserwacji eliminowanych jest z obliczeń na skutek wystąpienia w jednej bądz drugiej
zmiennej braku danej.
W tabelach czasami analitycy umieszczają odrębną kategorię  brak danych lub  nie
wiem/brak odpowiedzi , zwykle w celu utrzymania stałej bazy obliczeń niż po to, by ulepszyć
jakość analizy. W praktyce oznacza to przerzucenie na odbiorcę takich tabel konieczności
zdecydowania, czy należy interpretować procenty liczone w stosunku do całej próby, wraz z
brakami odpowiedzi, czy też raczej w stosunku do tych, którzy udzielili istotnych
( ważnych ) odpowiedzi na zadane pytania. Oczywiście, są sytuacje, kiedy lepiej jest
interpretować procenty liczone w stosunku do wszystkich badanych (np. zasięg percepcji
reklamy); są też takie, w przypadku których lepiej ustalać udziały w oparciu o ważne
odpowiedzi (np. udział marki w rynku zoperacjonalizowany jako wskazanie dotyczące
ostatniego zakupu produktu danej klasy).
W warunkach występowania braków danych jeszcze trudniejszy problem stanowią jednak
rozmaite miary syntetyczne, od statystyk opisowych (np. średnia) po miary siły związku.
Problem narasta w przypadku wielowymiarowych metod analizy, gdy w grę wchodzi wiele
zmiennych, które mogą zawierać braki danych w różnych obserwacjach.
Jakie reakcje na braki danych są możliwe? Spróbujmy je wymienić i wskazać na ich
konsekwencje. Zajmijmy się na początek problemem sytuacją nr 2 czyli brakami danych
rozsianych po różnych pozycjach w analizowanym zbiorze danych (do kompensacji
niezrealizowanych ankiet wrócimy przy okazji ważenia). Przyjmijmy w przykładach, że
mamy do czynienia ze zmiennymi ilościowymi (np. ostatnio zakupiona ilość produktu X,
wielkość opakowania w gramach itp.); dla zmiennych jakościowych analizowane będą inne
statystyki, jednak istota problemu pozostaje niezmieniona.
Ogólnie, konsekwencje przyjęcia różnych sposobów postępowania w przypadku braków
zależą od tego, jaki mechanizm generuje braki danych. Prof. D.B. Rubin sformułował jako
pierwszy (w 1976 r.) następujący podział tych mechanizmów:
" MCAR (Missing Completely At Random)  gdy brak danych jest całkowicie losowy;
" MAR (Missing At Random)  gdy brak danych jest losowy  w obrębie kategorii
wyznaczonych przez inne cechy objęte badaniem;
" NMAR (Not Missing At Random)  nielosowe braki danych  gdy prawdopodobieństwo
wystąpienia braku w przypadku danej zmiennej jest związane z poziomem tej zmiennej;
zwane również nieignorowalnymi brakami danych.
Żeby lepiej zrozumieć ten podział załóżmy, że zrealizowano badanie ankietowe w którym
zadano tylko dwa pytania: od wykształcenie (liczba ukończonych klas/lat) i o dochód.
Załóżmy, że wszyscy odpowiedzieli na pytanie o wykształcenie, ale w pytaniu o dochód
pojawiły się braki odpowiedzi. Jeśli prawdopodobieństwo wystąpienia braku odpowiedzi na
pytanie o dochód jest niezależne zarówno od wykształcenia jak i od dochodu, wówczas
mechanizm jest MCAR: respondenci, którzy odpowiedzieli, są próbą losową wszystkich
respondentów. Jeśli jednak ci, którzy mają wyższe wykształcenie mniej chętnie informują o
dochodach, wówczas mechanizm MCAR przestaje wyjaśniać tę sytuację. Jeśli w każdej
grupie wykształcenia prawdopodobieństwo wystąpienia braku danej w pytaniu o dochód jest
niezależne od wielkości dochodu, to działa mechanizm MAR. Jeśli jednak
prawdopodobieństwo nieuzyskania odpowiedzi na pytanie o dochód zmienia się wraz ze
zmianą poziomu dochodu, wówczas mamy do czynienia z nielosowym mechanizmem
generowania braków danych, lub też nieignorowalnym brakiem danych. Nawet w tym
ostatnim przypadku, najtrudniejszym do  obejścia można uzyskać dobre wyniki poprzez
odpowiednie zabiegi na danych.
A) Wyłączanie obserwacji z brakami danych  analiza kompletnych obserwacji
Czy ignorując braki danych (wykluczając obserwacje z brakami danych) naprawdę nic nie
robimy? Nic nie  manipulujemy przy danych? Wielu osobom tak się wydaje, choć w rzeczy
samej sprawa nie jest tak prosta. Zadajmy sobie pytanie, czy możemy oczekiwać, że osoby,
dla których nie mamy danych, są próbą losową z tej samej populacji (mającej takie same
charakterystyki) co osoby, które udzieliły nam odpowiedzi? Ignorując obserwacje z brakami
danych odpowiadamy twierdząco. W przeciwnym razie bowiem, tzn. jeśli
prawdopodobieństwo wystąpienia braku danych zależy od cech respondentów (a w
konsekwencji np. średnia ilość produktu X zakupiona ostatnio jest inna wśród tych, którzy
odpowiedzieli, i tych, którzy nie odpowiedzieli) to wyłączenie z podstawy obliczenia części
obserwacji obciąży systematycznym błędem ocenę parametru badanej populacji (np.
oszacowanie średniej ilości kupowanej w przypadku produktu X w całej populacji
nabywców). Jeśli ci, którzy nie odpowiedzieli na pytanie, są przeciętnie tacy sami jak ci,
którzy odpowiedzieli, to wówczas ich wyłączenie nie spowoduje obciążenia oszacowania
średniej (ani odchylenia standardowego).
Gdy obliczamy macierz korelacji (kowariancji) lub wykonujemy inną analizę wikłającą wiele
zmiennych, której elementem jest obliczanie istotności, siły związku lub odległości między
parami zmiennych (np. analiza czynnikowa, analiza skupień, regresja, modelowanie
strukturalne) wyłączanie obserwacji z brakami danych może następować w dwojaki sposób:
" Usuwanie obserwacjami (casewise); jeśli w którejkolwiek ze zmiennych użytych w
analizie pojawia się brak danej  cała obserwacja wyłączana jest z obliczeń.
" Usuwanie parami (pairwise); statystyki obliczane są w oparciu o wszystkie informacje
dostępne dla każdej pary zmiennych z osobna. W wyniku zastosowania tej metody każda
korelacja czy odległość może być obliczona w oparciu o inną próbę.
Oczywiście, te dwie metody dotyczą także konstruowania podstawy do obliczania tabeli
zestawiającej średnie, odchylenia standardowe czy inne statystyki opisujące pojedyncze
zmienne. Zagadnienie to ilustruje poniższy diagram.
A B C
1 O O O
2 X O O
3 O X O
4 O O X
5 X X O
6 O X X
7 O O O
X oznacza brak danej. O oznacza obecność danej.
W przypadku obliczenia tabeli porównawczej średnich i odchyleń standardowych dla
zmiennych A, B i C możemy przyjąć za podstawę obserwacje 1 i 7  usuwanie obserwacjami
 co gwarantuje wykonanie analizy na tej samej próbie. Możemy też w przypadku zmiennej A
oprzeć obliczenia na obserwacjach 1,3,4,6,7; w przypadku zmiennej B  na obserwacjach
1,2,4 i 7; w przypadku zmiennej C  na obserwacjach 1,2,3,5,7. Za każdym razem skład
próby będzie zatem inny, choć z drugiej strony wykorzystamy wszystkie dostępne dane.
Podobnie, w przypadku obliczania macierzy korelacji przy usuwaniu b.d. parami użyjemy:
- dla pary A,B obserwacji 1,4 i 7;
- dla pary B,C obserwacji 1,2 i 7;
- dla pary A,C obserwacji 1,3 i 7.
W przypadku usuwania obserwacjami wszystkie współczynniki obliczone zostaną w oparciu
o obserwacje 1 i 7.
O ile mamy do czynienia z mechanizmem MCAR zastosowanie techniki usuwania parami
nie pociąga za sobą nieporównywalności obliczanych statystyk, gdyż każda z podprób
obejmujących kompletne dane jest próbą losową z całej próby objętej badaniem. Zyskujemy
natomiast liczniejszą podstawę dokonywania szacunków. Mechanizm MCAR jest jednak w
przypadku badań społecznych zjawiskiem dość rzadkim, chyba że pomiarem i analizą objęty
jest szczególny zestaw zmiennych. Dlatego usuwanie parami zwykle nie jest zalecane, chyba
że usuwanie obserwacjami prowadzi do radykalnego zmniejszenia liczebności analizowanej
próby.
Dyskusja ta dotyczy jednak wyboru mniejszego zła spośród największych, gdyż także
usuwanie obserwacjami prowadzi do zniekształceń informacji o poszczególnych cechach
wówczas, gdy mechanizm nie jest MCAR. W przypadku każdej analizy wykonanej w oparciu
o kompletne obserwacje, a więc przy usunięciu (zignorowaniu) braków danych, przyjmujemy
bowiem implicite założenie o tym, że obserwacje z kompletnymi danymi są próbą losową z
całej badanej próby. Tylko w sytuacji, gdy to założenie jest prawdziwe, nie  manipulując
przy danych, tzn. ignorując obserwacje z brakami danych, rzeczywiście przy nich nie
manipulujemy z punktu widzenia szacowania parametrów populacji generalnej. Analiza
kompletnych obserwacji jest faktycznie metodą kompensacji braków danych przez
przypisanie w danej zmiennej wszystkim brakom danych wartości średniej dla tej zmiennej.
B) Zastępowanie braków danych  imputacja
W zaawansowanych metodologicznie badaniach sondażowych używa się raczej innych
mechanizmów kompensacji, opartych na łagodniejszych założeniach o mechanizmie
generowania braków danych niż MCAR. W sytuacji gdy pozwalają na to dane (rozkłady cech
w populacji) wykorzystuje się estymację modeli metodą największej wiarygodności,
dostosowaną do występowania braków danych (tu nie będziemy się tym zagadnieniem
zajmować; w szczególności powstały propozycje dotyczące analizy w sytuacji
nieignorowalnych braków danych, jednak dyskusje statystyków nad tym zagadnieniem ciągle
trwają). Typowym sposobem radzenia sobie z brakami danych jest jednak zastępowanie ich
wartościami szacunkowymi czyli narzucanie wartości, dla którego przyjmiemy termin
(pozwólmy sobie na termin techniczny, mimo że jest anglicyzmem)  imputacja.
Imputacja polega na przypisaniu wartości obserwacjom w miejsce braków danych. Przede
wszystkim używamy jej w przypadku występowania braków danych w poszczególnych
pozycjach zbioru danych, rzadziej w przypadku braku części danych (np. na skutek
odpadnięcia w próbie panelowej). W przypadku analizy pojedynczych zmiennych w próbie, w
której występuje niewielka liczba braków danych, często możemy poprzestać na analizie
kompletnych obserwacji (usuwanie obserwacjami) bez wprowadzania dużych zniekształceń.
W przypadku analiz wielowymiarowych, gdy braki danych rozproszone są po różnych
obserwacjach, usuwanie obserwacjami łatwo może doprowadzić do radykalnego zmniejszenia
efektywnej liczebności próby i obciążenia wyników analizy. Czasem jedna zmienna, istotna
merytorycznie (np. dochód), może zawierać szczególnie dużo braków danych i prowadzić do
utraty informacji zawartych w innych, bardziej kompletnych zmiennych w sytuacji ich łącznej
analizy. W przypadku użycia wyłącznie kompletnych obserwacji obliczona ocena średniej lub
frakcji może być obciążona (zobaczymy to w naszym przykładzie).
Zalety i wady imputacji (Lepkowski 1997)
Zalety imputacji:
" Ułatwia pracę analitykowi.
" Analizy są spójne, gdyż nie ma potrzeby usuwania obserwacji.
" Upraszcza prezentację wyników sondażu (np. nie ma potrzeby umieszczania w tabelach
wierszy lub kolumn reprezentujących braki danych).
" Zachowuje wszystkie dostępne dane co może pozwolić na uzyskanie bardziej
precyzyjnych ocen parametrów w modelach wielowymiarowych.
Wady imputacji (zwłaszcza prostszych technik):
" Niektóre formy imputacji zniekształcają rozkład (średnią, wariancję) zmiennych
poddanych imputacji i tłumią współzależności. Dotyczy to zwłaszcza mechanicznego
zastępowania przez średnią.
" Prowadzi do niedoszacowania wariancji, gdyż podstawiane wartości traktowane są przez
program statystyczny tak samo jak pełnowartościowe dane.
" Trudno jest przekonać analityków do stosowania imputacji. Analitycy wolą nie używać
 sfabrykowanych danych. Ale... czy lepiej fabrykować je przy pomocy analizy opartej na
kompletnych obserwacjach przy założeniu MCAR, czy też może fabrykować je przy
założeniu starannie dobranego modelu?
Metody imputacji:
1. Podstawianie średniej
Przyjmijmy, że wylosowana została (z jednakowymi prawdopodobieństwami wyboru) z
pewnej populacji próba 18 respondentów, z których 14 ujawniło swoje dochody, a 4 nie
(rzeczywiste a nieujawnione dochody zostały wzięte w nawias kwadratowy). Mamy
kompletne dane o płci i wykształceniu.
lp. Płeć Wykszt. Dochód g.d.
(X1i) W latach ( w 100 PLN)
(X2i) (Yi)
1 M 9 23
2 M 12 [45]
3 M 12 43
4 M 11 [67]
5 M 16 75
6 M 16 88
7 M 12 35
8 M 12 42
9 K 14 67
10 K 15 56
11 K 12 28
12 K 10 [12]
13 K 12 31
14 K 12 35
15 K 12 30
16 K 18 66
17 K 15 72
18 K 12 [38]
Podstawianie ogólnej średniej polega na zastąpieniu braków danych średnią obliczoną z
odpowiedzi, które zostały udzielone. Jest to równoważne ze zignorowaniem braków danych
(analizą kompletnych obserwacji). Zatem w naszym przykładzie y2 = y4 = y12 = y18 = 49,9.
Ten rodzaj imputacji zniekształca rozkład tworząc  wierzchołek na średniej. W przypadku
takiej imputacji:
" średnia jest zachowana;
" odchylenie standardowe jest niedoszacowane;
" liczebność próby jest zawyżona.
W przypadku zmiennych jakościowych, przy niewielkiej liczbie braków danych stosuje się
podstawianie dominanty lub mediany.
2. Średnia ogólna plus błąd losowy
Jeśli chcemy odzwierciedlić w imputacji zmienność obserwowanych wartości, można przy
zastępowaniu poszczególnych braków danych dodać do średniej błąd losowy  zwykle
różnicę pomiędzy wartością wylosowaną spośród ważnych obserwacji a średnią lub wartość
wylosowaną z rozkładu normalnego o średniej równej średniej ważnych obserwacji i
wariancji równej ich wariancji. Błąd standardowy nadal jest zaniżony na skutek zawyżenia
efektywnej liczebności próby. Zachowane jest odchylenie standardowe. Taka imputacja jest
lepsza od zastępowania średnią. Jednak pozostaje bardzo istotny problem: informacja zawarta
w innych zmiennych nie jest wykorzystywana w imputacji, co prowadzi do zniekształcenia
(destrukcji) korelacji pomiędzy uzupełnioną zmienną a innymi zmiennymi. Tracimy także
efektywność wskutek niewykorzystania tych korelacji.
3. Średnia grupowa (plus błąd losowy)
Jakość imputacji można poprawić podstawiając za b.d. średnią dla klasy obserwacji. W
naszym przykładzie: dla mężczyzn  y2 = y4 = 52; dla kobiet  y12 = y18 =48,1. Można
również uzupełnić średnią o element stochastyczny zgodnie z regułą omówioną wyżej, z tym
że w każdej klasie z osobna. Prowadzi to do pewnej poprawy dokładności imputacji pod
warunkiem homogeniczności klas z punktu widzenia uzupełnianej zmiennej.
4.  Hot deck
Często wykorzystywaną metodą imputacji jest tzw.  hot deck . Występuje w dwóch
odmianach:
" sekwencyjnej
" hierarchicznej.
Sekwencyjny  hot deck ilustruje poniższy przykład. Z taką techniką związane są pewne
problemy:
" wielokrotni dawcy
" problem z granicami przy sortowaniu (np. przejście od mężczyzn do kobiet)
" słaba korelacja wewnątrz grup.
Główne zalety to: łatwość wykonania i prostota, nie wymaga założeń dotyczących rozkładów
i możliwość wykonania przy jednym sortowaniu dla całego zestawu skorelowanych
zmiennych.
Sekwencyjny  hot deck
lp. Płeć Wykszt. Dochód g.d.
(X1i) W latach ( w 100 PLN)
(X2i) (Yi)
Rzeczywista wartość Gorąca (Hot) Ostateczna
wartość wartość
1 M 9 23 511) 23
4 M 11 [67] 23 23
2 M 12 [45] 23 23
3 M 12 43 23 43
7 M 12 35 43 35
8 M 12 42 35 42
5 M 16 75 42 75
6 M 16 88 75 88
12 K 10 [12] 88 88
11 K 12 28 88 28
13 K 12 31 28 31
14 K 12 35 31 35
15 K 12 30 35 30
18 K 12 [38] 30 30
9 K 14 67 30 67
10 K 15 56 67 56
17 K 15 72 56 72
16 K 18 66 72 66
1)
Tzw.  zimna wartość , losowo wybrana na wypadek braku danej w pierwszej
obserwacji.
Metodę sekwencyjną można istotnie ulepszyć przy pomocy techniki hierarchicznej. W
przypadku tej techniki respondenci i nierespondenci są zgrupowani w dużą liczbę klas
opartych o wiele potencjalnych zmiennych  sortujących . Wybiera się losowo dawcę w
każdej klasie, a w razie potrzeby łączy się klasy ze sobą by uzyskać dopasowanie.
Wykształcenie
<średnie (<12 klas) Średnie <12;15> Wyższe (>=16 klas)
Płeć
R NR R NR R NR
Mężczyzna 23 [67] 43 [45] 75
35 88
42
Kobieta [12] 28 [38] 67
31 56
35 66
30 72
Powtórzmy podstawową ideę: zaklasyfikuj Respondentów i Nierespondentów do komórek
bazujących na pewnej mierze bliskości (np. przynależność do tej samej komórki
zdefiniowanej przez kategorie zmiennych klasyfikujących, odległość Mahalanobisa, odległość
między teoretycznymi wartościami zmiennej podlegającej imputacji), następnie losowo
wybierz respondenta z tego zestawu i podstaw jego wartość w miejsce braku danej u
nierespondenta. Nadal pozostaje problemem niedoszacowanie błędu standardowego.
Potrzebna jest także duża próba, by uzyskać dobre dopasowania. Można użyć tylko
ograniczonego zbioru zmiennych.
5. Metoda regresyjna
Metoda regresyjna może być traktowana w pewnym sensie jako uogólnienie metody  hot
deck i podstawiania średniej. Metoda ta występuje w odmianie deterministycznej i
stochastycznej.
W przypadku odmiany deterministycznej budujemy model regresji w oparciu o dostępne
dane, a następnie podstawiamy w miejsce brakujących danych wartości teoretyczne,
przewidywane na podstawie modelu regresji. W przypadku ilościowej zmiennej zależnej
(imputowanej) używamy regresji liniowej. W przypadku jakościowej zmiennej zależnej
używamy regresji logistycznej. W przypadku zmiennej dychotomicznej możemy użyć
również regresji logistycznej, ale dobre wyniki daje również regresja liniowa.
W naszym przykładzie powyżej, przy podstawianiu wartości w zmiennej  dochód g.d.
równanie regresji wygląda następująco:
yi = 66,6 + 12,2*mężczyzna  55,8 *posiada wykształcenie mniej niż średnie 
 37,0*posiada wykształcenie średnie
Podstawiając stosowne wartości do równania możemy wyliczyć:
y2 = 51,3 y4 = 25,0 y12= 21,1 y18= 47,3
Można dodać losową resztę do tych czterech imputowanych wartości:
" wylosowaną z rozkładu normalnego o tej samej średniej i odchyleniu standardowym co
wartości przewidywane lub
" losując respondenta, który podał swój dochód i obliczając różnicę pomiędzy jego
wartością obserwowaną i przewidywaną na zmiennej  dochód g.d. .
W ten sposób imputację wykonujemy w oparciu o stochastyczną odmianę metody regresyjnej.
Losowanie respondenta może być dokonywany ze zwracaniem lub bez zwracania, ze
wskazaniem na tę drugą opcję.
Technika imputacji przez regresję może zostać uogólniona do modelu wielowymiarowego
pozwalającego na jednoczesne operowanie wieloma zmiennymi zależnymi. Oczywiście,
zmienne niezależne muszą być wolne od braków danych.
6. Sekwencyjne metody regresyjne
Metody regresyjne (włączając w to  hot deck ) zastępują braki danych każdorazowo w jednej
zmiennej.
Sekwencyjna metoda imputacji przez regresję oparta jest na następującej logice:
Powiedzmy, że mamy p zmiennych y = (y1, y2, ..., yp) , w których chcemy wykonać imputację
b.d. i q pomocniczych zmiennych z=(z1, z2, ..., zq).
Zmienne należy uporządkować od tej, która wymaga najmniej imputacji, do tej, która
wymaga ich najwięcej. Wykonaj imputację y1 na podstawie predyktorów z. Wykonaj
imputację zmiennej y2 na podstawie zmiennych z oraz uzupełnionej zmiennej y1, itd. Aż do
yp. Wykonaj ponownie imputację każdej zmiennej yp używając wszystkich predyktorów ze
zbioru z i y (uzupełnionych o imputowane wartości). Powtarzaj ten proces aż do
ustabilizowania imputowanych wartości.
7. Metoda EM (expectation-maximization)
Metoda EM jest oparta na zaawansowanym algorytmie iteracyjnym, który składa się z
naprzemiennie występujących dwóch kroków (po wykonaniu wstępnych operacji inicjujących
proces szacowanai):
" E  expectation, w którym następuje imputacja braków danych w oparciu o regresję
" M  maximization, w którym metodą największej wiarygodności szacowana jest średnia i
macierz kowariancji na postawie uzupełnionych danych .
Etapy te powtarzane są aż do osiągnięcia zbieżności.
Przy szacowaniu momentów metodą największej wiarygodności przyjmuje się założenie o
rozkładzie, któremu podlegają zmienne w populacji. O to założenie oparta jest funkcja
wiarygodności, która jest maksymalizowana (a raczej jej logarytm). Ocena oparta o metodę
największej wiarygodności jest hipotetyczną wartością parametru w populacji, która
maksymalizuje wiarygodność (prawdopodobieństwo) obserwowanej próby, innymi słowy
bardziej prawdopodobnie od innych generuje próbę, którą aktualnie obserwujemy.
8. Imputacja wielokrotna
Opisane wyżej bardziej zaawansowane metody imputacji, zwłaszcza stochastyczna metoda
regresyjna i metoda EM pozwalają zmniejszyć obciążenie wynikające z braków danych i są
lepsze od naiwnego ignorowania ich obecności. Większość analityków traktuje podstawione
wartości tak jak rzeczywiste, deterministyczne, i stosuje do estymacji standardowe
oprogramowanie statystyczne. Takie podejście powoduje niedoszacowanie wariancji
estymatorów, zwłaszcza w sytuacji dużej liczby braków danych w zmiennej; niedoszacowuje
więc granice przedziału ufności.
Wielokrotna imputacja jest techniką, która pozwala oszacować dodatkowy przyrost wariancji
spowodowany imputacją. Polega ona na wykonaniu więcej raz (na ogół 3 lub więcej)
imputacji: powiedzmy m razy, stosując tę samą lub odmienne techniki imputacji (np.
stochastyczną regresyjną i EM, co pozwala ocenić wrażliwość wyników na imputację). Na
przykład w przypadku estymacji średniej obliczamy dla danej zmiennej średnią w każdym
zbiorze danych uzyskanym w wyniku imputacji; oznaczmy ją jako .
Następnie obliczmy .
Wariancję szacujemy jako:
Pierwszy składnik sumy po prawej stronie to wariancja wewnątrz uzupełnionych danych,
drugi zaś to wariancja pomiędzy uzupełnionymi danymi. Drugi składnik czyni zadość temu,
że imputowane wartości są w rzeczywistości estymowane i dlatego podlegają zmienności z
próby.
Dla naszych przykładowych danych wykonana została trzykrotnie imputacja stochastyczną
metodą regresyjną (przy pomocy SPSS MVA 8.0). Uzyskano następujące wyniki obliczeń.
Powtórzenia (g) Ogółem
1 2 3
45,1 46,4 45,4 45,6
24,1 22,1 23,3 23,1
var( )
( - )2 0,340 0,608 0,038 0,987
Ocena średniej wynosi więc 45,6, zaś ocena wariancji rozkładu z próby wynosi:
23,1 + 4/3 * 1/2 * 0,987 = 23,758 (błąd standardowy = 4,87).
Pamiętajmy: nawet w sytuacji nieignorowalnego braku danych imputacja daje stosunkowo
niezłe wyniki. Należy jednak oprzeć ją na maksimum informacji o respondentach, także na
tych zmiennych, których nie będziemy wykorzystywać następnie w analizie, o ile tylko mają
moc predykcyjną pozwalającą poprawić oszacowanie brakujących danych.
II. Ważenie próby
Ważenie próby jest istotnym elementem precyzyjnie realizowanych badań sondażowych.
Ważenie wykonujemy (o ile wymaga tego sytuacja) z trzech podstawowych powodów, a są
to:
" kompensacja skutków niejednakowego prawdopodobieństwa dostania się do próby;
" kompensacja skutków nieuzyskania danych o części osób (elementów) wylosowanych do
próby;
" chęć lepszego dostosowania rozkładu próby do znanego rozkładu wybranych cech w
populacji.
Powraca więc i tutaj zagadnienie braku danych  zajmiemy się nim w dalszej części.
1. Ważenia w celu skompensowania skutków przyjętej metody doboru próby
Przykładowa sytuacja, w której stosujemy ważenie to losowanie próby w ten sposób, że
losujemy z jednakowym prawdopodobieństwem wyboru gospodarstwa domowe, a następnie
w każdym gospodarstwie losujemy jedną osobę dorosłą. Powiedzmy że losujemy 20
gospodarstw domowych z listy 2000. Mają one następującą charakterystykę:
W 8 gospodarstwach domowych jest tylko jedna osoba dorosła i 3 z 8 wylosowanych do
próby czytają prasę.
W 6 g.d. są dwie osoby dorosłe i 3 z 6 wylosowanych czytają.
W 4 g.d. są trzy osoby dorosłe; 3 z wylosowanych 4 czytają.
W 2 pozostałych g.d. są 4 osoby dorosłe; obie osoby badane czytają.
Prawdopodobieństwo znalezienia się osoby dorosłej w próbie jest równe
prawdopodobieństwu wylosowania gospodarstwa domowego (tu: 20/2000) wymnożonemu
przez prawdopodobieństwo wylosowania jednej osoby spośród dorosłych mieszkających we
wspólnym g.d. To ostatnie jest odwrotnie proporcjonalne do liczby dorosłych mieszkających
we wspólnym g.d. Na przykład: dla każdej z osób dorosłych mieszkających w g.d. liczącym
dwie osoby dorosłe prawdopodobieństwo to wynosi 20/2000 * 1/2 = 1/200. Z tego wynika
konieczność ustalenia dla takich osób, które znalazły się w próbie, wagi na poziomie 200. W
podobny sposób ustalamy wagi dla osób z wszystkich pozostałych typów g.d (100 dla g.d. z
jedną osobą dorosłą, 300 w przypadku 3 itp. Takie wagi zwykle normujemy dzieląc przez je
przez średnią wartość wagi (tu: 200). Dzięki temu suma wag równa jest liczebności próby, a
analizy statystyczne dają wyniki dla próby, tyle że wpływ poszczególnych obserwacji na
sumaryczne statystyki jest proporcjonalny do ich wagi.
Średnia wartość zmiennej zerojedynkowej  Czy czyta?  która równa jest frakcji czytających
 wynosi dla próby nieważonej 0,55. Obliczona została przez zsumowanie wartości dla
wszystkich obserwacji i podzielenie wyniku przez liczebność próby czyli 20. Nie jest to
jednak prawidłowo wyliczona ocena średniej w populacji. Należy obliczyć średnią ważoną,
wg wzoru:
Lp. Liczba osób w Czy czyta? Waga Waga Czyta x waga
g.d. (1-tak, 0-nie) unormowana
1 1 1 100 ,5 ,5
2 1 1 100 ,5 ,5
3 1 1 100 ,5 ,5
4 1 0 100 ,5 ,0
5 1 0 100 ,5 ,0
6 1 0 100 ,5 ,0
7 1 0 100 ,5 ,0
8 1 0 100 ,5 ,0
9 2 1 200 1,0 1,0
10 2 1 200 1,0 1,0
11 2 1 200 1,0 1,0
12 2 0 200 1,0 ,0
13 2 0 200 1,0 ,0
14 2 0 200 1,0 ,0
15 3 1 300 1,5 1,5
16 3 1 300 1,5 1,5
17 3 1 300 1,5 1,5
18 3 0 300 1,5 ,0
19 4 1 400 2,0 2,0
20 4 1 400 2,0 2,0
Suma 11 20 13
Średnia 0,55 1,0 0,65
W tabeli powyżej wykonane zostały podstawowe kroki tego obliczenia. Obliczona została
wartość sumy w liczniku: wynosi ona 13. Suma wag unormowanych wynosi 20 i jest równa
liczebności próby (zauważmy, że średnia wartość unormowanych wag wynosi 1, co jest
typowe i gwarantuje, że ich suma równa się liczebności próby). Zatem średnia ważona wynosi
0,65. Jest to prawidłowo obliczona ocena średniej, uwzględniająca wagi wynikające z
niejednakowego prawdopodobieństwa wyboru.
Z koniecznością uwzględnienia wag wynikających z przyjętego schematu losowania
spotykamy się jeszcze w innych typowych sytuacjach. Oto przykłady:
" Jednostką badaną jest gospodarstwo domowe (np. interesuje nas posiadanie przez
gospodarstwo domowe zmywarki do naczyń). Losujemy adres gospodarstwa domowego
korzystając z list wyborczych. Oczywiście, prawdopodobieństwo znalezienia się
gospodarstwa domowego w próbie jest proporcjonalne do liczby członków tego g.d.
wpisanych na listę wyborczą. W takiej sytuacji wagi przypisane gospodarstwom
domowym, mającym odpowiednio 1, 2 i 3 członków wpisanych na listę, muszą
pozostawać w relacji 1:0,5:0,333. Oceny parametrów populacji i w tym wypadku oparte
powinny być na wynikach ważonych.
" Czasem schemat losowania zakłada  nadreprezentację czyli udział w próbie większy od
udziału w populacji pewnej mniej licznej grupy po to, by np. umożliwić jej opis i
porównanie z innymi grupami. I w tym wypadku, przy obliczaniu ocen parametrów całej
populacji należy wykonać ważenie próby przywracające jej takie proporcje, jakie ma
populacja. Wagi wyliczamy dzieląc frakcję (udział) każdej z grup w populacji przez jej
udział w próbie. Wszystkie osoby należące do jednej grupy uzyskują tę samą wagę
wynikającą z tego dostosowania struktury próby. Jeśli zaniechalibyśmy ważenia, to im
bardziej jest odmienna charakterystyka grupy nadreprezentowanej, tym silniej obciążona
zostanie ocena wartości parametrów całej populacji.
Wagi uwzględniamy nie tylko w przypadku ważonego estymatora średniej, lecz także przy
obliczaniu wszelkich innych estymatorów, np. wariancji:
Algorytmy programu SPSS są (z wyjątkiem nielicznych procedur) przystosowane do
uwzględniania wag w obliczeniach.
2. Ważenie w celu skompensowania niezrealizowanych pomiarów
Nie wszystkie osoby wylosowane do próby udaje się zbadać. Całkowite braki odpowiedzi
wynikają z rozmaitych powodów: odmowy, złego stanu zdrowia, długotrwałego wyjazdu i
wielu innych. W badaniach społecznych zwykle za niezłą uchodzi realizacja próby na
poziomie 70%. Oczywiście należy dążyć do uzyskania jak najbardziej kompletnego zestawu
wyników, gdyż żadne operacje statystyczne nie są w stanie zupełnie skompensować braków
w realizacji pomiarów. Na ogół jednak pozostajemy z niekompletnie zrealizowaną próbą i
wówczas możemy wykorzystać ważenie w celu skompensowania brakujących wywiadów czy
ankiet.
Wagi używane dla kompensacji braków odpowiedzi w sondażach oparte są na założeniu, że
ci, którzy odpowiedzieli, są próbą losową wszystkich osób w obrębie grup, co do których
oczekujemy, że ich członkowie są do siebie bardziej podobni, jest to więc założenie że
mechanizm generujący braki to MAR (patrz wyżej).
Ogólna procedura wygląda następująco:
" Zaklasyfikuj obiekty wylosowane do próby do zbioru komórek (zwanych komórkami
korygującymi braki odpowiedzi  nonresponse adjustment cells), które są utworzone
przez skrzyżowanie charakterystyk znanych dla całej wylosowanej próby.
" Oblicz poziom realizacji w każdej komórce dzieląc liczbę zrealizowanych ankiet przez
liczbę osób wylosowanych do próby, które zostały zaklasyfikowane do danej komórki.
" Oblicz odwrotność poziomu realizacji dla danej komórki  to jest waga, którą należy
przypisać wszystkim obiektom z tej komórki. Wagi wyliczamy dla wszystkich komórek
korygujących.
Jeśli obliczyliśmy wcześniej wagi kompensujące niejednakowe prawdopodobieństwo wyboru,
to całkowita waga każdego elementu w próbie wj = w1j * w2j, gdzie w1j to waga ze względu na
niejednakowe prawdopodobieństwo (przed unormowaniem), a w2j to waga ze względu na
braki odpowiedzi. Całkowitą wagę każdego respondenta normujemy dzieląc ją przez średnią
wagę dopiero na samym końcu.
Stosowane są także bardziej zaawansowane techniki ważenia korygujące ze względu na braki
odpowiedzi. Należy do nich np. ważenie ze względu na skłonność do udzielania odpowiedzi
(response propensity weighting):
" Budujemy model predykcyjny, w którym zmienną zależną jest udzielenie
wywianu/wypełnienie ankiety (1) lub brak danych (0); zmienną zależną można też
rozbudować, wykorzystując bardziej szczegółowe kategorie, dzielące braki odpowiedzi
według głównych przyczyn (np. odmowa, niemożność nawiązania kontaktu)
" Przy pomocy programu SPSS AnswerTree znajdujemy predyktory naszej zmiennej
zależnej i w oparciu o interakcje między nimi budujemy (a raczej uzyskujemy w wyniku
pracy AnswerTree) komórki korygujące.
" Obliczamy wagi jako odwrotność poziomu realizacji w komórce.
" Przy tej metodzie wagi mogą charakteryzować się dużym rozproszeniem; w celu
zredukowania tego rozproszenia można tworzyć większe klasy i używać średniej wartości
skłonności do odpowiedzi jako podstawy ważenia (chodzi o zredukowanie spadku
precyzji ocen na skutek ważenia). Stosuje się także arbitralne obcinanie ad hoc zbyt
dużych wag.
Wybór komórek klasyfikacyjnych jest często w praktyce ograniczony, gdyż zmienne, których
chcemy użyć przy ich definiowaniu muszą zawierać informacje zarówno dla respondentów
jak i nierespondentów. Należy więc z góry planować ważenie i gromadzić dane o
wylosowanych osobach, które mogą być wykorzystane w ważeniu. Kluczowe są takie
zmienne, które są dobrymi predyktorami udziału bądz nie w badaniu, a także takie, które są
silnymi predyktorami ważnych zmiennych mierzonych w badaniu.
yródła danych dla korekty:
" Dane ze zródeł publicznych (administracyjnych)
" Obserwacje ankietera (w przypadku wywiadu osobistego)
" Informacje o miejscu zamieszkania (o jak najbliższym sąsiedztwie)
" Dane o ankieterze
" Nota o interakcji respondent-ankieter
3. Poststratyfikacja
Poststratyfikacja jest dość popularna i często w ogóle utożsamiana z ważeniem. Polega na
dopasowaniu rozkładu próby do znanego rozkładu populacji. Jeśli wcześniej wykonaliśmy
ważenie kompensujące niejednakowe prawdopodobieństwo wyboru (w1) i braki odpowiedzi
(w2), to wagi poststratyfikacyjne w3j mogą być użyte jako składnik całkowitej wagi:
wj = w1j * w2j * w3j
Załóżmy, że po wykonaniu ważenia w1 i w2 rozkład płci w próbie nie zgadza się z rozkładem
w populacji.
Płeć L. próby Populacja Udział w Udział w Waga
próbie populacji
Mężczyzna 1620 68057 45% 47,15% 1,05
Kobieta 1980 76288 55% 52,85% 0,96
W przypadku poststratyfikacji wagi jednostek są korygowane w górę lub w dół tak by rozkład
sum wag w wybranych klasach zgadzał się z rozkładem w populacji. Komórki do ważenia są
definiowane zwykle przez skrzyżowanie kategorii kilku zmiennych, najlepiej takich które są
ważnymi predyktorami wyników badania. Na ogół wykorzystuje się zmienne demograficzne,
taki jak: grupa wiekowa, płeć, region, wykształcenie, podział miasto/wieś. Można
wykorzystywać tylko takie kombinacje kategorii dla których dostępne są dane o populacji
(zwykle dane GUS). Wagi uzyskujemy przez podzielenie udziału komórki klasyfikacyjnej w
populacji przez jej udział w próbie. W mniejszych próbach mogą wystąpić puste komórki
klasyfikacyjne; wówczas należy łączyć je z komórkami o najbardziej zbliżonej
charakterystyce (wymaga to na ogół wiedzy i namysłu).
Są także metody szacowania wag poststratyfikacyjnych w sytuacji, gdy nie znamy liczebności
komórek klasyfikacyjnych lecz jedynie rozkłady brzegowe poszczególnych cech
klasyfikacyjnych. Służy do tego iteracyjne dopasowanie proporcjonalne (iterative
proportional fitting), które można wykonać przy pomocy procedury GENLOG w SPSS
Advanced Statistics; wykracza to poza zakres tego kursu (dokładnie opisany przykład
znajduje się w dokumentacji modułu Advanced Statistics).
4. Wykorzystanie ważenia w analizie danych
Ważenie jest na ogół koniecznym elementem opisu statystycznego wyników badań. Czasmi
bywa tak, że oszacowania w oparciu o estymator ważony i nieważony są niemal takie same.
Wówczas można zadowolić się oceną nieważoną. Dzieje się tak wówczas, gdy wagi są
nieskorelowane z analizowaną zmienną. Jeśli nawet ma to miejsce w przypadku jednych
zmiennych, w przypadku innych efekt ważenia może być istotny. W takich wypadkach
pominięcie prowadzi do obciążenia błędem oszacowań parametrów na podstawie próby.
Ponieważ dysponujemy jedną zmienną ważącą, która jest używana we wszystkich
obliczeniach, determinuje to prowadzenie analizy ważonej. Naprzemienne używanie
wyników ważonych i nieważonych może wprowadzać zamieszanie przy prezentacji wyników
badań i prowadzić do niespójnych wyników. Dla celów opisowych powinniśmy więc na ogół
używać wag przygotowanych w omówiony wyżej sposób.
W przypadku analizy danych nie zawsze jednak korzystanie z wag jest konieczne. Analitycy
porównują wyniki analiz dokonywanych na próbie ważonej i nieważonej i mogą zdecydować
o użyciu wyników nieważonych, jeśli różnice są niewielkie.
SPSS pozwala włączyć wagi umieszczone w jednej zmiennej przy pomocy polecenia:
Weight by nazwa zmiennej ważącej.
Polecenie to dostępne jest z menu Data > Weight Cases, w oknie edytora danych.
5. Konsekwencje stosowania wag dla precyzji ocen parametrów
Stosowanie wag nie pozostaje bez wpływu na precyzję estymacji, choć zmniejsza obciążenie
jej wyników systematycznym błędem. Wagi mogą zwiększyć wariancję ocen. Dla średnich
utratę precyzji na skutek wzrostu wariancji (który przekłada się na wzrost wartości błędu
standardowego i zwiększenie przedziału ufności) można wyrazić jako:
Utrata precyzji L może być niewielka, np. 0,01 lub 0,02, lub znacznie większa (np. większa
od 0,5).
Literatura
Przy przygotowaniu materiału wykorzystano m.in.:
Little R.J.A., Schenker N., Missing Data, in: Arminger, Clogg, Sobel (eds.), Handbook for
Statistical Modelling in the Social and Behavioral Sciences, New York 1994: Plenum
Lepkowski J., Item Missing Data, Weighting  notatki do wykładu z Analysis of Survey
Data II, ISR, The University of Michigan 1997.
Lttle R.J.A./Ragunathan T., Statistical Analysis with Missing Data  notatki do wykładów
ISR, The University of Michigan 1997.


Wyszukiwarka