Sozański Statystyczne miary zmienności a kwantyfikacja nierówności społecznej

Tadeusz Sozański
Statystyczne miary zmiennoSci
a kwantyfikacja nierównoSci społecznej
Notatka dla uczestników kursu Podstawy statystyki
Instytut Socjologii UJ, rok ak. 2005/2006
Listopad 2005
Chociaż socjologowie od dawna interesowali się nierównoScią społeczna, niewielu próbowało
sprecyzować sens tego terminu. Łatwo oczywiScie odróżnić doskonałą równoSć od stanu nierównoSci,
jednakże gdy dane są dwa różne, nierówne rozkłady jakiegoS dobra, natychmiast rodzi się pytanie,
w jaki sposób ocenić, który z nich jest bardziej nierówny. Odpowiedx na to pytanie wydaje się
warunkiem wstępnym budowy jakiejkolwiek teorii zajmującej się determinantami i konsekwencjami
nierównoSci społecznej. [& ] Dopóki badania nad nierównoScią koncentrowały się na wyznacznikach
indywidualnych osiągnięć, dopóty brak ScisłoSci nie powodował większych trudnoSci. Dopiero
najnowsze próby sprawdzania hipotez wyjaSniających dlaczego w pewnych społeczeństwach
występuje silniejsza nierównoSć niż w innych zmusiły socjologów do zastosowania Scisłych miar takich
jak indeks Giniego czy odchylenie standardowe. [& ] Uznanie jednego rozkładu za bardziej nierówny
niż inny ma implikacje zarówno teoretyczne jak metodologiczne. W rzeczy samej, wybór miary
nierównoSci należy traktować raczej jako wybór jednej z alternatywnych definicji nierównoSci niż jako
wybór jednego z alternatywnych sposobów mierzenia jednego konstruktu teoretycznego (Allison
1978: 865).
Wspomniany w cytowanym fragmencie najważniejszy współczynnik nierównoSci, zdefiniowany w
1912 r. przez włoskiego demografa i statystyka Corrado Giniego, wciąż jest mało znamy polskim
socjologom, o czym Swiadczy choćby znana monografia poSwięcona nierównoSciom społecznym
(M. Jarosz. NierównoSci społeczne. Warszawa 1984), w której do oceny stopnia zróżnicowania
dochodów stosuje się wyłącznie stosunek dochodu maksymalnego do minimalnego. W najnowszym
podręczniku makrosocjologii (H. Domański. Struktura społeczna. Warszawa 2004) pojawia się (s. 33)
wprawdzie zestawienie wartoSci współczynnika Giniego dla dochodów rodzin na osobę w różnych
krajach europejskich, poprzedzone krótkim wyjaSnieniem jak należy interpretować ów współczynnik,
autor nie podaje jednak wzoru definicyjnego ani wzorów obliczeniowych, w związku z czym można
odnieSć mylne wrażenie, że temat daleko wykracza ponad niezbędne socjologowi minimum wiedzy
statystycznej.Także podręczniki statystyki (w tym Statystyka dla socjologów Blalocka) oraz
najpopularniejszy wSród socjologów program statystycznej analizy danych SPSS pomijają
współczynnik Giniego (w języku komend SPSS można jednak napisać odpowiednią procedurę
obliczeniową; patrz J. Górniak, J. Wachnicki. SPSS PL for Windows. Pierwsze kroki w analizie
danych. Kraków 2000, s. 145).
Mój tekst, mający wypełnić tę lukę, zawdzięcza swoje powstanie Zbigniewowi Karpińskiemu
(absolwentowi IS UJ obecnie na studiach doktoranckich w IFiS PAN). Studiując teorię Petera Blaua,
klasyka socjologii XX wieku, autora monografii Inequality and Heterogeneity (New York 1997), odkrył
on najpierw dla siebie współczynnik Giniego, a następnie zainteresował nim mnie, polecając mojej
uwadze artykuł Paula Allisona Measures of Inequality (American Sociological Review 43, 1978,
865 880). Artykuł ten, którego początkowy fragment przytoczyłem na wstępie, wykorzystałem jako
główne xródło, przygotowując niniejszą notatkę przeznaczoną dla uczestników kursu Podstawy
statystyki (w roku akademickim 2005/2006 włączonego do kanonu studiów socjologicznych w UJ).
!
Po tym wprowadzeniu przejdę do bardziej systematycznego wykładu. Niech x=(x1,& ,xn) oznacza ciąg
wartoSci zmiennej x zaobserwowanych w pewnej n-elementowej zbiorowoSci. Zakładając, że xi 0 dla
i=1,& ,n, wartoSć xi będziemy interpretować jako kwotę pewnego podzielnego, przekazywalnego
dobra w posiadaniu i-tej jednostki.
Niech Sum(x) oznacza sumę wartoSci zmiennej x, symbolicznie, . Zgodnie z
przyjętą interpretacją x, Sum(x) jest to całkowita iloSć dobra w posiadaniu całej populacji. Dzieląc
Sum(x) przez n, otrzymujemy Srednią arytmetyczną, czyli iloSć dobra przypadającą przeciętnie na
jednostkę. Ten najważniejszy parametr opisowy szeregu statystycznego, znany także laikom, będę
tu oznaczał symbolem Mx.
Miarami zmiennoSci w szczególny sposób związanymi ze Srednią arytmetyczna są wariancja oraz
pierwiastek z niej zwany odchyleniem standardowym. Przypomnijmy odpowiednie wzory:
, ,
Wariancję można równoważnie zdefiniować za pomocą wzoru , w którym nie
występuje Mx (według tego wzoru wariancja to połowa Sredniej arytmetycznej z kwadratów różnic
wartoSci zmiennej wyznaczonych dla wszystkich uporządkowanych par jednostek). Wzór definiujący
wariancję jako Srednią arytmetyczna z kwadratów odchyleń od Sredniej arytmetycznej (odchylenie od
Sredniej to różnica między wartoScią zmiennej a Srednią) pozwala interpretować ten parametr jako
miarę rozproszenia (dyspersji) wartoSci zmiennej wokół Mx. Dlaczego pod uwagę bierze się kwadraty
odchyleń od Sredniej arytmetycznej, nie zaS od innej miary tendencji centralnej lub jakiejS innej
wartoSci? Bo wówczas rozproszenie jest najmniejsze, dokładniej, dla dowolnego c.
W praktyce do opisu szeregu statystycznego wraz ze Srednią arytmetyczną używa się odchylenia
standardowego, parametru o uniwersalnym zastosowaniu i fundamentalnym znaczeniu w teorii
statystyki.
!
Czy sx nadaje się także do oceny stopnia zróżnicowania rozkładu dochodów pieniężnych lub innych
zasobów? Odpowiedx na to pytanie zależy od tego, jakie warunki powinien spełniać współczynnik
nierównoSci.
Najbardziej naturalnym warunkiem jest żądanie, aby współczynnik taki przyjmował wartoSć
minimalną równą 0 wtedy i tylko wtedy gdy dobro rozdzielone jest równomiernie, tzn. xi=c dla
każdego i, gdzie c>0 jest pewną liczbą (wówczas Sum(x)=nc, a stąd Mx=c). Odchylenie standardowe
spełnia ten warunek, jako że sx=0 wtedy i tylko wtedy gdy xi=Mx dla każdego i.
Drugą oczywistą własnoScią wymaganą od każdej miary nierównoSci jest zgodnoSć z zasadą
transferów (principle of transfers), która głosi, że przekazanie przez biedniejszego dowolnej częSci
swoich zasobów bogatszemu zawsze pociąga za sobą wzrost nierównoSci w populacji.
Rozważmy rozkład dobra x=(x1,& ,xn) taki, że xi xj dla dwu jednostek o ustalonych numerach i,
j. Transferem od i do j o wielkoSci d (0 d xi) nazywa się zmiana rozkładu dobra polegająca na tym,
że i-ta osoba traci, a j-ta osoba zyskuje d jednostek dobra, tzn. x' =x d, x' =x+d, gdzie x' oznacza
i i j j
nowy rozkład zasobów (x' =xh dla h i,j, tzn. pozostałe osoby nie zmieniają stanu posiadania).
h
Zauważmy, że po transferze suma wartoSci zmiennej nie ulega zmianie, tzn. Sum(x)=Sum(x').
Wykorzystując ten fakt, łatwo wyprowadzić wzór , z którego wynika,
Var(x') Var(x), a stąd także sx' sx, a więc odchylenie standardowe zachowuje zasadę transferów.
Naturalne jest także żądanie, by w zbiorze n-wymiarowych alokacji o tej samej sumie u (takich x,
że Sum(x)=u) każdy współczynnik nierównoSci osiągał maksymalną w sytuacji, gdy całoSć zasobów
jest w posiadaniu jednej osoby, tzn. xi=u dla pewnego i oraz xj=0 dla każdego j i. Warunku
2
precyzującego, że najbardziej nierówne są rozkłady najbardziej skoncentrowane, nie potrzeba
formułować osobno, gdyż jego spełnienie wynika już za zasady transferów. Istotnie, dowolny rozkład
x taki, że Sum(x)=u, można zawsze przekształcić za pomocą odpowiedniej sekwencji transferów w
rozkład maksymalnie skoncentrowany. Rzecz jasna dla wszystkich takich rozkładów, różniących się
jedynie osobą monopolisty, dowolny współczynnik nierównoSci powinien przyjmować identyczną
wartoSć, co z kolei wynika z zasady anonimowoSci, którą również zakładamy. Zasada ta, spełniona
przez wszystkie parametry statystyczne, oznacza niezależnoSć wartoSci parametru od numeracji
jednostek analizy.
Odchylenie standardowe, podobnie jak Srednią arytmetyczną, oblicza się przy założeniu
interwałowoSci pomiaru zmiennej. Oba parametry są miarami mianowanymi wyrażonymi w tych
samych jednostkach i dlatego nadają się do porównań międzypopulacyjnych jedynie wtedy, gdy
zmienna reprezentuje to samo zjawisko w obu populacjach i w obu mierzona jest za pomocą tej samej
skali. Dla zmiennych o wartoSciach nieujemnych opisujących stan posiadania rozmaitych zasobów,
w tym pieniędzy, zakłada się mocniejszy od interwałowego typ pomiaru, mianowicie pomiar
stosunkowy (ilorazowy), przy którym dopuszczalne przekształcenia skal mają postać y=ax, gdzie a>0.
Przekształcenie y=ax może oznaczać zarówno zmianę skali pomiarowej, np. przeliczenie dochodu
ze złotych na dolary, jak i zmianę wartoSci zmiennej mierzonej na tej samej skali, np. powiększenie
(a>1) lub zmniejszenie (0Czy podwyżka płac o 10% (a=1.1), w wyniku której odchylenie standardowe roSnie w tym samym
stosunku (z uwagi na wzór sax=asx), pociąga za sobą także większą nierównoSć dochodów?
PrzypuSćmy, że dwie osoby zarabiają odpowiednio 1000 i 2000 zł. Po podwyżce pierwszy zarobi o
100 zł więcej a drugi o 200 zł więcej, a wówczas różnica ich płac, początkowo równa 1000 zł,
zwiększy się do 1100 zł. EgalitarySci, którzy w ten sposób rozumują, dodaliby, że skoro do
rozdysponowania jest łącznie 300 zł, należałoby raczej obu osobom podnieSć pensję o 150 zł, bo
wówczas nie zmieniłaby się różnica zarobków (przed i po podwyżce byłaby równa 1000 zł), a
stosunek wyższej do niższej płacy, równy 2 przed podwyżką, spadłby do poziomu 2150/1150=1.87.
Praktykę podnoszenia płac o ten sam procent dla różnych kategorii pracowników uzasadnia się
w ten sposób, że po podwyżce nie zmieni się udział każdej kategorii w funduszu płac. Osoba, która
zarabiała 1000 zł, a teraz zarabia 1100 zł, zarówno przed jak i po podwyżce otrzymuje 1/3 całego
funduszu płac, a druga osoba w obu przypadkach pobiera pozostałe 2/3.
JeSli nierównoSć społeczną rozumieć jako nierównoSć względnych udziałów w sumie dobra,
wówczas współczynnik nierównoSci powinien przyjmować tę samą wartoSć dla dwu rozkładów
(1000, 2000) oraz (1100, 2200) różniących się jedynie wielkoScią tortu do podziału. Takie właSnie
relatywne rozumienie nierównoSci przyjęło się w ekonomii i dlatego na miary nierównoSci nakłada
się jeszcze jeden warunek, eliminujący odchylenie standardowe, niezmienniczoSć ze względu na
przekształcenia skal właSciwe dla pomiaru stosunkowego.
!
Najprostszą miarą nierównoSci spełniającą wszystkie 4 postulaty (interpretacja wartoSci minimalnej,
zasada transferów, anonimowoSć, niezmienniczoSć) jest współczynnik zmiennoSci zdefiniowany jako
stosunek odchylenia standardowego do Sredniej arytmetycznej.
(V)
Można wykazać, że , skąd wynika, że . Maksymalna wartoSć współczynnika
zmiennoSci zależy zatem od wielkoSci populacji. Taka zależnoSć wydaje się pożądana, jeSli uznać,
że przechwycenie całego dobra przez członka małej grupy oznacza łagodniejszą nierównoSć, niż w
sytuacji gdy wykluczonych jest wielu. Z drugiej strony do porównań międzypopulacyjnych bardziej
3
nadaje się parametr, który przyjmuje wartoSci nie większe od 1 na mocy samej pierwotnej definicji,
nie zaS wtórnej normalizacji (podzielenia przez maksimum zależne od n). Takim parametrem jest
najpopularniejsza miara nierównoSci: współczynnik Giniego, zdefiniowany za pomocą wzoru:
(G1)
WielkoSć figurująca w liczniku (wyrażająca się wzorem podobnym do podanego wyżej równoważnego
okreSlenia wariancji) to połowa Sredniej arytmetycznej z bezwzględnych różnic wartoSci zmiennej
obliczonych dla wszystkich uporządkowanych par (i,j) jednostek. JeSli jednostki zostały
ponumerowanej w ten sposób, że x1 x2 xn, wzór (G1) jest równoważny wzorowi (G2), znacznie
ułatwiającemu obliczenie współczynnika Giniego, także z pomocą SPSS.
(G2)
Obliczanie G w SPSS PL dla zmiennej o nazwie X (okreSlonej dla n przypadków) składa się z
następujących kroków: (1) Najpierw obliczamy sumę wartoSci zmiennej X (Analiza Opis
statystyczny Statystyki opisowe; do standardowego zestawu statystyk trzeba dodać sumę, zaznaczając
odpowiednią opcję); (2) Tworzymy zmienną, której wartoSciami będą rangi proste (Przekształcenia Ranguj
obserwacje). Zmienną tę SPSS dołącza do listy zmiennych, nadając jej nazwę RX; (3) Tworzymy
pomocniczą zmienną, nazywając ją np. Z (Przekształcenia Oblicz wartoSci), za pomocą wzoru Z= RX*X;
(4) Dla zmiennej tej obliczamy Srednią arytmetyczną (Analiza itd.); (5) Rrednią dla Z mnożymy przez 2,
a wynik dzielimy przez sumę X wyznaczoną w kroku 1, po czym od ilorazu odejmujemy (n+1)/n. Kto chce
uniknąć wędrowania z okna do okna, zapisywania wyników i użycia na końcu kalkulatora, może przepisać
i wykonać program podany przez Górniaka i W achnickiego (2000, s. 145).
Wariant wzoru (G2) wraz z wzorem (G1) podaje encyklopedia matematyczna dostępna w Internecie
(patrz http://mathworld.wolfram.com/GiniCoefficient.html).
Wzór (G2) można wykorzystać także do dowodu, że współczynnik Giniego zachowuje zasadę
transferów. Załóżmy, że elementy populacji ponumerowano tak, że x1 x2 xn. Niech y oznacza
zmienną otrzymaną z x przez transfer o rozmiarze d>0 z i-tej do j-tej jednostki, gdzie iZachodzi wówczas następująca nierównoSć
,
(M=Mx=My), z której wynika, że po transferze wartoSć G roSnie. Ponieważ tekst ten piszę dla
studentów socjologii, opuszczę niezbyt trudny, acz nieco żmudny dowód powyższej nierównoSci jak
również dokładny wzór na różnicę Gy i Gx, który udało mi się wyprowadzić.
W edług Allisona (1978: 868) OsobliwoSć współczynnika Giniego polega na tym, że jego wrażliwoSć na
transfery zależy raczej od różnicy rang jednostek niż od wartoSci liczbowych . Dalej czytamy, że równoSć
Gy Gx =c(j i)d (c zależy od M i n) łatwo dowodzi się ze wzoru oznaczonego tu (G2). RzeczywiScie,
dowód jest trywialny, o ile założyć, że transfer zachowuje porządek wartoSci zmiennej, wszelako bez tego
założenia równoSć nie zachodzi, co autor przyznał, odpowiadając na moją uwagę przesłaną listem
elektronicznym.
Posługując się wzorem (G2), można bez trudu wykazać, że , skąd wynika nierównoSć
Gx<1. Ponieważ G oblicza się zwykle dla dużych prób, wartoSć maksymalną w praktyce można uznać
za równą 1, jednak przy małym n warto pamiętać, jaki jest rzeczywisty kres górny (równy 2 dla n=2).
4
Zadanie 1. Ze wzoru (G2) wyprowadzić wzór na współczynnik Giniego dla przypadku n=2, po czym obliczyć
wartoSć G dla opisanego wyżej przykładu płacowego przed podwyżką (x1=1000, x2=2000) i po podwyżce
proponowanej przez egalitarystę (x' =1150, x' =2150).
12
!
Omówię teraz jeszcze jedno równoważne okreSlenie współczynnika Giniego, związane z tzw. krzywą
Lorenza.
Niech x* , ,x* oznaczają różne wartoSci zmiennej x, ponumerowane w porządku wzrastania
1 k
(x* < 1 k
zaobserwowano wartoSć x* . Suma wartoSci zmiennej dla tych przypadków równa się nx* . Liczba
jj j
wszystkich przypadków oraz suma wszystkich wartoSci zmiennej x wyrażają się wtedy wzorami:
, , gdzie .
Zdefiniujemy teraz liczebnoSci skumulowane oraz skumulowane sumy wartoSci zmiennej za pomocą
następujących wzorów
.
Tak więc j-ta liczebnoSć skumulowana jest to liczba przypadków, dla których badana zmienna
przyjęła wartoSć mniejszą lub równą x* , natomiast j-ta suma skumulowana to suma wartoSci zmiennej
j
dla tych właSnie przypadków.
Dzieląc liczebnoSć skumulowaną nc przez liczbę wszystkich przypadków n otrzymujemy j-tą
j
skumulowaną częstoSć względną: . Podobnie okreSlamy skumulowany udział w sumie
wartoSci zmiennej: . Skumulowane częstoSci względne oraz skumulowane udziały
tworzą ciągi rosnące: c1< Przyjmijmy dodatkowo c0=u0=0 i w dwuwymiarowym układzie współrzędnych na płaszczyxnie
zaznaczmy punkty (0,0), (c1,u1),& ,(ck 1,uk 1), (1,1). Punkty te leżą w kwadracie, którego bok ma
długoSć 1, a wierzchołkami są punkty (0,0), (0,1), (1,1), (1,0). Łącząc odcinkami kolejne punkty,
otrzymujemy łamaną zwaną krzywą Lorenza. Ponieważ ujpomijam), łamana ta leży poniżej prostej przechodzącej przez punkty (0,0) i (1,1) zwanej linią
równego podziału dobra, co ilustruje Rys. 1. JeSli każdy posiada tyle samo dobra, wówczas linia ta
pokrywa się z krzywą Lorenza.
Im bardziej nierówny podział dobra, tym większy obszar pomiędzy krzywą Lorenza a linią równego
podziału. Stosunek pola tego obszaru do pola trójkąta o wierzchołkach (0,0), (1,0) i (1,1) może zatem
służyć jako miara stopnia koncentracji dobra.
Obliczmy najpierw pole obszaru leżącego pod krzywą Lorenzą a nad osią poziomą. Obszar ten jest
sumą k trapezów. Jak wiadomo, pole trapezu równe jest sumie boków równoległych pomnożonej
przez połowę wysokoSci. Dla trapezu zaznaczonego na rysunku przez wskazanie współrzędnych pole
wyraża się zatem wzorem 2(cj cj 1)(uj+uj 1). JeSli dodamy pola trapezów (pierwszy z nich redukuje
się do trójkąta prostokątnego), sumę odejmiemy od 2, czyli pola trójkąta o wierzchołkach (0,0), (1,0)
i (1,1), a różnicę podzielimy przez 2, dostaniemy wzór
, (G3)
5
Rys. 1. Krzywa Lorenza
który, jak się okazuje, stanowi jeszcze jedną równoważną definicję współczynnika Giniego. Taką
definicję podaje internetowa Wikipedia (http://en.wikipedia.org/wiki/Gini_coefficient).
!
Dla ilustracji pokażę teraz przykład liczbowy. Niech X1 oznacza zmienną okreSloną jako minimalna
płaca, jaką powinien otrzymywać absolwent wyższej uczelni . Pytanie o opinię na ten temat zadano
w badaniach wykonanych w połowie lat 70. ubiegłego wieku na próbie złożonej z około 750
studentów 5 krakowskich uczelni. Ostatecznie w bazie przygotowanej na ćwiczenia ze statystyki
znalazły się 704 przypadki.
Baza danych, zapisana pierwotnie na kartach dziurkowanych, po wczytaniu przez komputer (dostępny
wówczas w międzyuczelnianym centrum obliczeniowym Cyfronet) została wydrukowana za pomocą
dołączonej do niego drukarki. Gdy w 1998 roku przepisywałem tę bazę z papieru do pliku komputerowego
(w celu zademonstrowania studentom zastosowania SPSS do obliczeń), nie udało mi się odczytać
kilkunastu rekordów z wyblakłego wydruku. Ponadto, aby zapewnić jednorodnoSć populacji, odrzuciłem
nieliczne przypadki, w których badani podawali bardzo duże liczby (pensje powyżej 10000 ówczesnych
złotych).
W zbiorze tym zmienna X1 przyjęła wartoSci w zakresie od 1.2 (1200 zł) do 7.0 (7000 zł), jednak poza
przedziałem [2.0,5,0] znalazło się tylko 2% przypadków (jako ciekawostkę podam, że na stanowisku
starszego asystenta zarabiałem wówczas 3600 zł). Rrednia arytmetyczna wyniosła 2.98 a odchylenie
standardowe 0.72. Tak więc współczynnik zmiennoSci jest równy 0.72/2.98=0.24. Współczynnik
Giniego obliczony za pomocą SPSS w sposób wyżej opisany wyniósł 0.127.
Zadanie 2. Ze wzoru (G2) obliczyć V i G dla zmiennych X1 ( minimalna płaca po studiach ) i X2
( maksymalna płaca po studiach ) w 20-elementowej próbie losowej (przydzielonej każdemu na zajęciach).
W zbiorowoSci liczącej 704 jednostki zmienna X1 przyjęła 29 różnych wartoSci, jednak aż 90%
zapytanych o pożądaną minimalną płacę po studiach, podało 7 okrągłych wartoSci: 2.0, 2.5, 3.0,
3.5, 4.0, 4.5, 5.0. ZbiorowoSć złożona z tych 636 osób posłuży nam do prezentacji techniki obliczania
współczynnika Giniego przy użyciu wzoru (G3). Liczby podane w kolumnach (cj) i (uj) Tabeli 1
wykorzystane zostały także do zilustrowania krzywej Lorenza na Rys. 1.
Najpierw obliczamy sumy mnożąc wartoSci zmiennej w kolumnie (x* ) przez ich liczebnoSci podane
j
w kolumnie (nj). Po dodaniu sum zapisanych w kolumnie (Sumj) wyznaczamy sumy skumulowane
(Sumc ) oraz udziały (uj). Na koniec wypełniamy dwie ostatnie kolumny (uj+uj 1) i (nj(uj+uj 1)).
j
6
Następnie sumę ostatniej kolumny dzielimy przez n, otrzymując 560.093/636=0.881. Odejmując tę
liczbę od 1, dostajemy współczynnik Giniego równy 0.119. Jest to wartoSć nieznacznie mniejsza od
obliczonej z danych surowych dla 704 jednostek.
Tabela 1. Obliczanie współczynnika Giniego dla zmiennej skokowej z użyciem wzoru (G3)
j x* nj nc Sumj Sumc cj (%) uj (%) uj+uj 1 nj(uj+uj 1)
j
j j
1 2.0 79 79 158.0 158.0 12.4 8.3 0.083 6.557
2 2.5 146 225 365.0 523.0 35.4 27.5 0.358 52.268
3 3.0 245 470 735.0 1258.0 73.9 66.0 0.935 229.075
4 3.5 78 548 273.0 1531.0 86.2 80.4 1.464 114.192
5 4.0 61 609 244.0 1775.0 95.8 93.2 1.736 105.896
6 4.5 10 619 45.0 1820.0 97.3 95.5 1.887 18.870
7 5.0 17 636 85.0 1905.0 100.0 100.0 1.955 33.235
636 1905.0 560.093
Zadanie 3. Allison (1978: 868) twierdzi, że Dla rozkładu dochodów o typowym kształcie, indeks Giniego
wykazuje większą wrażliwoSć na transfery w obrębie Srodka rozkładu niż na transfery pomiędzy bardzo
bogatymi bądx bardzo biednymi . Zmodyfikujmy rozkład przedstawiony w Tabeli 1 w ten sposób, że dla
27 jednostek, które podały wartoSć 3.0, wykonujemy transfer rozmiaru 0.5 na korzySć 27 jednostek, które
podały wartoSć 3.5. Po tej operacji liczba przypadków o wartoSci 2.5 będzie równa 146+27=173, liczba
przypadków o wartoSci 3.0 spadnie do poziomu 245 27=218. Spadnie także o 27 liczba przypadków o
wartoSci 3.5, osiągając liczebnoSć 78 27=51, wzroSnie natomiast do poziomu 88=61+27 liczba
przypadków o wartoSci 4.0. Nie zmieni się liczebnoSć najbiedniejszych (wartoSć 2.0) i najbogatszych
(wartoSci 4.5 i 5.0).
Rozważmy z kolei inną modyfikację rozkładu polegającą na transferach rozmiaru 0.5 w obrębie
prawego ogona rozkładu: 27 z 61 jednostek o wartoSci 4.0 oddaje 0.5 punktu 27 jednostkom wartoSci
ach 4.5 i 5.0. Nowe liczebnoSci będą wtedy równe: 3.5: 78+27=105, 4.0: 61 27=34, 5.0: 10, 5.5: 17. Znika
grupa 4.5, a grupy 2.0, 2.5 i 3.0 zachowują dotychczasowe liczebnoSci.
Obliczyć współczynnik Giniego dla dwu nowych rozkładów, wypełniając tabelę analogiczną do Tabeli 1
(zainteresowani zaliczeniem na ocenę co najmniej dobrą niech narysują także krzywe Lorenza).
Choć zmienna X1 przyjmuje skokowe wartoSci dla większoSci przypadków, jej rozkład można badać
także w sposób przyjęty dla zmiennych ciągłych, w szczególnoSci można skonstruować przedziały
klasowe i zilustrować rozkład za pomocą histogramu.
Tabela 2. Obliczanie współczynnika Giniego z danych pogrupowanych
j x nj nc Sumj Sumc cj (%) uj (%) uj+uj 1 nj(uj+uj 1)
j
j
1 2.25 95 95 187.3 187.3 13.5 8.9 0.089 8.455
2 2.25 2.75 163 258 407.4 584.7 36.6 28.4 0.373 60.799
3 2.75 3.25 270 528 805.7 1400.4 75.0 66.8 0.952 257.040
4 3.25 3.75 80 608 280.2 1680.6 86.4 80.2 1.470 117.600
5 3.75 4.25 63 671 252.0 1932.6 95.3 92.2 1.724 108.612
6 4.25 33 704 163.6 2096.2 100.0 100.0 1.922 63.426
704 2096.2 615.932
7
Rys. 2. Ilustracja rozkładu w Tabeli 2.
W Tabeli 2 zastosowano przedziały o długoSci 0.5 i rozmieszczono je tak, by Srodki przedziałów
pokrywały się z wartoSciami najczęSciej wskazywanymi, gdyż wówczas Srodki będą się niewiele różnić
od wartoSci Srednich zmiennej w przedziałach (podobnie jest w sytuacji, gdy obserwacje rozkładają
się równomiernie w przedziale). Przedział pierwszy i ostatni pozostawiono otwarte odpowiednio od
dołu i od góry.
Do obliczenia współczynnika Giniego z danych pogrupowanych potrzebna jest znajomoSć sumy
ogólnej (aby ją wyznaczyć wystarczy znać Srednią arytmetyczną i liczebnoSć populacji) oraz sum
wartoSci zmiennej w przedziałach.
JeSli nie znamy tych sum (np. gdy w raporcie z badań wykonanych przez kogoS innego podany jest tylko
rozkład dochodów w przedziałach), możemy je oszacować, mnożąc Srodki przedziałów przez liczebnoSci.
Rrodek przedziału można wyznaczyć tylko wtedy, gdy znane są końce przedziału. JeSli tylko jeden
przedział skrajny ma nieokreSloną dolną/górną granicę, wówczas odpowiednią sumę dostaniemy,
odejmując od sumy ogólnej sumę sum dla pozostałych przedziałów. JeSli oba przedziały skrajne są
półotwarte, proponuję wybrać jako reprezentanta pierwszego przedziału liczbę otrzymaną przez odjęcie
od górnej granicy połowy długoSci drugiego przedziału.
Dalsze obliczenia przebiegają tak samo jak dla zmiennej skokowej, Sumę w ostatniej kolumnie
dzielimy przez n, otrzymując w naszym przykładzie: 615.932/704=0.875, a stąd G=0.125. Jest to
liczba o 0.002 mniejsza od wartoSci obliczonej z danych surowych.
!
Współczynnik Giniego niektórzy socjologowie skłonni są stosować także wtedy, gdy zmienna
przyjmuje wartoSci nieujemne, nie dające się jednak interpretować jako przydziały pewnego dobra
przekazywalnego. Co miałby oznaczać transfer dla zmiennej takiej jak wiek lub status? Co do wieku,
mamy przynajmniej zapewnioną mierzalnoSć na skali stosunkowej, lecz dla statusu pojęcie zera
absolutnego nie ma znaczenia, co więcej, sama mierzalnoSć tej zmiennej na skali mocniejszej niż
porządkowa wydaje się problematyczna.
Blau zignorował ten problem, dopuszczając stosowanie współczynnika Giniego także w tym przypadku,
chciał bowiem nadać sens iloSciowy pojęciu nierównoSci społecznej, aby móc testować swoją teorię, a że
nie znalazł miernika nierównoSci dostosowanego do słabszych poziomów pomiaru, zdecydował się na
najbardziej popularny parametr, idąc Sladem wielu socjologów, sądzących, że do obliczeń potrzebne są
tylko liczby, a czas na interpretację przyjdzie wtedy, gdy zastosowanie parametru umożliwi wykrycie jakichS
niebanalnych prawidłowoSci (mój stosunek do tej praktyki jest raczej tolerancyjny niż purystyczny).
Jak już wiemy, współczynnik nierównoSci, który spełnia warunek niezmienniczoSci ze względu na
8
przekształcenia zmiennej postaci y=ax, gdzie a>0, nie mierzy zróżnicowania bezwzględnych kwot
dobra przydzielonych jednostkom, lecz zróżnicowanie udziałów w puli niezależnie od jej rozmiaru. Dla
V i G wyrażają to wzory i będące szczególnymi przypadkami wzorów :
i dla dowolnego a>0.
Transformację y=ax dla a<1 (np. a=0.85) można interpretować jako spadek dochodu wynikający
z zastosowania podatku liniowego o stopie 1 a (np. 15%). NiezmienniczoSć V i G implikuje zatem
ważną własnoSć tej formy opodatkowania: po Sciągnięciu podatku nierównoSć dochodów pozostaje
na tym samym poziomie.
Zadanie 4. Czy podatek progresywny zmniejsza nierównoSć dochodową? Dla zbadania tego problemu
okreSlić hipotetyczną populację złożoną ze 100 jednostek, w której w odpowiednich proporcjach występują
3 kategorie podatników: o dochodzie niskim, Srednim i wysokim (wskazać 3 częstoSci sumujące się do 100
oraz 3 liczby z przedziału [10,50] jako wartoSci zmiennej dochód ). Dla każdej kategorii zaproponować
stopę podatku (w zakresie od 10% do 50%) tak, by spełniony był warunek progresywnoSci (im wyższy
dochód tym wyższa stopa podatku), a następnie obliczyć współczynnik Giniego dla rozkładu dochodów
przed i po opodatkowaniu. Osoby, które znają jakiS język programowania, niech spróbują napisać program
wykonujący obliczenia dla dowolnego zestawu 9 liczb spełniającego warunki zadania.
Zauważmy jeszcze, że zwiększenie każdej osobie jej aktualnego stanu posiadania dobra o
identyczną kwotę c>0 (wskutek czego suma dobra wzrasta o nc) pociąga za sobą spadek
nierównoSci w stosunku równym Mx/Mx+c. Istotnie, ponieważ sx+c=sx oraz Mx+c=Mx+c, mamy
, a stąd Vx+cposługując się wzorem definicyjnym (G1), w którym dodanie c do xi i xj nie zmienia różnicy xi xj.
Zmiana postaci y=bx+c, gdzie b 1 i c>0 (przyrost dochodu proporcjonalny do aktualnego stanu
posiadania plus premia o wysokoSci identycznej dla każdej osoby) także zmniejsza nierównoSć,
ponieważ . Okazuje się jednak, że rzeczywiste procesy społeczno-gospodarcze
odbiegają od tego modelu: wzrostowi ogólnego dobrobytu z reguły towarzyszy wzrost nierównoSci.
Oznacza to, że dochód nie roSnie w jednakowym stopniu w każdej grupie.
Czy stopa wzrostu jest tym wyższa, im wyższy dochód? Nie wiem. Gdy w latach 70-tych uczono mnie
makrosocjologii, obowiązywała marksistowska teoria polaryzacji struktury społecznej, która podpowiada
odpowiedx twierdzącą na postawione wyżej pytanie, jednak w podręcznikach trudno było wówczas znalexć
jakieS dane empiryczne na poparcie owej teorii. Gdy 25 lat temu sam po raz pierwszy podjąłem ten temat
(T. Sozański. Zmiany strukturalne a proces polaryzacji społeczeństwa . W : Elementy socjologii
dialektycznej.Pod red. P. Sztompki. Warszawa-Poznań 1981), moja wiedza teoretyczna, metodologiczna
i empiryczna o nierównoSci społecznej była minimalna. Lektura odpowiedniego hasła we współczesnej
Encyklopedii Socjologii (B. Mach. RównoSć i nierównoSć społeczna . t.3, W arszawa 2000) niewiele
zmieniła ten stan rzeczy. W ięcej informacji o rozwarstwieniu dochodów w różnych krajach można znalexć
w Internecie. Tak więc (podaję za W ikipedią) W Stanach Zjednoczonych współczynnik Giniego dla
dochodów w latach spisowych 1970, 1980, 1990, 2000 był równy odpowiednio: 0.394. 0.403, 0.428, 0.462.
W Polsce w latach 1996 98 był równy 0.33. Zainteresowanych socjologiczną problematyką nierównoSci
odsyłam do wspomnianego wyżej podręcznika Domańskiego. Może ktoS zechciałby przygotować referat
na ten temat na podstawie samodzielnie wyszukanej literatury?
Dla parametru przyjmującego wartoSci z przedziału [0,1], praktycy oczekują zwykle od teoretyków
podzielenia zakresu jego wartoSci na interwały opisane za pomocą wyrażeń: wartoSci niskie ,
Srednie i wysokie . Decyzja w tej materii należy jednak raczej do użytkowników statystyki niż
teoretyków. Prof. Golinowska (podaję za Polityką nr 46 z 19/11/2005) uważa, że dla współczynnika
Giniego wartoScią progową, oddzielającą strefę wartoSci umiarkowanych od strefy wartoSci wysokich,
jest 0.40. Gdy G przekroczy tę wartoSć, nierównoSć staje się problemem społecznym .
9
Sama wartoSć G nie mówi wszystkiego o postaci rozkładu dochodów. Dwa rozkłady o tej samej
wartoSci G mogą znacznie się różnić kształtem krzywej Lorenza. Krzywe Lorenza dla dwu rozkładów
mogą się przecinać, wszelako gdy jedna leży pod drugą, każdy współczynnik nierównoSci spełniający
omówione wyżej postulaty przyjmie wyższą wartoSć dla tego rozkładu, dla którego krzywa położona
jest niżej (twierdzenie to podaję za Allisonem, który z kolei powołuje się na publikacje innych autorów).
W tej sytuacji nie dziwi popularnoSć współczynnika Giniego, preferowanego ze względu na najbardziej
intymny związek z krzywą Lorenza, prostotę i łatwoSć obliczania.
!
Poza współczynnikiem zmiennoSci V, najpoważniejszym konkurentem dla G wydaje się współczynnik
Theila, oparty na funkcji entropii, wprowadzonej przez Shannona w latach 40. XX wieku w kontekScie
teorii informacji i kodowania.
Niech p=(p1,& ,pn) oznacza n-wymiarowy rozkład prawdopodobieństw, czyli ciąg liczb taki, że pi 0
dla każdego i oraz . Liczby te można traktować jako prawdopodobieństwa parami
rozłącznych zdarzeń A1, & An, których suma jest zdarzeniem pewnym, tzn. jedno z tych zdarzeń
zawsze zachodzi. W epistemologii, a także teorii decyzji, p1,& ,pn interpretuje się jako
prawdopodobieństwa subiektywne przypisywane przez badacza/decydenta parami wykluczającym
się hipotezom/stanom Swiata. Entropia rozkładu p to wielkoSć okreSlona wzorem
,
w którym podstawa logarytmu może być dowolną liczbą dodatnią, np. e, 10 lub 2 (logarytm naturalny,
dziesiętny, dwójkowy). JeSli pi=0, przyjmujemy dodatkowo, że pilog pi =0 (funkcja logarytmiczna jest
okreSlona tylko dla liczb dodatnich). Dalej potrzebne będą dwie ważne własnoSci funkcji H:
(1) H(p1,& pn) 0, przy czym H(p1,& pn)=0 wtedy i tylko wtedy gdy pj=1 dla pewnego j (w
konsekwencji pi=0 dla każdego i j).
(2) H(p1,& pn) log n, przy czym H(p1,& pn)=log n wtedy i tylko wtedy, gdy dla każdego i: pi=1/n
.
Dzięki tym własnoSciom entropię można traktować jako miarę niepewnoSci wyniku doSwiadczenia
losowego, a przy subiektywnym rozumieniu prawdopodobieństwa jako stopień niepewnoSci
badacza, który ma zdecydować, która z n konkurencyjnych hipotez ma być przyjęta jako najbardziej
wiarygodna. JeSli doSwiadczenie ma tylko jeden możliwy wynik z prawdopodobieństwem 1 lub
wiadomo, która hipoteza jest prawdziwa, niepewnoSć jest równa 0. Gdy wszystkie wyniki (hipotezy)
są jednakowo prawdopodobne (wiarygodne), niepewnoSć jest największa i równa 1, gdy jako
podstawę logarytmu wziąć n.
Rozważmy najprostsze doSwiadczenie losowe rzut regularną monetą lub dylemat, jaki ma
badacz (sędzia), który uważa za jednakowo wiarygodne dwie sprzeczne odpowiedzi na dane pytanie
dychotomiczne (np. czy podejrzany jest sprawcą zarzucanego mu przestępstwa). Przy zastosowaniu
w definicji entropii logarytmu dwójkowego mamy wówczas H(2.2)=1. Przez otrzymanie 1 bita
informacji rozumie się redukcję niepewnoSci w takiej właSnie sytuacji.
H nie jest jedyną funkcją rozkładu prawdopodobieństw osiągającą minimum dla rozkładów skupionych
w jednym punkcie, a maksimum dla rozkładu równomiernego.
Inna taką funkcją, w statystyce znajdującą zastosowanie m.in. do konstrukcji miar siły zależnoSci dla
zmiennych nominalnych, jest funkcja dana prostszym wzorem: pi(1 pi). Zainteresowanych tym tematem,
10
a nie lękających się matematyki, odsyłam do mojego artykułu ( Measures of Association for Nominal
Variables. W : Problems of Formalization in the Social Sciences. Pod red. K. Szaniawskiego. Ossolineum
1977). W teorii informacji stosuje się miarę niepewnoSci opartą na funkcji logarytmicznej ze względu na
addytywnoSć entropii dla rozkładów niezależnych. Dla wyjaSnienia rozważmy dwa rozkłady
prawdopodobieństw, n-wymiarowy p=(p1,& pn) i m-wymiarowy q=(q1,& qm) i utwórzmy z nich rozkład
nm-wymiarowy r, w którym prawdopodobieństwa dane są wzorem rij=pq. AddytywnoSć entropii oznacza,
i j
że H(r)=H(p)+H(q).
Po tym przygotowaniu nietrudno domySlić się, jak będzie wyglądać konstrukcja współczynnika
nierównoSci Theila. Pomysł, polegający na obliczeniu entropii dla rozkładu p takiego, że pi=xi/Sum(x),
opiera się jedynie na formalnej analogii między n-wymiarowymi rozkładami prawdopodobieństwa a
relatywnymi podziałami puli zasobów, nie ma jednak głębszego związku z teorią informacji. Tak
okreSlony współczynnik przyjmuje wartoSć maksymalną (równą log n) wtedy i tylko wtedy gdy pi=1/n,
czyli gdy xi=Sum(x)/n=Mx, jest więc raczej miarą równoSci, skoro najwyższą wartoSć przyjmuje dla
równego podziału. Aby otrzymać miarę nierównoSci, wystarczy jednak zastosować przekształcenie
odwracające porządek: Tx=H(x/Sum(x)) log n. Kto zna podstawowe własnoSci logarytmu, łatwo już
stąd wyprowadzi podany niżej wzór, za pomocą którego Theil zdefiniował współczynnik T:
(T)
Jego znormalizowaną wersję otrzymuje się, dzieląc Tx przez log n. Operacja ta, uważana przez
wynalazcę za opcjonalną, wydaje się pożądana, gdyż nie tylko wprowadza maksimum równe 1
niezależne od n, lecz znosi równoczeSnie zależnoSć parametru od arbitralnie wybranej podstawy
logarytmu.
!
Post scriptum. Już po napisaniu tego tekstu zapoznałem się komentarzem Guillerminy Jasso do
artykułu Allisona i repliką autora (G. Jasso. On Gini's Mean Difference and Gini's Index of
Concentration. American Sociological Review 44, 1979: 867 870; P. Allison. Reply to Jasso. Idem:
870 872). Jasso (s. 869) także wytknęła Allisonowi błąd, o którym pisałem wyżej (uwaga
zamieszczona na dole strony 4), zaS Allison (s. 871) przyznał jej rację w tym punkcie.
W swoim komentarzu Jasso zaproponowała także modyfikację współczynnika Giniego polegającą
na pominięciu we wzorze (G1) par uporządkowanych postaci (i,i), gdyż dla każdej takiej pary różnica
wartoSci zmiennej x automatycznie równa się 0. Liczba wszystkich par uporządkowanych (i,j), dla
których trzeba zsumować bezwzględne różnice |xi xj| będzie wtedy równa n2 n=n(n 1) i przez tę
właSnie liczbę zdaniem Jasso należy podzielić sumę, by uzyskać Srednią absolutną różnicę wartoSci
zmiennej. Poprawiony przez nią w ten sposób współczynnik Giniego (wzór (b) na s. 867)
oznaczmy go tu G' okazuje się równy (n/(n 1))G, gdzie G dane jest wzorem (G1). G' pokrywa się
zatem ze znormalizowaną wersją G i osiąga maksymalną wartoSć w tej samej sytuacji, tyle że równą
1 dla każdego n, co można uznać za plus tej propozycji. Wszelako, jak słusznie zauważył Allison,
odpowiadając Jasso, taka modyfikacja ma też niepożądane konsekwencje. Po pierwsze, zaciera się
związek z krzywą Lorenza. Po drugie, wersja indeksu Giniego, podana przez Jasso, nie posiada
pewnej narzucającej się własnoSci, którą Sen (1973) nazywa aksjomatem symetrii populacji. (Allison
1979: 871).
Amartya Sen otrzymał nagrodę Nobla z ekonomii w 1998 roku przede wszystkim za badania nad
nierównoScią ekonomiczną (On Economic Inequality New York 1973), lecz doceniony został także jego
wkład (odkrycie paradoksu liberalizmu ) do znanej mi bliżej teorii wyboru społecznego . Zaintere-
sowanych tą problematyką zapraszam na kurs Modele formalne w polityce (II semestr roku
akademickiego 2005/2006)
11
Aby wyjaSnić sens tego aksjomatu, dwie populacje n-elementowe o identycznych rozkładach
dochodów połączmy w jedną populację o 2n jednostkach. Po tej operacji podwojeniu ulegnie też
suma dobra, gdyż każda wartoSć zmiennej będzie występować dwukrotnie częSciej. CzęstoSci
względne będą jednak takie same. Postulat Sena głosi, że wówczas stopień nierównoSci też powinien
pozostać niezmieniony. Oryginalny współczynnik Giniego zachowuje się w ten sposób,co wynika ze
wzoru (G3), w którym cj cj 1=nj/n, uj=Sumc /Sum(x). Połączenie dwu populacji spowoduje podwojenie
j
nj, n, Sumj, Sumc i Sum(x), lecz wielkoSci okreSlone jako stosunki liczebnoSci i stosunki sum nie
j
zmienią się!
Współczynnik G' nie spełnia postulatu Sena. Przykładowo dla rozkładu maksymalnie skoncentro-
wanego (0,1) mamy G=2, G'=1, a dla połączenia dwu egzemplarzy takiego rozkładu, czyli rozkładu
(0,0,1,1), mamy G=2, lecz G'=(4/3)2=2/3.
Na zakończenie, do wszystkich, którzy znajdą ten tekst w Internecie, a mają większą ode mnie wiedzę
i orientację w literaturze przedmiotu, kieruję proSbę o nadsyłanie uwag i informacji bibliograficznych,
które pomogłyby mi ulepszyć wykład, a ewentualnie przygotować artykuł nadający się do druku.
http://www.cyf-kr.edu.pl/~ussozans/
12

Wyszukiwarka

Podobne podstrony:
5 miary zmiennosci wzory
Modul 3 Zroznicowanie i nierownosci spoleczne
miary zmiennosci
Statystyczny opis zmienności zasobności jednostkowej miedzi ekwiwalentnej (Cue)
LISTA 3 miary zmiennosci[1]
nierownosci spoleczne wyklad 6
Edukacja i nierówności społeczne fragment
Analiza wstepna branz, wybor spolek i miary zmiennosci
Miary obciążenia zdrowotna społecznego nowe mierniki sytuacji zdrowotnej ludności
20151012 MichalTrzesiok Statystyka wyklad2 miary statystyczne handout
Miary statystyczne
Miary obciazen zdrowotno spolecznych ab[1]
Statystyka zadania1 miary tendencji?ntralnej

więcej podobnych podstron