statystyka w2


Wykład 2
Średnią geometryczną ! dodatnich liczb x1, . . . , xn nazywamy


n

n

! = xi.
i=1
Średnią geometryczną ważoną obliczamy ze wzoru:
k

n
! = xn1 . . . xnk, gdzie n = ni.
1 k
i=1
Ż
Średnią harmoniczną h, różnych od zera liczb x1, . . . , xn, nazywamy
-1 n
n

1 1 1
Ż
h = , = 0.

n xi xi
i=1 i=1
Ż
Średnią harmoniczną ważoną h
-1
k

1 ni
Ż
h = .
k xi
i=1
Między średnimi zachodzą następujące związki:
Ż
h ! x.
Ż
Równości otrzymamy w przypadku, gdy x1 = . . . = xn.
Przykład 1.
Trzech robotników o różnych kwalifikacjach wykonuje tę samą pracę. W ciągu 8 godzin pracy
pierwszy wykonuje 120 elementów, drugi  80, a trzeci  60. Jaki jest średni czas wykonania
jednego elementu przez ten zespół robotników?
Ozn.
ti, i = 1, 2, 3,  czas (w minutach) wykonania jednego elementu przez i-tego robotnika:
8 60 8 60 8 60
t1 = = 4, t2 = = 6, t3 = = 8.
120 80 60
Ż
Niech t będzie średnim czasem wykonania jednego elementu przez zespół.
Wszystkich elementów wykonano:
8 60 8 60 8 60 8 60 8 60 8 60
+ + = + + .
Ż Ż Ż
t1 t2 t3 t t t
Ż
Czyli t jest średnią harmoniczną czasów t1, t2 i t3:

1 1 1 1 7
Ż
t = + + = 5 (min).
3 4 6 8 13
Przykład 2.
Dobowe zużycie gazu w ciągu kolejnych dziesięciu dni w pewnym przedsiębiorstwie wynosiło
w metrach sześciennych: 30, 43, 52, 35, 44, 41, 27, 33, 34, 51. Wyznaczyć średnie zużycie
dobowe gazu w tym czasie.
1
xi, i = 1, . . . , n  zużycie gazu w ciągu n = 10 dni,
x  średnie zużycie gazu.
Ż
n

1 1
x = xi = (30 + 43 + 52 + 35 + 44 + 41 + 27 + 33 + 34 + 51) =
Ż
n 10
i=1
= 39(m3).
Przykład 3.
Wyznaczyć wartości modalne próbek:
Próbka I: 16, 13, 15, 17, 16, 16, 15, 14, 12, 17, 16, 18, 14, 15, 17, 16.
Próbka II: 27, 24, 28, 24, 25, 23, 29, 26, 29, 25.
Liczności w poszczególnych próbkach:
Próbka I ma wartość modalną md = 16, próbka II wartości modalnej nie ma.
Przykład 4.
Wyznaczyć medianę dla szeregu rozdzielczego:
8

Ponieważ liczność próbki n = ni = 91 jest liczbą nieparzystą, więc mediana jest środkową
i=1
wartością w uporządkowanej próbce x1, . . . , x91, czyli me = x46.
Mediana leży więc w trzeciej klasie, ponieważ
n1 + n2 = 44 < 46
a
n1 + n2 + n3 = 60 > 46,
czyli
26 < me < 28.
2
Załóżmy, że wartości znajdujące się w trzeciej klasie rozłożone są w niej równomiernie. Ponieważ
46 - (n1 + n2) = 2, a liczność przedziału zawierającego medianę jest równa 16, więc mediana

2 1
jest większa od dolnej granicy trzeciej klasy, tj. od 26, o - długości klasy. Zatem
16 32

2 1
me = 26 + - 2 = 26, 1875.
16 32
Ogólnie, medianę dla szeregu rozdzielczego wyznacza się według wzoru:

m-1

b n
me = xl + - ni ,
nm 2
i=1
gdzie
xl  lewy koniec klasy zawierającej medianę,
m  numer klasy zawierającej medianę,
n  liczność próbki,
ni  liczność i-tej klasy,
b  długość klasy.
W przypadku szeregu rozdzielczego, jak na poniższym rysunku
charakteryzującego się tym, że badana cecha przyjmuje wartości z przedziałów (a1, b1) oraz
(a2, b2) takich, że a2 - b1 = rb, r = 1, 2, . . . , gdzie b jest długością klasy, a sumy liczności
klas z przedziałów (a1, b1) i (a2, b2) są równe. Wówczas przedział (b1, a2) nazywamy przedziałem
median, co oznacza, że każdą liczbę z tego przedziału można uważać za medianę, czyli mediana
nie w każdym przypadku jest określona jednoznacznie.
Przykład 5.
Wyznaczyć modę dla szeregu rozdzielczego zawierającego dane o wzroście (w cm) grupy 117
osób (cecha ciągła):
Klasą zawierającą wartość modalną jest klasa piąta, tzn.
167, 5 < Mo < 172, 5.
3
Gdyby liczności sąsiednich klas, tzn. czwartej i szóstej były jednakowe, wtedy za modę
przyjelibyśmy środek piątej klasy, czyli liczbę 170.
W naszym zadaniu liczności sąsiednich klas są różne i różnią się od liczności klasy piątej
odpowiednio o 11 i 14. Za wartość modalną przyjmujemy liczbę z klasy modalnej, która dzieli
tę klasę w stosunku 11 : 14, a więc
11
Mo = 167, 5 + 5 = 167, 5 + 2, 2 = 169, 7.
11 + 14
Podsumowując: modą (ozn. md lub Mo) w szeregu rozdzielczym nazywamy środek najlicz-
niejszej klasy w przypadku, gdy liczności klas sąsiednich są identyczne, albo  w przypadku,
gdy liczności sąsiednich klas są różne  liczbę wyznaczoną wg wzoru:
nl - nl-1
Mo = xl + b,
(nl - nl-1) + (nl - nl+1)
gdzie
xl  dolna granica klasy modalnej,
nl  liczność klasy modalnej,
nl-1 i nl+1  liczności sąsiednich klas,
b  długość klasy.
Moda zależy od podziału na klasy.
Jeśli w szeregu rozdzielczym najliczniejsze są skrajne klasy, to szereg taki nazywamy anty-
modalnym typu U, a środek najmniej licznej klasy antymodą.
Mogą też wystąpić inne przypadki antymodalnych szeregów.
Miary rozproszenia - uzupełnienie
Wartości w uporządkowanej próbce x1, . . . , xn dzielimy na dwie grupy: do pierwszej zali-
czamy wszystkie wartości mniejsze od mediany i medianę, do drugiej zaś medianę i wszystkie
wartości większe od mediany.
Kwartylem dolnym Q1 próbki x1, . . . , xn nazywamy medianę pierwszej grupy wartości.
Kwartylem górnym Q3 próbki x1, . . . , xn nazywamy medianę drugiej grupy wartości.
Odchylenie ćwiartkowe Q jest połową różnicy między górnym i dolnym kwartylem:
Q3 - Q1
Q = .
2
" Percentyle - definiuje się jako wartości cechy badanej zbiorowości, przedstawionej w
postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem
liczby jednostek, części te pozostają do siebie w określonych proporcjach.
4
Przykład 6.
Wyznaczyć wszystkie miary rozproszenia 25-elementowej próbki: 2,15; 2,31; 2,85; 2,29; 3,11;
2,62; 2,47; 2,97; 3,01; 2,52; 2,18; 2,73; 2,61; 2,41; 2,27; 2,54; 2,33; 2,81; 2,73; 2,19; 3,08; 2,75;
3,00; 2,43; 2,55.
n

1
x = xi = 2, 5964;
Ż
n
i=1
n

1
s2 = x2 - x2 = 0, 0849;
Ż
i
n
i=1
s = 0, 2913.
Aby policzyć inne miary, trzeba próbkę uporządkować:
2,15; 2,18; 2,19; 2,27; 2,29; 2,31; 2,33; 2,41; 2,43; 2,47; 2,52; 2,54; 2,55; 2,61; 2,62; 2,73; 2,73;
2,75; 2,81; 2,85; 2,97; 3,00; 3,01; 3,08; 3,11.
Teraz możemy wyznaczyć medianę oraz dolny i górny kwartyl:
me = x(13) = 2, 55; Q1 = x(7) = 2, 33; Q3 = x(19) = 2, 81.
Ponadto:
Q3 - Q1 2, 81 - 2, 33
Q = = = 0, 24.
2 2
Przykład 7.(Cecha typu dyskretnego)
Wyznaczyć średnią, wariancję i odchylenie standardowe:
Liczba Liczba
zgłoszeń odcinków xini x2ni
i
xi czasowych ni
0 50 0 0
1 100 100 100
2 80 160 320
3 40 120 360
4 20 80 320
5 10 50 250
n = 300 510 1350
Średnia w próbie:
6

1
x = xini H" 1, 7.
Ż
300
i=1
Wariancja w próbie:
ł
2 łł
6
6
xini
1 i=1
ł śł
s2 = x2ni - H" 1, 61.
ł ł
i
300 n
i=1
Ocena wariancji:
1
%5ń2 = 483 H" 1, 62.
299
Ocena odchylenia standardowego:

%5ń = 1, 62 H" 1, 27.
5
Przykład 8.(Cecha o rozkładzie ciągłym)
Wyznaczyć średnią, wariancję i odchylenie standardowe:
Wytrzymałość Liczba
(kG/cm2) próbek xi ui uini u2ni
i
ni
190 200 10 195 -2 -20 40
200 210 26 205 -1 -26 26
210 220 56 215 0 0 0
220 230 64 225 1 64 64
230 240 30 235 2 60 120
240 250 14 245 3 42 126
200 120 376
Średnia w próbie: x = 221
Ż
Odchylenie standardowe: sx H" 12, 34
Ćwiczenie (Cecha o rozkładzie ciągłym)
Wyznaczyć wszystkie parametry rozkładu wieku czytelników (średnią, wariancję, odchylenie
standardowe, ocenę wariancji, oc. odchyl. stand., współczynnik asymetrii, kurtozę).
Wiek Liczba Środki
(lata) czyteln. przedz. x0ni (x0)2ni (x0 - x)2ni
Ż
i i i
xi ni klas. x0
i
15 25 8
25 35 10
35 45 15
45 55 39
55 65 37
65 75 11
120 
Gdy rozkład liczności badanej cechy ciągłej jest jednomodalny, liczności klas maleją do zera
w obu kierunkach, wtedy od wariancji obliczonej dla utworzonego szeregu rozdzielczego pewnej
cechy ciągłej x1, . . . , xn (w celu dokładniejszego jej obliczenia) odejmuje się pewną poprawkę
uwzględniającą skutki grupowania w klasy.
Poprawka ta  zwana poprawką Shepparda  jest równa:
1
b2.
12
Wariancja s2 uwzględniająca poprawkę wyraża się wzorem:
"
1
s2 = s2 - b2,
"
12
gdzie s2 jest wariancją dla szeregu rozdzielczego (bez poprawki), b  długością klasy.
" Poprawkę Shepparda stosuje się w praktyce, gdy liczność próbki n 1000, zaś liczba klas
k 20.
" Poprawki nie stosuje się, gdy rozkład liczności badanej cechy jest antymodalny (typu U
lub J) lub silnie asymetryczny.
6
Momenty
Momentem zwykłym mj rzędu j próbki x1, . . . , xn nazywamy średnią arytmetyczną j-tych
potęg wartości xi
n

1
mj = xj, j " N.
i
n
i=1
Momentem centralnym j rzędu j próbki x1, . . . , xn nazywamy średnią arytmetyczną j-tych
potęg odchyleń wartości xi od średniej arytmetycznej x próbki:
Ż
n

1
j = (xi - x)j, j " N.
Ż
n
i=1
Przykłady
" Wyznaczyć średnią arytmetyczną oraz pierwsze cztery momenty centralne dla czterech
szeregów rozdzielczych.
1 = 0  dla każdego z szeregów;
 I: x = 4; 2 = s2 = 1, 44; 3 = 0; 4 = 4, 32;
Ż
 II: x = 4, 2 = s2 = 1, 44; 3 = 0; 4 = 8, 16;
Ż
 III: x = 4, 2 = s2 = 1, 44; 3 = 1, 2; 4 = 5, 76;
Ż
 IV: x = 4, 2 = s2 = 1, 44; 3 = -1, 2; 4 = 5, 76.
Ż
Mimo różnych rozkładów liczności badanej cechy w rozpatrywanych szeregach rozdziel-
czych średnia arytmetyczna i wariancja dla każdego z nich jest taka sama.
Rozkłady liczności badanej cechy w pierwszych dwóch szeregach rozdzielczych są syme-
tryczne, lecz o różnych skupieniach, pozostałe dwa są niesymetryczne, przy czym asymetria
w każdym z nich jest inna.
7
" Wyznaczyć współczynniki asymetrii i kurtozy dla szeregów rozdzielczych z poprzedniego
przykładu.
I: x = 4; s = 1, 2; A = 0; C H" 2, 08;
Ż
II: x = 4, s = 1, 2; A = 0; C H" 3, 94;
Ż
III: x = 4, s = 1, 2; A = 0, 69; C H" 2, 78;
Ż
IV: x = 4, s = 1, 2; A = -0, 69; C H" 2, 78;
Ż
Rozkłady liczności w szeregach I i II są symetryczne, więc ich współczynniki asymetrii są
równe 0. Asymetrię rozkładu III nazywamy dodatnią, a rozkładu IV  ujemną.
Skupienie w szeregu rozdzielczym II wokół średniej arytmetycznej jest większe niż w sze-
regu I.
" Dane są dwie sześcioelementowe próbki:
próbka I: 80, 40, 40, 80, 40, 80,
próbka II: 40, 80, 120, 80, 120, 40.
Obliczyć i porównać współczynniki zmienności obu próbek.
Dla pierwszej próbki:

1
xI = 60, sI = 6 202 = 20.
Ż
6
Dla drugiej próbki:

1
xII = 80, sII = 4 402.
Ż
6
Współczynniki zmienności:
sI 20 1
VI = 100% = 100% = 33 %,
xI 60 3
Ż
sII 32, 66
VII = 100% = 100% = 40, 83%.
xII 80
Ż
Wartości drugiej próbki są bardziej rozproszone. Wskazuje na to porównanie odchyleń
standardowych. Mamy bowiem sII > sI. Na większe rozproszenie wartości w drugiej
próbce zareagował współczynnik zmienności zwiększając się prawie o 7, 5%.
Trzy typowe problemy, które dają się rozwiązać metodami wnioskowania staty-
stycznego
Obserwujemy wartości pewnej cechy dla wybranych jej elementów i na tej podstawie chcemy
odpowiedzieć na jedno z pytań, dotyczących konkretnego parametru tej cechy (na przykład jej
wartości średniej).
" Ile wynosi parametr (na przykład średnia) naszej cechy w całej populacji? - Estymacja
punktowa
" W jakim zakresie (zbiorze) znajduje się ten parametr? - Estymacja przedziałowa
" Czy prawdą jest, że nasz parametr należy do określonego zbioru? - Testowanie hipo-
tez statystycznych.
8
Zakładamy, że interesująca nas cecha X ma charakter losowy, czyli że jest ona zmienną loso-
wą (lub wektorem losowym) określoną na pewnej przestrzeni probabilistycznej, np. (&!, Ł, P ). W
takim razie, interesujący nas parametr jest parametrem zmiennej losowej X lub, bardziej precy-
zyjnie, parametrem rozkładu PX tej zmiennej. Wówczas zamiast mówić, na przykład, o wartości
średniej danej cechy, będziemy mówić o wartości oczekiwanej (nadziei matematycznej) odpo-
wiadającej jej zmiennej losowej. Tak więc sformułowane powyżej pytania dotyczą parametrów
rozkładu PX.
Dość często możemy z góry założyć, że badana cecha posiada rozkład określonego typu.
Definicja 1 Statystyką nazywamy dowolną funkcję T : Rn Rd, która jest mierzalna ze wzglę-
du na -algebrę zbiorów borelowskich B(Rn), to znaczy:
-1
T (B) " B(Rn) dla każdego B " B(Rd)
Ć
Definicja 2 Każdą statystykę Śn(X1, . . . , Xn), której wartości przyjmujemy jako oceny nie-
znanego parametru Ś nazywamy estymatorem parametru Ś. Otrzymaną na podstawie jednej
konkretnej realizacji próby (próbki) wartość estymatora  nazywamy oceną (oszacowaniem) tego
parametru.
Ć
Dla danego parametru Ś można utworzyć wiele estymatorów Śn(X1, . . . , Xn). Ważne jest
by posiadał on pewne pożądane optymalne własności.
Przykład
Przykładem statystyki jest średnia:
x1 + . . . + xn
x = T (x1, . . . , xn) = ,
Ż
n
a odpowiadającym jej estymatorem jest
X1 + . . . + Xn
Ż
X = T (X1, . . . , Xn) = .
n
Kryteria oceny jakości estymatorów parametrów liczbowych
Ć
Definicja 3 Estymator Śn nazywamy estymatorem nieobciążonym parametru Ś, jeżeli dla
każdego n:
Ć
E(Śn) = Ś.
Estymator, który nie jest nieobciążony nazywamy estymatorem obciążonym.
Ć
Różnicę Bn(Ś) = E(Śn) - Ś nazywamy obciążeniem estymatora.
W przypadku, gdy
Ć
lim Bn(Ś) = lim E(Śn) - Ś = 0,
n" n"
Ć
estymator Śn nazywamy estymatorem asymptotycznie nieobciążonym parametru Ś.
Przykłady
" Niech X1, . . . , Xn będzie próbą prostą pobraną z populacji, w której cecha X ma skończoną
i różną od zera wariancję 2. Zbadamy, czy wariancja empiryczna
n n

1 1
Ż Ż
S2 = (Xi - X)2, gdzie X = Xi
n n
i=1 i=1
jest estymatorem nieobciążonym nieznanej wariancji 2.
9
n n

1 1
Ż Ż
S2 = [(Xi - m) - (m - X)]2 = (Xi - m)2 - (X - m)2,
n n
i=1 i=1
gdzie m = EX.
Ponieważ Xi są niezależnymi zmiennymi losowymi o tym samym rozkładzie co badana
cecha X populacji, więc mamy
E(Xi - m)2 = E(X - EX)2 = 2, dla i = 1, . . . , n,
a na podstawie własności wariancji

n n

1 1
Ż Ż
E(X - m)2 = D2X = D2 Xi = D2 Xi =
n n2
i=1 i=1
n

1 2
= D2X = .
n2 n
i=1
Zatem
1 2 n - 1
E(S2) = n 2 - = 2 = 2.

n n n
1
Rozpatrywany estymator jest więc obciążony o obciażeniu Bn(2) = - 2, a ponieważ
n
1
lim 2 = 0, więc estymator ten jest asymptotycznie nieobciążony.
n
n"
n
Ć
Mnożąc otrzymany estymator przez otrzymamy estymator S2 :
n-1
n

n 1
Ć Ż
S2 = S2 = (Xi - X)2,
n - 1 n - 1
i=1
który jest nieobciążonym estymatorem 2, ponieważ

n n
Ć
E(S2) = E S2 = E(S2) = 2.
n - 1 n - 1
Ć
Definicja 4 Estymator Śn spełniajacy warunek dla każdego  > 0,
Ć
lim P (|Śn - Ś| < ) = 1,
n"
nazywamy estymatorem zgodnym parametru Ś.
Warunek ten oznacza zbieżność w sensie prawdopodobieństwa (zbieżność stochastyczną)
Ć
estymatora Śn do wartości Ś.
Ć
Definicja 5 Estymator nieobciążony Śn parametru Ś, który ma najmniejszą wariancję nazy-
Ć
wamy estymatorem najefektywniejszym. Estymator Śn nazywamy najlepszym, gdy jest
nieobciążony, zgodny i najefektywniejszy.
Estymacja punktowa  szacowanie wartości nieznanego parametru Ś w populacji za po-
Ć
mocą estymatora Ś (wzoru). Liczba  uzyskana na podstawie próby za pomocą estymatora
Ć
(wzoru) Ś jest oceną nieznanego parametru Ś w populacji.
10
Podstawowe estymatory
" Gdy cecha ma charakter niemierzalny, jakościowy, zamiast wartości liczbowej badanej ce-
chy z badania próbnego uzyskujemy tylko informację o tym, czy dany element populacji
ma wyróżnioną cechę jakościową, czy też jej nie ma. Podstawowym parametrem popula-
cji szacowanym w tym przypadku jest frakcja p (albo po pomnożeniu przez 100  liczba
procent) elementów wyróżnionych w populacji. Jest ona prawdopodobieństwem p wyloso-
wania z danej populacji jednostki mającej okresloną własność  zwana także wskaznikiem
struktury badanej cechy populacji. Zadanie sprowadza się do estymacji parametru p w
rozkładzie dwumianowym

n
P (k; n, p) = pk(1 - p)n-k.
k
" Gdy nieznana jest wartość przeciętna (oczekiwana) m:
n

1
Ż
 X = Xi (estymator zgodny, nieobciążony dla dowolnych rozkładów; w przyp.
n
1
rozkładu N(m, ) również efektywny);
 mediana z próby (estymator zgodny, asymptotycznie nieobciążony dla dowolnych
Ą
<"
rozkładów; dla rozkładu N(m, ) efektywność wynosi 0, 64
=
2
" Gdy nieznana jest wariancja 2, zaś m jest znane
n

2 1
 S1 = (Xi - m)2 (zgodny, nieobciążony dla dowolnego rozkładu, dla rozkładu
n
1
N(m, ) również efektywny)
" Gdy nieznana jest wariancja 2 oraz m
n

1
Ż
 S2 = (Xi - X)2 (zgodny, asymptotycznie nieobciążony dla dowolnego rozkładu)
n
1
n

1
Ć Ż
 S2 = (Xi - X)2 (zgodny, nieobciążony dla dowolnego rozkładu, dla rozkładu
n-1
1
n-1
N(m, ) efektywność równa )
n
" Gdy nieznane jest odchylenie standardowe
Ć
 S1, S, S (zgodny dla dowolnego rozkładu)
" Gdy nieznany jest wskaznik struktury
k
 t = (estymator zgodny, nieobciążony i efektywny tylko dla rozkładu Bernoulliego)
n

" Gdy nieznany jest współczynnik zmienności  = , (m = 0)

m
S
 V = (estymator zgodny dla dowolnego rozkładu).
Ż
X
11


Wyszukiwarka

Podobne podstrony:
MB w2
zj w2
Analiza zależności dwóch cech statystycznych ilościowych
w2 2
SD przykłady do w2
1 wprowadzenie do statystyki statystyka opisowa
Sozański Statystyczne miary zmienności a kwantyfikacja nierówności społecznej
statystyka w matlabie
Teoria Definicje Statystyka
Tablice statystyczne wartości krytyczne współczynnika korelacji Pearsona
DROGI w2 w3 tyczenie
w2
statystyka
W2?
metody numeryczne i w2

więcej podobnych podstron