wyklad 1 Wstepne przetwarzania danych PL [tryb zgodności]


Biometria i biostatystyka
Wykład 1: Wstępne przetwarzanie
danych
Literatura
" Koronacki J., Mielniczuk J.: Statystyka dla
studentów kierunków technicznych i
przyrodniczych. WNT, Warszawa 2001
" Greń J: Statystyka matematyczna  modele i
" Greń J: Statystyka matematyczna  modele i
zadania. PWN Warszawa
Program kursu
1. Wstępne przetwarzanie danych
2. Prezentacja danych
3. Zmienne losowe i ich rozkłady
4. Podstawy wnioskowania statystycznego
5. Testy parametryczne
6. Test 1
7. Testy zgodności dopasowania
8. Wnioskowanie o proporcjach
9. Nieparametryczne metody statystyczne
10. Analiza zależności
11. Test 2
Biometria
Nauka zajmująca się badaniem zmienności populacji
organizmów. Wyniki pomiarów biometrycznych po
organizmów. Wyniki pomiarów biometrycznych po
opracowaniu metodami statystyki matematycznej
wykorzystywane są, między innymi w antropologii,
fizjologii, genetyce, hodowli, medycynie,
paleontologii.
Biometria
Biometria to również technika dokonywania
pomiarów istot żywych. W najnowszych
zastosowaniach ukierunkowana jest na metody
zastosowaniach ukierunkowana jest na metody
automatycznego rozpoznawania ludzi na podstawie
automatycznego rozpoznawania ludzi na podstawie
ich cech fizycznych. Przykładem urządzeń do
pomiarów biometrycznych na podstawie których
można identyfikować konkretne osoby jest system
rozpoznawania tęczówki oka rejestrujący obraz
tęczówki oka.
www.wikipedia.pl
Statystyka  cóż to jest?
Naukowa analiza danych
opisujących naturalną
opisujących naturalną
zmienność.
Naukowa analiza:
" Zbieranie danych dokonywane jest z uwzględnieniem
ogólnie akceptowanych kryteriów przeprowadzania
eksperymentów naukowych.
" Prezentacja danych oraz wyników analiz musi być
przeprowadzana obiektywnie, zgodnie z zasadami
 kodu etycznego naukowca .
 Liczby nigdy nie kłamią, wszystkiemu winni są
statystycy
Dane
" Statystyka to analiza zjawisk, które dotyczą
populacji lub grupy osobników; opiera się na
analizie zbioru informacji, a nie pojedynczego
pomiaru. Oznacza to, że nie będzie nas
pomiaru. Oznacza to, że nie będzie nas
interesować pojedynczy osobnik.
" Dane stanowią pomiary bądz zliczenia.
Naturalna zmienność:
" Analizować będziemy jedynie takie zdarzenia,
które w naturze nie podlegają bezpośrednie
naszej kontroli (np. liczba ziaren grochu w
strąku).
" Czasami dopuszczalne jest częściowe
kontrolowanie czynników przez badacza (np.
mierząc krzywą cukrową u osób z
podejrzeniem cukrzycy podaje się im
wcześniej odpowiednią dawkę cukru).
Podstawowym celem analizy statystycznej jest
wnioskowanie o cechach dużej grupy
osobników na podstawie informacji uzyskanej
z relatywnie małolicznej grupy badanej.
z relatywnie małolicznej grupy badanej.
Takie podejście wymaga sprecyzowania pojęć
populacji i próbki.
Podstawowe definicje
" Dane składają się z pojedynczych obserwacji,
które są pomiarami dokonanymi na pojedynczej
jednostce.
jednostce.
Jeśli mierzymy wzrost u 100 osób, wówczas wzrost
ka\dej z osób stanowi pojedynczą obserwację.
Podstawowe definicje
" Próba jest zbiorem pojedynczych obserwacji
wybranych z zastosowaniem specyficznych
kryteriów selekcji.
kryteriów selekcji.
Zebranych 100 pomiarów wzrostu stanowi
próbę.
Podstawowe definicje
" Cecha, którą mierzymy w pojedynczych
obserwacjach nazywana jest zmienną.
" Więcej niż jedna zmienna może być
mierzona u pojedynczej jednostki.
Mo\emy mierzyć u ka\dej z osób jej wzrost oraz np.
masę ciała i wiek.
Podstawowe definicje
" Populacja to całość pojedynczych obserwacji, o
których przeprowadzane jest wnioskowanie
statystyczne, istniejąca gdziekolwiek na świecie,
statystyczne, istniejąca gdziekolwiek na świecie,
albo przynajmniej w dokładnie zdefiniowanym
w dziedzinie czasu i przestrzeniu obszarze
próbkowania.
Przykładowo:
1. Wszyscy ludzie w wieku 18-25 lat
2. Wszyscy ludzie w wieku 18-25 w Gliwicach
Trochę więcej o zmiennych ...
" Możemy zatem powiedzieć, że zmienna to cecha,
która zmienia się u osobników w jakiś określony
sposób.
sposób.
" Cecha, która nie jest różnorodna nie podlega
zainteresowaniu statystyków.
Trochę więcej o zmiennych ...
Stałocieplność u ssaków nie jest zmienną
ponieważ wszystkie one są stałocieplne.
ponieważ wszystkie one są stałocieplne.
Temperatura ciała poszczególnych ssaków
może być zmienną.
Trochę więcej o zmiennych ...
Zmienne
Atrybuty
Atrybuty
Zmienne Zmienne
pomiarowe rangowe
Zmienne
Zmienne
dyskretne
ciągłe
Zmienne pomiarowe (mierzalne)
" Zmienne pomiarowe to takie, których różne
wartości mogą być uporządkowane
numerycznie .
numerycznie .
" Mogą być wyrażone w skali ilorazowej bądz
przedziałowej.
Zmienne pomiarowe
Są dwie najważniejsze cechy skali ilorazowej:
" W całym zakresie skali jest ustalona, niezmienna jednostka.
" W całym zakresie skali jest ustalona, niezmienna jednostka.
" Zdefiniowany jest punkt zerowy, który ma znaczenie
fizyczne.
Cóż to oznacza?
" Stała jednostka:
Przykładowo, różnica wzrostu pomiędzy osobąmi
o wzrostach 166 cm i 167 cm jst taka sama jak
o wzrostach 166 cm i 167 cm jst taka sama jak
różnica pomiędzy osobami 180 cm i 181 cm.
" Punkt zerowy:
Pozwala na określenie stosunku dwóch pomiarów.
Możemy zatem powiedzieć, że 90 cm to połowa 180 cm.
Zmienne pomiarowe
" Niektóre skale spełniają warunek stałej
jednostki, ale nie posiadają zera
fizycznego. Takie skale nazywamy skalami
przedziałowymi.
przedziałowymi.
Książkowym przykładem są skale temperatury: Celsius (C) i
Fahrenheit (F). Różnica temperatur pomiędzy 20C a 25C jest
taka sama w sensie energetycznym jak różnica pomiędzy 5C
10C. Jednak nie można powiedzieć, że temperatura 40C jest
dwukrotnością temperatury 20C; punkt zerowy został
zdefiniowany arbitralnie. (Takiego problemu nie ma w
przypadku stosowania skali Kelvina)
Zmienne pomiarowe
" Niektóre skale, często stosowane w biologii i
medycynie, to skale przedziałowe zwane
medycynie, to skale przedziałowe zwane
skalami cyklicznymi.
Pora dnia, pora roku to przykłady takich skal. Okres czasu
pomiędzy 14:00 a 15:30 jest taki sam jak pomiędzy 8:00 a 9:30.
Nie możemy nic powiedzieć o stosunku pór dnia.
Zmienne pomiarowe
Występują dwa typy zmiennych pomiarowych:
" Zmienne ciągłe teoretycznie przyjmujące nieskończoną
liczbę wartości pomiędzy dwoma ustalonymi
liczbę wartości pomiędzy dwoma ustalonymi
wielkościami.
" Zmienne dyskretne to zmienne, które przyjmują
wartości ze ściśle określonego, skończonego zbioru
wartości dopuszczalnych.
Ciągłe versus dyskretne
Ciągłe:
" długość (cm, in), waga (mg, lb), powierzchnia (sq cm, sq ft),
objętość (ml, qt), prędkość (cm/sec, mph, mg/min), czas
trwania (hr, yr), kąt (grad, rad), temperatura (), procenty
Dyskretne:
Dyskretne:
" Liczność (liści, fragmentów, zębów), liczba potomków, liczba
białych krwinek w 1mm3 krwi, liczba żyraf u wodopoju, liczba
jajeczek złożonych przez konika polnego
Zmienne rangowe
" Niektóre zmienne nie mogą być dokładnie
zmierzone, ale można uporządkować ich
poziomy rosnąco lub malejąco. O takich
poziomy rosnąco lub malejąco. O takich
danych mówi się, że są przedstawione w
skali porządkowej (rangowej), opisującej
bardziej relacje aniżeli ilościowe różnice .
Zmienne rangowe
" Wyrażając jakąś zmienną w skali rangowej, jako ciąg
wielkości 1, 2, 3, 4, 5 nie zakładamy, iż różnica
pomiędzy rangami 1 i 2 jest taka sama (bądz
proporcjonalna do) jak różnica pomiędzy rangami 2 i
3.
3.
" Zmienne przedstawione w skali porządkowej wnoszą
znaczniej mniej informacji aniżeli zmienne w skali
ilorazowej bądz przedziałowej.
Atrybuty
" Zmienne, które nie mogą być zmierzone, a
jedynie wyrażone są jakościowo nazywa się
atrybutami a skalę, w której są wyrażone
nazywamy skalą nominalną (od słowa
nazywamy skalą nominalną (od słowa
 name ).
" Atrybuty to przykładowo takie cechy jak:
żywy/martwy, prawo-/leworęczny,
mężczyzna/kobieta, kolor oczu (zielony,
niebieski, szary, brązowy), kolor włosów
(czarne, brązowe, blond czy rude).
Wstępne przetwarzanie danych
Kiedy dane zostały już zebrane w konkretnym
eksperymencie badawczym, powinne być
najpierw przedstawione w postaci, która jest
najpierw przedstawione w postaci, która jest
użyteczna dla dalszych obliczeń i interpretacji.
W pierwszym kroku najczęściej wykreśla się
wykresy częstościowe oraz wyznacza się tzw.
statystyki opisowe.
Wykresy częstościowe
" Ilościowe
Są to reprezentacje graficzne realizacji
zmiennych pomiarowych, zarówno
zmiennych pomiarowych, zarówno
ciągłych jak i dyskretnych, oraz zmiennych
rangowych.
" Jakościowe
Dotyczą tylko zmiennych typu atrybut.
Przykład
U 462 dzieci z terenu Górnego Śląska została
rozpoznana cukrzyca typu 1 na przestrzeni lat
1989-1996.
1989-1996.
Zebrano następujące dane:
" Płeć dziecka (chłopiec/dziewczynka)
" Numer kolejny dziecka w rodzinie
" Rok urodzenia
" Waga urodzeniowa
Przykład 1  Płeć
Female
Male
300
251
250
250
207
200
45,2
150
54,8
100
50
0
Female Male
Można przedstawić dane w postaci zliczeń bądz procentów
No of cases
Przykład 2  numer dziecka
Zmienna dyskretna
Zmienna rangowa
250 250
223 223
200 200
200 200
165 165
150 150
100 100
67
54
50 50
7
5
1
0 0
1st 2nd 3rd 4th 5th 6th 1st 2nd 3rd or later
Child number in a family Child number in a family
Czasami zachodzi potrzeba przekodowania danych
No of cases
No of cases
Przykład 3  rok urodzenia
60 160
52
137
140
50
43
4144
120
102
36
40
40
100
100
86
86
30
30
29
30 25252525
80
66
2021
60
20
1315 1311
34 29
40
10 5
6
4
2
1 8
20
0
0
75-77 78-80 81-83 84-86 87-89 90-92 93-96
Birth year Birth year
Grupowanie klas często pozwala uzyskać bardziej
spójny i regularny kształt wykresu.
No of cases
No of cases
No of cases
No of cases
5
7
9
1
3
5
7
9
1
3
5
7
7
7
8
8
8
8
8
9
9
9
Statystyki opisowe
" Istnieje potrzeba zwięzłego podsumowania danych w
takiej postaci, która pozwoli na ocenę i łatwą
prezentację ich własności. Wykresy częstościowe są
taką formą. Jednakże potrzebujemy również opisu w
formie liczb, które pozwoliłyby na zwięzły i dokładny
formie liczb, które pozwoliłyby na zwięzły i dokładny
ilościowy opis własności obserwowanego rozkładu
częstości. Nazywamy je statystykami opisowymi.
Statystyki opisowe
Definiuje się dwie podstawowe grupy statystyk
opisowych:
" Statystyki położenia (miary centralnej tendencji) 
określają położenie próbki w przestrzeni
określają położenie próbki w przestrzeni
reprezentującej analizowaną zmienną losową.
" Statystyki rozrzutu (miary zmienności)  oceniają
rozrzut pomiarów wokół środka dystrybucji.
Statystyki położenia
Statystyki położenia
Średnia arytmetyczna
" Najszerzej używaną statystyką położenia
jest średnia arytmetyczna, powszechnie
nazywana średnią.
nazywana średnią.
Każdy pomiar (realizacja zmiennej losowej)
wchodzący w skład próby oznaczamy jako
xi. Indeks i jest liczbą całkowitą
przyjmującą wartości od 1 do N  całkowitej
liczby osobników w próbie.
Średnia arytmetyczna
Średnia arytmetyczna najczęściej oznaczana jest jako
x
x
N
"x
i
i=1
x =
N
Przykład 4
" Zmierzono wzrost losowo wybranych
dziewięciolatków. Jaka jest średnia z próby?
" X=[114, 123.3, 116.7, 129.0, 118, 124.6, 123.1,
117.4, 111, 121.7, 124.5, 130.5]
117.4, 111, 121.7, 124.5, 130.5]
" N=12
114 +123.3 +116.7 +K+130.5
x = =121.15
12
Przykład 5
Liczba
Pensja Strukturę zarobków w pewnej firmie
osób
przedstawia tabela.
(1000;2000] 10
(1000;2000] 10
Ile wynosi średnia pensja?
Ile wynosi średnia pensja?
(2000; 4000] 25
(4000; 6000] 12
10"1500 + 25"3000 +K+ 2"15000
xw =
(6000;8000] 8
10 + 25 +K+ 4 + 2
(8000;10000] 4
x = 4459
(10000;20000] 2
Średnia ważona
" Często występuje potrzeba wyznaczenia wartości
średniej średnich bądz innych statystyk, których
wiarygodność jest różna z powodu np. różnych
liczności próbek. W takim przypadku trzeba
liczności próbek. W takim przypadku trzeba
wyznaczyć średnią ważoną.
N
"w xi
i
i=1
xw =
N
"w
i
i=1
Dokonano pomiaru stężenia pewnego związku w
Przykład 6
ściekach nieoczyszczonych. Próbki pobrano i
przebadano w trzech laboratoriach, zbierając za
każdym razem ich inna liczbę. Jakie jest średnie
stężenie tej substancji w ściekach?
W tym przypadku trzy wartości średnie
wyznaczono na podstawie trzech prób o
Średnie
różnych licznościach, ich średnia ważona
Liczność
stężenie
wynosi zatem:
próby
próby
[%]
[%]
12"3.85 + 25"5.21+ 8" 4.70
3.85 12
xw = = 4.76
12 + 25 + 8
5.21 25
i różni się od standardowej średniej
arytmetycznej
4.70 8
3.85 + 5.21+ 4.70
x = = 4.59
3
Średnia geometryczna
" Często dokonuje się transformacji zmiennej losowej
wyliczając logarytmy ich wartości. Jeśli wyliczymy
średnią arytmetyczną pomiarów po transformacji i
dokonamy transformacji odwrotnej, to uzyskana
liczba będzie inna niż średnia arytmetyczna danych w
liczba będzie inna niż średnia arytmetyczna danych w
surowej postaci. Nazywa się ją średnią geometryczną.
Średnia geometryczna
N
"log xi
i=1
log xGM =
N
N
Korzystając z własności funkcji logarytmicznej możemy
tę wielkość przedstawić jako:
1
"log xi = log"xi
log xGM = = log =
"xi
N N N
N
1
N
N
= log("xi) ! xGM =
"xi
i=1
Średnia harmoniczna
" Odwrotność średniej arytmetycznej
odwrotności pomiarów nazywana jest
średnią harmoniczną i oznaczana jest
średnią harmoniczną i oznaczana jest
najczęściej symbolem H
N
1 1 1 1
= ! xH =
"
N
1 1
xH N xi
i=1
"
N xi
i=1
Mediana
" Mediana M definiowana jest jako taka
wartość zmiennej (po uporządkowaniu
danych w szereg rosnący), że taka sama
danych w szereg rosnący), że taka sama
liczba pomiarów jest od niej większa i
mniejsza.
Jeśli liczność próbki jest liczbą
nieparzystą, wówczas
M = X( N +1)/ 2
Mediana
" Gdy N jest liczbą parzystą wtedy wyrażenie
(N+1)/2 nie jest liczbą całkowitą  nie ma
po prostu liczby środkowej. Miast niej są
po prostu liczby środkowej. Miast niej są
dwie liczby najbliższe środka, a mediana
jest wyznaczana jako średnia z nich:
M = (X + X ) / 2
N N
+1
2 2
Obliczanie mediany
1. Uporządkuj wszystkie pomiary rosnąco
2. Jeśli n (liczba pomiarów) jest nieparzyste, M
to środkowy pomiar na liście
3. Jeśli n jest parzyste, M jest średnią dwóch
3. Jeśli n jest parzyste, M jest średnią dwóch
środkowych pomiarów
Przykład 7
" Znajdz medianę liczby mil na galon benzyny
samochodów klasy kabriolet
" Uporządkuj dane w rosnącym porządku
13 13 16 19 21 21 23 23 24 26
13 13 16 19 21 21 23 23 24 26
26 27 27 27 28 28 30 30 68
" Nieparzyste n, więc mediana jest środkiem listy,
czyli 26
Mediana
" Kiedy wyniki obserwacji się powtarzają,
mogą się pojawić problemy w szukaniu
mediany. Obliczanie mediany jest
mediany. Obliczanie mediany jest
trudniejsze, ponieważ wiele wartości leży w
tym samym przedziale (klasie) co mediana i
mają to samo oznaczenie klasy.
Klasa
Przykład 8
Liczność f Dystrybuanta F
wagowa
59.5 2 2
67.5 6 8
75.5 39 47
Dane są w formie rozkładu
83.5 385 432
częstości z powodu dużej ilości
obserwacji w doświadczeniu
91.5 888 1320
Mediana dla zestawionej tabeli 99.5 1729 3049
jest (n+1)/2 wartością. Tutaj
jest (n+1)/2 wartością. Tutaj
107.5 2240 5289
n=9465 więc szukamy 4733-ciej
115.5 2007 7296
obserwacji.
123.5 1233 8529
4733-ci wynik jest w klasie 107.5,
131.5 641 9170
czyli gdzieś między 103.5 a
139.5 201 9371
115.5. Ta klasa zawiera 2240
147.5 74 9445
wyników, a wynik 4733 jest 4733-
155.5 14 9459
3049=1684-tym wynikiem w
klasie.
163.5 5 9464
171.5 1 9465
Przykład 8
Klasa Liczność f Dystrybuanty F
Przykład 8
59.5 2 2
67.5 6 8
75.5 39 47
Przyjmując rozkład równomierny
w klasie, wartość nr 4733 będzie
83.5 385 432
w:
91.5 888 1320
1684
= 0.7518
99.5 1729 3049
99.5 1729 3049
2240
2240
107.5 2240 5289
całego przedziału klasy lub w
115.5 2007 7296
75.18% odległości między dolną
123.5 1233 8529
a górną granicą przedziału.
131.5 641 9170
Ponieważ przedział każdej klasy
to 8 oz, wartość mediany to 139.5 201 9371
0.7518 x 8.0 = 6.014 oz powyżej
147.5 74 9445
dolnej granicy klasy (103.5 oz);
155.5 14 9459
czyli mediana wag noworodków
163.5 5 9464
wynosi 103.5 + 6.014 =
171.5 1 9465
109.514 oz.
Kwartyle
" Mediana to tylko jedna z rodziny statystyk
porządkowych, dzielących wyniki na części.
Dzieli zbiór na dwie równoliczne części.
Dzieli zbiór na dwie równoliczne części.
" Z kolei kwartyle to punkty w 25%, 50%, i 75%
zbioru  które dzielą rozkład na pierwszą,
drugą, trzecią i czwartą ćwiartkę. Są zwykle
opisywane symbolami Q1 (dolny kwartyl), M
(mediana), Q3 (górny kwartyl).
Kwartyle
" Dolnym kwartylem próby nazywamy medianę
podpróby, składającej się ze wszystkich
elementów próby o wartościach mniejszych od
elementów próby o wartościach mniejszych od
mediany całej próby.
" Górnym kwartylem próby nazywamy medianę
podpróby, składającej się ze wszystkich
elementów próby o wartościach większych od
mediany całej próby.
Kwartyle
" Przykład 9
Dane: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
Dane uporządkowane: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49
Q1=15; Q2=M=40; Q3=43
Q1=15; Q2=M=40; Q3=43
" Przykład 10
Dane uporządkowane: 7, 15, 36, 39, 40, 41
Q1=15; Q2=M=37.5; Q3=40
" Przykład 11
Dane uporządkowane: 1 2 3 4
Q1=1.5; Q2=M=2.5; Q3=3.5
Inne statystyki porządkowe
" Istnieją także kwintyle, decyle i percentyle,
dzieląc rozkład na odpowienio 5, 10, i 100
równych części.
równych części.
" Ogólny termin dla tych wszystkich to
kwantyle.
Moda
" Modę zazwyczaj definiuje się jako pomiar
występujący najczęściej w analizowanym zbiorze
danych. Jednakże czasami lepiej zdefiniować ją jako
pomiar o istotnie większej koncentracji/częstości
występowania od pozostałych.
występowania od pozostałych.
" W niektórych przypadkach może występować więcej
niż jeden punkt koncentracji.
Przykład 12
" Załóżmy, iż próba składa się z następujących
pomiarów: 6, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 10, 11,
12, 12, 12, 12, 12, 12, 13, 13, i 14 mm.
7
7
Rozkład dwumodalny
Rozkład dwumodalny
6
Moda oboczna
5
Główna moda
4
3
2
1
0
6 7 8 9 10 11 12 13 14
length [mm]
No of individuals
Uwagi
Uwagi
" Średnia arytmetyczna jest najczęściej stosowaną
statystyką położenia, jednak jest bardzo wrażliwa na
wartości odstające (istotnie różne od pozostałych),
podczas gdy mediana i moda są nań odporne.
" W przypadku symetrycznego i jednomodalnego
rozkładu zmiennej losowej średnia arytmetyczna,
mediana i moda są sobie równe.
Statystyki rozrzutu
Statystyki rozrzutu
Zakres
" Zakres jest miarą, która ukazuje
zmienność/rozrzut pomiarów zmiennej.
Zakres = max x - min x
Zakres = max xi - min xi
i=1,...,N i=1,...,N
Jest silnie wrażliwy na pojedyncze
wielkości odstające i z tego powodu
może być traktowany jedynie jako
zgrubna ocena zmienności pomiarów.
Przedział międzykwartylowy
" Odległość pomiędzy Q1 a Q3, pierwszym i
trzecim kwartylem (inaczej 25-tym i 75-tym
percentylem) jest nazywana przedziałem
percentylem) jest nazywana przedziałem
międzykwartylowym albo odchyleniem
kwartylowym.
IQR = Q3 - Q1
Średnie odchylenie
" Ponieważ średnia jest użyteczną miarą położenia,
wielkość mierząca odchyłki od średniej wyrażać
będzie zmienność pomiarów w próbie.
" Suma wartości absolutnych odchyłek od wartości
Suma wartości absolutnych odchyłek od wartości
średniej podzielona przez liczność próby N daje w
wyniku statystykę nazywaną średnim odchyleniem
(AD)
N
xi - x
"
i=1
AD =
N
Wariancja
" Alternatywnym sposobem pomiaru odchyleń od
wartości średniej jest posługiwanie się kwadratem
odległości a nie wartością absolutną. Ich suma jest
bardzo ważną wielkością w statystyce, nazywaną sumą
bardzo ważną wielkością w statystyce, nazywaną sumą
kwadratów (SS). Wariancja jest średnią kwadratów
odchyleń.
2
N N
N
1
2 2
ł ł
"x - N ł"x ł
i i
"(x - x)
i
i=1 ł i=1 łł
i=1
Var = =
N -1 N -1
Odchylenie standardowe
" Odchylenie standardowe jest dodatnim
pierwiastkiem wariancji; dzięki temu
wyrażany jest w oryginalnych jednostkach
wyrażany jest w oryginalnych jednostkach
zmiennej losowej.
N
2
"(x - x)
i
i=1
s =
N -1
Przykład 13
Współczynnik zmienności
" Zarówno wariancja jak i odchylenie standardowe
przyjmują wartości ściśle zależne od poziomu
pomiarów.
" Słonie mają uszy, których wielkość jest około
stukrotnie większa od uszu myszy. Tym samym
stukrotnie większa od uszu myszy. Tym samym
odchylenie standardowe będzie (zakładając podobną
zmienność osobniczą w grupie słoni i myszy)
liczbowo stukrotnie większe w grupie słoni w
odniesieniu do myszy. A ich wariancja będzie 1002
razy większa.
Współczynnik zmienności
" Współczynnik zmienności (CV) wyraża
zmienność pomiarów w ramach próbki
odniesioną do średniej arytmetycznej próbki
odniesioną do średniej arytmetycznej próbki
s
CV = "100%
x
Wskazniki różnorodności
" Dla zmiennych wyrażanych w skali
nominalnej (atrybuty) nie istnieje pojęcie
średniej czy mediany, które byłoby
średniej czy mediany, które byłoby
odniesieniem dla pomiaru rozrzutu.
Możemy jednak przenieść ideę
różnorodności dla dystrybucji obserwacji w
ramach poszczególnych kategorii.
Wskazniki różnorodności
" Najczęściej stosowanym wskaznikiem
różnorodności jest entropia Shannona-
Wienera definiowana jako:
Wienera definiowana jako:
k
H = - fi log fi
"
i=1
gdzie k jest liczbą kategorii, natomiast
fi jest częścią obserwacji
zakwalifikowanych do kategorii i.
Wskazniki różnorodności
" Jeśli N jest licznością próby, a ni liczbą
obserwacji dla kategorii i, to
ni
ni
f =
fi =
N
więc
k
N log N -
"n log ni
i
i=1
H =
N
Przykład 14  Płeć
458log 458 - (251log 251+ 207 log 207)
H = = 0.2990
458
Wskazniki różnorodności
" Maksymalną entropię obserwujemy dla przypadku
gdy
N
~
~
n =
ni =
k
wówczas
k k
N N
~ ~
N log N - log
"n log ni N log N -"
i
k k
i=1 i=1
Hmax = = =
N N
N N
N log N - k " log
N log N - N(log N - log k)
k k
= = = log k
N N
Wskazniki różnorodności
Możemy zatem wyrazić obserwowaną
entropię jako część maksymalnej
możliwej  nazywa się ją wówczas
możliwej  nazywa się ją wówczas
relatywnym wskaznikiem różnorodności.
H
J =
Hmax
H 0.2990
J = = = 0.9933
Przykład 14 cd
Hmax log 2
Przykład 15
169
65
180 70
160
60
51
51
140
140
45
45
50
50
120
40
100
80
30
60
20
34
12
40
15
10
11
20
0 0
Black Brown Blonde Red Black Brown Blonde Red
Hair color - Swedish Hair color - Italian
H = 0.3612 H = 0.5486
J = 0.60 J = 0.9112
No of cases
No of cases


Wyszukiwarka

Podobne podstrony:
wyklad 2 Prezentacja danych PL [tryb zgodności]
Wyklad 7 Nieparametryczne metody statystyczne PL [tryb zgodności]
wyklad 3 Funkcje gestosci prawdopodobienstwa PL [tryb zgodności]
wyklad 9 Wnioskowanie o proporcjach PL [tryb zgodności]
wyklad 5 Testy parametryczne PL [tryb zgodności]
Blachownica? PL [tryb zgodności] (1)
Wykład 01 właściwości reologiczne asfaltów [tryb zgodności]
TRIAGE PL [tryb zgodności]
Wykład 6 [tryb zgodności]
wykład 7i8 4h podstawy zarządzania m jablonski [tryb zgodności]
WYKŁAD 01 WprowInzynSterowania [tryb zgodności]
USM Automatyka w IS (wyklad 3) regulatory ppt [tryb zgodnosci]
wyklad 8 d [tryb zgodności]
wyklad 3 SYGNALIZACJA NR 7 [tryb zgodności]
wyklad 5 d [tryb zgodności]
22 Bazy danych – wykład wstępnyid)482
wyklad 4 d [tryb zgodności]
Wykład 10 [tryb zgodności]
ROZROD PTAKOW wyklad i 13 andro platforma tryb zgodnosci

więcej podobnych podstron