Wykład 3 15 11 2009 Analiza współzależności


ANALIZA WSPÓAZALEŻNOŚCI  DWUWYMIAROWY ROZKAAD EMPIRYCZNY
Zjazd 3  14.XI.2009
1. Pojęcie dwuwymiarowego rozkładu empirycznego.
W analizie współzależności badamy każdą jednostkę statystyczną (obserwacji) co najmniej ze
względu na dwie cechy łącznie np. ze względu na wysokość dochodów i wydatków; na wysokość
wynagrodzenia i staż pracy itd.
W analizie współzależności chodzi o określenie:
 faktu występowania współzależności,
 jej siły oraz kierunku.
Upraszczając sytuację do badania współzależności dwóch cech (X,Y) ich realizację określa się jako
(xi,yj)
realizacja
(X ,Y ) ! (xi ; y )
j
X = xi ; i = 1,2,..., k
Y = y ; j = 1,2,...,l
j
Najprostszym sposobem prezentacji takiej zależności jest zbudowanie tablicy dwuwymiarowej która
tworzy dwuwymiarowy rozkład empiryczny. Zapisana na symbolach tablica ma następującą postać:
Y:yj
y1 y2 y& yl ni.
X:xi
x1 n11 n12 & n1l n1.
x2 n21 n22 & n2l n2.
x& & & & & &
xk nk1 nk2 & nkl nk.
n.j n.1 n.2 & n.l n
 światło tablicy
nij  liczebności
1
ANALIZA WSPÓAZALEŻNOŚCI  DWUWYMIAROWY ROZKAAD EMPIRYCZNY
Zjazd 3  14.XI.2009
Liczebności nij tworzą dwuwymiarowy rozkład empiryczny.
ni.  suma liczebności nij gdzie sumowanie jest od jedności do l
ni. = ; j = 1,2,...,l
"nij
n.j  suma liczebności nij gdzie sumowanie jest od jedności do k
n. j = ; i = 1,2,...,k
"nij
Liczebności ni. oraz n.j noszą nazwę liczebności brzegowych i tworzą brzegowe rozkłady empiryczne.
k l
n =
""nij
i=1 j=1
k
n =
"ni.
i=1
j
n =
"n. j
j=1
2
ANALIZA WSPÓAZALEŻNOŚCI  DWUWYMIAROWY ROZKAAD EMPIRYCZNY
Zjazd 3  14.XI.2009
2. Charakterystyki opisujące rozkłady brzegowe i warunkowe
W każdym dwuwymiarowym rozkładzie empirycznym dadzą się wyodrębnić dwa rozkłady brzegowe
oraz (k+l) rozkładów warunkowych.
Rozkłady brzegowe i charakterystyki je opisujące
" Rozkład brzegowy cechy X
X=xi ni.
x1 n1.
x2 n2.
& &
xk nk.
" n
Średnia ogólna Wariancja ogólna Odchylenie standardowe
_
_
_
* ni. 2 ( - x)2 * ni.
"xi
( - x)2 *ni.
"xi
"xi
2
x =
S (x) =
S(x) = S (x) =
"ni.
"ni.
"ni.
" Rozkład brzegowy cechy Y
Y=yi n.j
y1 n.1
y2 n.2
& &
yj n.k
" n
Średnia ogólna Wariancja ogólna Odchylenie standardowe
_
_
_
y * n. 2 ( y j - y)2 * n. j
" j j
( y - y)2 *n. j
"
" j
2
y =
S ( y) =
S(y) = S ( y) =
"n. j
"n. j
"n. j
Uwaga
Podane formuły na średnie ogólne i wariancje ogólne dotyczą sytuacji cech statystycznie
skokowych (dyskretnych).
W przypadku cech ciągłych w miejsce wartości dyskretnych należy wprowadzić środki
wstawić wstawić
o o
przedziałów klasowych tzn. zamiast xi ! x ; y ! y .
i
j j
3
ANALIZA WSPÓAZALEŻNOŚCI  DWUWYMIAROWY ROZKAAD EMPIRYCZNY
Zjazd 3  14.XI.2009
Rozkłady warunkowe i charakterystyki je opisujące.
Liczba rozkładów warunkowych w tablicy korelacyjnej (dwuwymiarowej) wynosi (k+l).
" Rozkładem warunkowym cechy X nazywamy rozkład tej cechy pod warunkiem, że cecha Y
przyjmuje konkretne wartości Y=yj lub wartości z określonego przedziału zmienności:
od do
Y "[y0 j y1 j ].
" Rozkładem warunkowym cechy Y nazywamy rozkład tej cechy pod warunkiem, że cecha X
przyjmuje konkretne wartości X=xi lub wartości z określonego przedziału zmienności:
od do
X "[x0 j x1 j ].
4
ANALIZA WSPÓAZALEŻNOŚCI  DWUWYMIAROWY ROZKAAD EMPIRYCZNY
Zjazd 3  14.XI.2009
3. Test niezależności CHI  kwadrat ( 2 )
Podstawowe rodzaje związków to:
 związek funkcyjny,
 związek korelacyjny,
 związek stochastyczny.
Związek funkcyjny oznacza jednoznaczne przyporządkowanie wartościom jednej cechy wartości
drugiej cechy, najczęściej związek ten opisywany jest za pomocą funkcji liniowej. Pojęcie
zależności w sensie korelacyjnym i stochastycznym wymaga najpierw zdefiniowania warunków
na niezależność, niespełnienie tych warunków oznacza niezależność stochastyczną lub
korelacyjną.
Warunki na niezależność korelacyjną
" Cecha X jest korelacyjnie niezależna od cechy Y jeśli wszystkie średnie warunkowe są
_ _ _ _
sobie równe i są równe średniej ogólnej co można zapisać: x = x = ... = x = x .
1 2 l
" Cecha Y jest korelacyjnie niezależna od cechy X jeśli wszystkie średnie warunkowe są
_ _ _ _
sobie równe i są równe średniej ogólnej co można zapisać: y1 = y2 = ... = yk = y .
Niespełnienie któregoś z tych warunków oznacza zależność w sensie korelacyjnym
Warunki na niezależność stochastyczną
" Cecha X jest stochastycznie niezależna od cechy X gdy spełnione są dwa warunki:
zachodzi równość średnich warunkowych oraz równość wariancji warunkowych co
_ _ _ _
x = x = ... = x = x
1 2 l
można zapisać:
2
S12 (x) = S2 (x) = ... = Sl2 (x) = S(x)
" Cecha Y jest stochastycznie niezależna od cechy X gdy spełnione są dwa warunki:
zachodzi równość średnich warunkowych oraz równość wariancji warunkowych co
_ _ _ _
y1 = y2 = ... = yk = y
można zapisać:
2 2
S12 ( y) = S2 (y) = ... = Sk (y) = S( y)
Niespełnienie któregoś z warunków oznacza zależność w sensie stochastycznym.
Testem na badanie niezależności jest test CHI  Kwadrat ( 2 ) wyprowadzony z warunku
niezależności w sensie stochastycznym oparty na liczebnościach empirycznych i teoretycznych.
5
ANALIZA WSPÓAZALEŻNOŚCI  DWUWYMIAROWY ROZKAAD EMPIRYCZNY
Zjazd 3  14.XI.2009
4. Zasada równości wariancyjnej
Zasada równości wariancyjnej mówi o tym, że wariancje ogólne można zapisać jako sumę dwóch
składników: wariancji międzygrupowej i średniej z wariancji warunkowych.
Formalny zapis:
Równość wariancyjna dla cechy X
_________
_
2 2 2
Równość wariancyjna dla cechy X
S (x) = S (x ) + S (x)
j
j
_
Wariancja średnich warunkowych
_
- x)2 * n. j
"(x j
2
(wariancja międzygrupowa)
S (x ) =
j
"n. j
2
_________
Średnia z wariancji warunkowych
(x)* n.
"S j j
2
S (x) =
(wariancja wewnątrzgrupowa)
j
"n. j
Równość wariancyjna dla cechy Y
_________
_
2 2
Równość wariancyjna dla cechy Y
S (y) = S (yi ) + Si2 (y)
_
Wariancja średnich warunkowych
_
"( yi - y)2 * ni.
2
(wariancja międzygrupowa)
S ( yi ) =
"ni.
2
_________
Średnia z wariancji warunkowych
( y)* ni.
"Si
Si2 (y) =
(wariancja wewnątrzgrupowa)
"ni.
Składniki równości wariancyjnej są podstawą do wyznaczania miar siły związku korelacyjnego
które noszą nazwę wskazników korelacji Pearsona.
_
2
S ( yi )
Zależność Y od X: eyx =
2
S (y)
_
2
S (x )
j
Zależność X od Y: exy =
2
S (x)
6
ANALIZA WSPÓAZALEŻNOŚCI  DWUWYMIAROWY ROZKAAD EMPIRYCZNY
Zjazd 3  14.XI.2009
eyx `" exy z wyjątkiem dwóch przypadków:
1 eyx = exy = 0 ! niezależność korelacyjna
2 eyx = exy = 1! związek funkcyjny
Wskazniki korelacyjne przyjmują wartości z przedziału <0;1>, są miernikami siły związku, nic nie
mówią na temat kierunku (dodatni, ujemny).
Drugim miernikiem siły związku korelacyjnego jest współczynnik korelacji liniowej Pearsona który
jest miernikiem siły i kierunku związku korelacyjnego:
cov(x, y)
rxy = ryx = "< -1;1 >
S(x)* S(y)
7
ANALIZA WSPÓAZALEŻNOŚCI  DWUWYMIAROWY ROZKAAD EMPIRYCZNY
Zjazd 3  14.XI.2009
5. Empiryczne linie regresji
Empiryczne linie regresji  jest to zbiór punktów płaszczyzny o współrzędnych:
_ _ o
a) ( yi ; xi ) lub ( yi; x )  empiryczna linia regresji y względem x
i
_ _ o
b) (x ; y ) lub (x ; y )  empiryczna linia regresji x względem y
j j j j
W oparciu o wykres empirycznych linii regresji możemy wnioskować o:
 fakcie występowania współzależności,
 jej sile i kierunku.
Silna dodatnia Silna ujemna Zależność
Zależność
Brak zależności
zależność zależność funkcyjna
funkcyjna
korelacyjna korelacyjna ujemna
dodatnia
eyx = exy = rxy = ryx = 0
Im kąt przecięcia się empirycznych linii regresji jest mniejszy tym siła związku jest większa.
8


Wyszukiwarka

Podobne podstrony:
wykład 6 15 11 12
wyklad4(30 11 2009)
Wykład 15 11 2012
wyklad 7 zap i, 11 2013
Fizyka Wykład 15
socjo wykład z 26 11
5 Analiza systemowa wykłady PDF 11 z numeracją
Wykład 15 Działalność zawodowa pośredników w obrocie nieruchomościami
wyklad 8 zap i, 11 2013
Techniki negocjacji i mediacji w administracji wykłady 05 11 2013
Pierwszy kontrakt naftowy w Iraku od 2003 r (03 11 2009)
Wykład 9 15 12 12
MIKROEKONOMIA WYKŁAD 2 (15 10 2011) elastyczność popytu i podaży
Analiza Wykład 8 (25 11 10)

więcej podobnych podstron