dystrybuanta i ctg, statystyka


Jako że nie wiem jak robić ułamki będę pisał co ma być nad a co pod kreską

ROZPRACOWANE POWTÓRZENIE

1.Dystrybuanta

a) Co to jest dystrybuanta? Definicja i wzór

Dystrybuanta jest to FUNKCJA która przypisuje każdej wartości zmiennej X prawdopodobieństwo przyjęcia przez zmienną TEJ wartości lub dowolnej niższej.

Wzór to F(x) = P(X≤x), gdzie mały x jest wartością, dla której szukamy prawdopodobieństwa.

b) Jakie własności ma dystrybuanta:

-Rozkład normalny to rozkład prawdopodobieństwa dla zmiennej ciągłej (czyli de facto dystrybuanta ma rozkład normalny)

-Jeśli zmienna jest ciągła, to prawdopodobieństwo jest miarą pola pod krzywą (całe pole pod krzywą = 1)

-dystrybuanta przyjmuje swoje wartości w zależności od ilości odchyleń standardowych od średniej:

μ +/- 1 б= 68,3% (Jeśli wynik odbiega od średniej μ obustronnie o dokładnie jedną standardową odległość zwaną odchyleniem standardowym б, to prawdopodobieństwo, że wynik ten padł w danej próbie wynosi 68,3%)

μ +/- 2 б= 95,5%

μ +/- 3 б= 99,7%

Ktoś jeśli ma jakieś pomysły to niech je dodaje, ja piszę to co wiem i co mam w zeszycie

c) Narysuj dystrybuantę rozkładu normalnego

0x01 graphic

d) Narysuj dystrybuantę rozkładu normalnego po standaryzacji

0x01 graphic

2 Standaryzacja

a) Na czym polega transformacja standaryzacji

Transformacja standaryzacji polega na przeskalowaniu wyników, tak by w odniesieniu do standardu, którym jest średnia arytmetyczna, wyniki te odbiegały od niej o określoną ilość odchyleń standardowych.

Wzór:

Zi= nad kreską xi - średnia arytmetyczna, pod kreską S

Zi - wystandaryzowany ity wynik czyli pewien wynik po procesie standaryzacji

xi - Wynik przed standaryzacją

S - odchylenie standardowe (Średnia, standardowa [czyli o stałej wartości dla danej zmiennej] odległość wyników od średniej arytmetycznej)

b) własności tej transformacji

-Zachowuje pole pod krzywą (całkowite pole pod krzywą równe 1)

-W zależności od S zmienia się kształt rozkładu. Jeśli było tak, że S > 1 to po standaryzacji rozkład będzie bardziej wysmukły a jeśli S < 1 to rozkład będzie bardziej płaski. Dla czego tak się dzieje? Odpowiedzmy sobie na pytanie czym jest S? S jest to odchylenie standardowe, a więc mówiąc najprościej standardowa odległość o jaką wyniki odchylają się od średniej.

Spójrzmy teraz na kształt rozkładu przy dużym i małym S

0x01 graphic

Teraz należy uświadomić sobie, że podczas standaryzacji S dąży do 1. Po standaryzacji mamy zawsze S=1 a więc S = się jednej jednostce. Każdy wynik może być oddalony od średniej (która po standaryzacji zawsze równa jest 0) o dowolną liczbę tych jednostek, sama jednostka jest jednak STANDARDOWA. A więc jeśli na pierwszym rysunku mieliśmy S o wiele większe od 1 to po standaryzacji wykres wysmukla się ponieważ S maleje, gdyż jak już wspominałem dąży do 1, a było od niej większe. Odwrotnie dzieje się w przypadku małego S. Małe S, o wiele mniejsze od jedynki, daje nam sygnał, że wykres po standaryzacji będzie bardziej płaski, ponieważ S rośnie gdyż dąży do jedynki a przed standaryzacją S od jedynki było o wiele mniejsze.

Nie trzeba się oczywiście tak rozpisywać na kolokwium, ale jak to zrozumiesz to przyda ci się później.

- Jeśli S przed standaryzacją =1 to po standaryzacji wykres nie zmienia swojego kształtu

-Standaryzacja przesuwa wykres wzdłuż osi OY (oznaczonej na rysunku jako xi) nad średnią równą 0 (Do momentu aż średnia, czyli w wypadku rozkładu normalnego czubek będzie na zerze)

3. Rozkład Normalny

a) scharakteryzuj własności rozkładu normalnego

- Rozkład normalny ma kształt symetryczny względem średniej μ, dzwonowaty

- jeśli V/S ≈ 6 to rozkład jest normalny

V-rozstęp (jedna z miar rozproszenia)

S-odchylenie standardowe

- rozkłady normalne o różnych średnich różnią się od siebie położeniem nad osią OY

- rozkłady normalne o różnych S różnią się od siebie smukłością (patrz rysunek wyżej, duże i małe S)

- rozkłady normalne mogą się różnić między sobą tylko średnią arytmetyczną i S oraz S2.

- w rozkładzie normalnym średnia=me=m

b)scharakteryzuj własności rozkładu normalnego wystandaryzowanego:

-Rozkład normalny wystandaryzowany ma kształt symetryczny względem średniej μ=0, dzwonowaty

- Rozkład normalny wystandaryzowany może różnić się od rozkładu sprzed standaryzacji smukłością, która jest zależna od S (Jeśli przed standaryzacją S = 1 to smukłość się nie zmieni.)

- Rozkład normalny wystandaryzowany zachowuje pole pod krzywą

c) przyjmując, że zmienna losowa X ma rozkład normalny podaj wartość prawdopodobieństwa zrealizowania się jej wartości w następujących przedziałach:

- P(μ -1б ≤ X ≤ μ + 1б) = 68,3%

- P(μ - 2б ≤ X ≤ μ + 2б) = 95,5%

- P(μ - 3б ≤ X ≤ μ + 3б) = 99,7%

-P (μ -1,96 б ≤ X ≤ μ + 1,96 б) = 95%

-P (-∞ ≤ X ≤ μ + 1,64 б) = 95,907%

-P(μ - 2,58 б ≤ X ≤ μ + 2,58 б) = 99%

-P(-∞ ≤ X ≤ μ + 2,33 б) = 99,097%

Gdzie:

P - prawdopodobieństwo

μ - średnia arytmetyczna

X - zmienna

б - odchylenie standardowe

No i teraz jak do tego doszedłem:

No więc najpierw rozpatrzmy sobie sytuację gdy po jednej i po drugiej stronie przedziału mamy to samo. Zacznijmy od pierwszego prawdopodobieństwa. Potraktujmy stronę lewą jako nieznaną -y (minus gdyż odchylenie standardowe odejmujemy od średniej) a stronę prawą jako nieznaną y (y dodatni gdyż odchylenie standardowe dodajemy do średniej).

Otrzymamy działanie P(-y ≤ X ≤ y). Jako że każdy z y-ów jest pojedynczy możemy to również zapisać P(-1y ≤ X ≤ 1y). Teraz korzystamy z tabeli dystrybuanty rozkładu normalnego. Patrzymy sobie ile wynosi dystrybuanta dla 1 i oznaczamy ją F(1) (czyli funkcja od jedynki). F(1) = 0,8413. Teraz przewracamy na drugą stronę tabelkę i patrzymy sobie na F(-1). F(-1) = 0,1587. I teraz główna zasada działania jest taka:

F(liczba dodatnia) - F(liczba ujemna) a więc F(1) - F(-1) = 0,8413 - 0,1587 = 0,6826 ≈ 68,3% (przecinek przesuwamy o 2 miejsca w lewo lub mówiąc prościej wynik mnożymy razy 100 i potem zaokrąglamy wynik)

Dla praktyki pokażę jeszcze jak zrobić przykład czwarty czyli

P(μ -1,96 б ≤ X ≤ μ + 1,96 б) = 95%. Postępujemy analogicznie, lewą stronę oznaczamy jako -y prawą jako y. Teraz patrzymy sobie co stoi przed б stoi tam 1,96 a więc otrzymujemy

działanie P(-1,96 ≤ X ≤ 1,96). I teraz również analogicznie do poprzedniego przykładu robimy sobie F(1,96) - F(-1,96), sczytujemy wartości dla dystrybuanty 1,96 i -1,96 znajdując sobie po stronie lewej lub prawej wiersz 1,9 i kolumnę 0,06 gdyż 1,9+0,06 = 1,96 i sczytujemy wynik który znajduje się właśnie w tym wierszu i jednocześnie właśnie w tej kolumnie. Następnie odwracamy tabelkę na drugą stronę i szukamy wiersza -1,9 i kolumny 0,06 i sczytujemy ponownie wynik leżący w tym właśnie wierszu i w tej właśnie kolumnie. Powinno wyjść F(1,96) - F(-1,96) = 0,97500 - 0,02500 = 0,95 = 95 %

Teraz zróbmy sobie ostatni przykład czyli P(-∞ ≤ X ≤ μ + 2,33 б) = 99,097% Tu miałem zagwostkę i nie byłem pewny czy dobrze to robię, ale jak coś, to niech ktoś to poprawi:P.

Szukamy sobie dystrybuanty dla 2,33. F(2,33) = 0,99097 i to jest odpowiedź. Dla czego? A no dla tego, że odcinamy ogon tylko z jednej strony czyli de facto robimy działanie 0,5 + (0,99097 - 0,5) = 0,99097 = 99,097%

Kolejny podpunkt to pytanie o prawdopodobieństwo w przedziale < μ ; μ + 2 б>, przyjmując że rozkład jest normalny. Dla uproszczenia ułóżmy sobie przedział taki jak powyżej, czyli:

P( μ ≤ X ≤ μ+2 б ). μ = 0 (ponieważ średnia w rozkładzie normalnym po standaryzacji ZAWSZE JEST RÓWNA 0) a F(0) = 0,5000 teraz szukamy dystrybuanty dla 2: F(2)= 0,97725 no i robimy działanie F(2) - F(0) = 0,97725 - 0,5000 = 0,47725 ≈ 47,73%

W kolejnym pytaniu szukamy prawdopodobieństwa, że wynik pomiaru będzie wyższy niż oddalony od średniej o dwa odchylenia standardowe ( 2 б ). Z poprzedniego działania wiemy, że od średniej do 2 odchyleń standardowych powyżej średniej padło 47,73% wyników. Pamiętajmy, że średnia w rozkładzie normalnym równa jest modzie i co najbardziej nas interesuje równa jest MEDIANIE, czyli wartości dzielącej nam wyniki na połowy. Oznacza to, że powyżej średniej aż do końca prawego ogona wykresu leży 50% wyników, a poniżej średniej aż do lewego ogona wykresu leży również 50 % wyników robimy więc działanie

50-47,73 i otrzymujemy wynik 2,27%.

Z jakiego przedziału zmienna losowa X o rozkładzie normalnym przyjmuje wartości z prawdopodobieństwem równym 0,99?

Czym jest ta liczba 0,99? Prawdopodobieństwem, czyli dystrybuantą.

Teraz trzeba zapisać wzór 1 - ₤(uznajmy że ten symbol to alfa) = 0,99

Gdzie:

1 - pole pod krzywą

₤ - to co odcinamy

0,99 - prawdopodobieństwo

Teraz szukamy w tabeli dystrybuanty rozkładu normalnego wartości równej 0,99 lub najbliższej niższej jest to 2,32 gdyż dystrybuanta dla tego wyniku jest równa 0,98983 czyli w przybliżeniu 0,99.

Zapis wygląda tak: 0,98983 ≈ 0,99 = F (2,32) = z1 gdzie z1 - to pierwszy wynik wystandaryzowany (prawa strona prawdopodobieństwa)

Obliczamy teraz ₤ = 0,98983-1= -0,01017

Przewracamy kartkę na drugą stronę i szukamy wartości 0,01017, i jest to -2,32, co łatwo sprawdzić, gdyż 0,01017 + 0,99097 = 1 czyli całkowite pole pod krzywą.

Zapis wygląda tak : 0,1017 = F(-2,32)=z2 gdzie z2 to drugi wynik wystandaryzowany (lewa strona prawdopodobieństwa)

Zapis końcowy: P( μ-2,32 б ≤ X ≤ μ+2,32 б) = 99%

Analogicznie zróbcie sobie kolejny podpunkt czyli z jakiego przedziału zmienna losowa X o rozkładzie normalnym przyjmuje wartości z prawdopodobieństwem równym 0,95

Dla uproszczenia podaję odpowiedź czyli jak powinien wyglądać zapis końcowy:

P( μ-1,96 б ≤ X ≤ μ+1,96 б) = 95%

Kolejne zadanie

X → N (30;10)

Gdzie:

X - zmienna

→ - ma

N - rozkład normalny

(μ; б) - o średniej i odchyleni odchyleniu standardowym

μ = 30

б = 10

a) jakie jest prawdopodobieństwo, że wynik będzie powyżej 60 (że na połączenie będzie czekać dłużej niż 60 sekund)

z = Nad kreską 60 - 30 pod kreską 10 = 3

P (-∞ ≤ X ≤ μ + 3 б)

F(3) = 0,998650

1 - ₤ = 0,998650

₤ = 0,00135 = 0,135%

Jak do tego doszedłem? Mamy podany wynik, standaryzujemy go więc. Następnie rozpisujemy przedział. Wiemy, że wartość poszukiwana to wartość powyżej 60. Wiemy także, że 60 po wystandaryzowaniu w przypadku tej zmiennej równe jest 3 i jest to liczba odchyleń standardowych wyniku od średniej (w prawo). Czego szukamy? Tego, że na połączenie będziemy czekali powyżej 60 sekund, czyli prawdopodobieństwa, że wynik będzie w prawym ogonie wykresu. Najłatwiej więc obliczyć prawdopodobieństwo dla lewej strony od samego początku a więc od - ∞ aż do 3 б a potem odjąć od całkowitego pola pod krzywą KTÓRE WYNOSI 1 !!!. No i sczytujemy sobie dystrybuantę F(3) = 0,998650. Teraz liczymy szukane prawdopodobieństwo oznaczone we wzorze jako ₤. 1-0,998650 = 0,00135, mnożymy to razy 100 i otrzymujemy 0,135%

b) Jakie jest prawdopodobieństwo, że połączenie zostanie zrealizowane w czasie nie przekraczającym 10 sekund.

z = nad kreską 10 - 30 pod kreską 10 = -2

P(μ - 2 б ≤ X ≤ + ∞)

F(-2) = 0,02275 = 2,275% i to jest odpowiedź

Jak do tego doszedłem? Znów standaryzujemy sobie wynik. Teraz myślimy czego szukamy. Na pewno tego, że X zrealizowało się poniżej 10 sekund czyli że wynik będzie w lewym ogonie wykresu. Wiemy, że 10 po wystandaryzowaniu, w przypadku tej zmiennej równe -2 i jest to liczba odchyleń standardowych od średniej (w lewo) poza tym szukamy prawdopodobieństwa z jakim zmienna X nie zrealizowała się w prawej części wykresu czyli jest od całej reszty wykresu mniejsza. Zapisujemy więc wzór, sczytujemy dystrybuantę dla -2, mnożymy wynik razy 100 i to wszystko .

c) Jakie jest prawdopodobieństwo, że na połączenie będzie trzeba czekać od 30 do 40 sekund?

z1 = nad kreską 30-30, pod kreską 10 = 0

z2 = nad kreską 40 - 30, pod kreską 10 =1

P ( μ ≤ X ≤ μ + 1 б)

F(1) - F(0) = 0,8413 - 0,5 = 0,3413 = 34,13%

Jak do tego doszedłem? Cholera dopiero teraz słowo doszedłem skojarzyło mi się z satysfakcją seksualną XD. No ale dobra nie ważne, bo za wolno dochodzę a czas goni XD. Standaryzujemy jeden i drugi wynik. Po standaryzacji otrzymujemy 0 i 1 co znaczy, że szukamy prawdopodobieństwa, że wypadnie wynik równy średniej (bo 0) lub o 1 odchylenie standardowe większy od średniej. No więc robimy sobie przedział, odejmujemy wartość większą od mniejszej, wynik mnożymy razy 100 i dziękuję bardzo!

d) jeśli prawdopodobieństwo zrealizowania połączenia wynosi 0,683, to w jakim czasie zostanie ono zrealizowane?

I tu odpowiedź powinna paść od razu, bo jest to jedna ze świętych własności!!! 0,683=68,3%

A więc wzór będzie P( μ-1б ≤ X ≤ μ+1б) = 68,3%

A więc liczymy sobie:

x1= 30-10 =20

x2= 30 + 10 =40

i wychodzi nam wzór

P(20 ≤ X ≤ 40) = 68,3%

e) w jakim czasie realizowane jest 99% wszystkich połączeń?

Czym jest ta liczba 0,99? Prawdopodobieństwem, czyli dystrybuantą.

Teraz trzeba zapisać wzór 1 - ₤ = 0,99

Gdzie:

1 - pole pod krzywą

₤ - to co odcinamy

0,99 - prawdopodobieństwo

Teraz szukamy w tabeli dystrybuanty wartości równej 0,99 lub najbliższej niższej jest to 2,32 gdyż . 0,98983 ≈ 0,99 = F (2,32) = z1 gdzie z1 - to pierwszy wynik wystandaryzowany (prawa strona prawdopodobieństwa)

Obliczamy teraz ₤ = 0,98983-1= -0,01017

Przewracamy kartkę na drugą stronę i szukamy wartości 0,01017, i jest to -2,32

Zapis wygląda tak : 0,1017 = F(-2,32)=z2 gdzie z2 to drugi wynik wystandaryzowany (lewa strona prawdopodobieństwa)

Robimy sobie zapis prawdopodobieństwa

P( μ-2,32 б ≤ X ≤ μ+2,32 б) = 99%

A więc

x1 = 30 - 2,32 razy 10 = 30 - 23,2 = 6,8

x2 = 30 + 2,32 razy 10 = 30 + 23,2 = 53,8

Zapis końcowy: P( 6,8 ≤ X ≤ 53,8 )=99%

f) w jakim czasie realizowane jest 5 % najszybszych połączeń?

Czym jest liczba 5%? No pewnie, że prawdopodobieństwem, ale nie takim zwykłym;). Liczba 5% jest ₤.

1-0,05=0,95

Szukamy wartości dystrybuanty najbliższej 0,95 lub dowolnej niższej i jest to 1,64

Piszemy sobie wzór, jako że łatwiej nam znaleźć czas dla 95% pozostałych wyników, a dopiero potem dla 5 % szukanych przez nas to szukamy wszystkich wyników, które padły od - ∞ aż do 1,64 odchylenia standardowego powyżej średniej.

Piszemy wzór P(- ∞ ≤ X ≤ μ + 1,64 б) = 95%

x1 = 30 + 16,4 =46,4

P(-∞ ≤ X ≤ 46,4) =95% A więc

P(46,4 ≤ X ≤ +∞) =5%

Jeżeli lęk egzaminacyjny w populacji studentów jest zmienną normalną i ok. 15,8% uczniów uzyskuje w skali lęku powyżej 65 punktów, a około 15,8% poniżej 50 punktów, to ile wynosi średnia i odchylenie standardowe tej zmiennej?

15,8% ≈ 0,1578 = F(-2,15)

μ-2,15 б =50

μ + 2,15 б = 65

x = μ

y = 2,15 б

{ x - y = 50

{ x + y = 65

{ y = 65 - x

{ x - (65 - x) = 50

x - 65 + x = 50

2x = 50 + 65 = 115 / 2

x = 57,5

y = 65 - 57,5 = 7,5

μ = 57,5

2,15 б = 7,5 / 2,15

б ≈ 3,5

Jak do tego doszedłem? A no tak, że popatrzyłem sobie i pomyślałem, co to jest te 15,8%? To są ogony. Najłatwiej jest znaleźć ogon ujemny więc poszukałem sobie w tabeli wartości bliskiej 0,1580 czyli 15,8%. Okazało się że jest to dystrybuanta dla 2,15. Te 2,15 to także ilość odchyleń standardowych o jakie wynik odchyla się od średniej. No i teraz coś już mamy, bo wiemy ile nieznanych odchyleń standardowych musimy odjąć od nieznanej średniej, żeby wyszło 50 i ile nieznanych odchyleń standardowych musimy dodać, żeby wyszło 65. Od razu po tym zauważyłem, że średnia powinna wynosić 57,5, ale no trzeba to jakoś udokumentować, więc nie męcząc się ze wzorami zrobiłem najprostszy chyba z najprostszych możliwych układ równań, rozwiązałem , co dało mi wartość μ i wartość 2,15 б, potem wyliczyłem б i tyle.

4 Centralne Twierdzenie Graniczne

a) Podaj treść CTG

Jeżeli z populacji, w której zmienna losowa X ma DOWOLNY rozkład prawdopodobieństwa swoich wartości ze średnią μ i wariancją б2 losujemy próby o coraz większej liczebności (n dąży do nieskończoności), to w miarę wzrostu liczby losowań rozkład estymatora μ czyli średniej z prób dąży do rozkładu normalnego ze średnią równą μ i wariancją równą nad kreską б2 pod kreską n.

b) Co oznacza termin „statystyka z prób / próby?” czym różni się statystyka z próby od statystyki w próbie? No i tu wszyscy się głowią o co chodzi. A chodzi o to żeby sprecyzować definicyjnie słowo statystyka, które w tym kontekście oznacza jaką kolwiek z poznanych wartości czyli odchylenie standardowe, wariancję czy średnią i na tym będzie nam najłatwiej to wytłumaczyć. Średnia w próbie jest to średnia wyników jakie w danej próbie padły, a średnia z prób, to średnia wyników średnich we wszystkich przeprowadzonych próbach ale że możemy losować takowe próby w nieskończoność no to nie podajemy jej wartości tylko budujemy wykres. Więc statystyka w próbie odnosi się do wartości pewnej zmiennej, jakie w danej próbie padły, a statystyka z prób jest de facto nową zmienną, która z nieskończenie wielu prób czerpie dla siebie wiadomości, co oznacza, że wariancja, średnia i odchylenie standardowe w poszczególnych próbach są pojedynczymi wynikami dla zbudowania statystyki z prób.

c) Co to jest błąd standardowy?

Błąd standardowy jest to odchylenie standardowe w rozkładzie statystyki z prób. Jest on zależny od wariancji i liczby n (liczba n to liczebność próby)

d) Ile wynosi błąd standardowy średniej бśrednia?

Wynosi on nad kreską б a pod kreską √n

e) Od czego zależy jego wartość i w jaki sposób?

Jego wartość zależy od б (odchylenia standardowego w populacji) i n (liczebności próby). Gdy n rośnie, to błąd standardowy maleje, gdy б rośnie, to błąd standardowy też rośnie.

f) Co to jest estymator?

Jest to taka statystyka z prób (Średnia, odchylenie, wariancja), której rozkład wykorzystujemy w celu oszacowania nieznanych wartości parametru populacji.

-Estymacja punktowa polega na uznaniu (czyli pogodzeniu się z tym), że nieznana wartość parametru (średnia odchylenie wariancja) populacji jest w przybliżeniu równa wartości estymatora tego parametru otrzymanej dla dużej próby(130 ≤ n ) wylosowanej z populacji (czyli S S2 lub średniej arytmetycznej.

-Estymacja przedziałowa polega na zbudowaniu przedziału ufności dla nieznanej wartości parametru z populacji

g) Jaki rozkład będzie miała średnia z prób 150-osobowych? Podaj typ rozkładu i jego parametry.

Średnia z prób 150 osobowych będzie miała rozkład normalny o średniej równej μ i błędzie standardowym równym nad kreską б pod kreską √150

h) Jeśli empatia w populacji studentów ma dowolny rozkład prawdopodobieństwa swoich wartości o μ = 70 i б = 10, z jakim prawdopodobieństwem wylosujemy z tej populacji 400-osobową próbę, w której przeciętny poziom agresji będzie większy od 71,5?

P( 71,5 ≤ X ≤ +∞)

Słuchajcie co mogłem, to zrobiłem nic więcej nie wymyślę. Definicje macie w zeszycie, to tylko musicie jakoś rozgryźć te CTG i przedział ufności. Myślę że to co napisałem spokojnie starczy żeby zaliczyć. Pozdrawiam



Wyszukiwarka