Wykład nr 2 (310.03. 2011)
Podstawowe pojęcia statystyczne
Przedmiotem badań statystycznych są określone zbiorowości osób rzeczy i zjawisk.
Zbiorowość statystyczna [n] (populacja lub masa statystyczna) - zbiór dowolnych elementów objętych badaniem statystycznym.
Jednostki statystyczne - poszczególne elementy składowe badanej populacji.
Cechy statystyczne - są to właściwości jednostek wchodzących w skład badanej zbiorowości. Cechy te można podzielić na: cechy stałe i cechy zmienne.
Cechy stałe [ Xst] - określają jednostki pod względem rzeczowym (co?), czasowym (kiedy?) oraz przestrzennym (gdzie?). Cechy stałe są wspólne dla wszystkich jednostek w badanej zbiorowości. Nie podlegają one badaniu, a tylko decydują o zaliczeniu jednostek do danej zbiorowości.
Badaniom statystycznym podlegają jedynie ich cechy zmienne.
Cechy zmienne [Xzm] - są to właściwości którymi różnią się poszczególne jednostki statystyczne. Cechy te określane są jako zmienna czasowa. W każdym badaniu statystycznym liczba cech zmiennych jest większa od jednej.
Cechy zmienne dzielimy na: jakościowe (niemierzalne) - nie można ich zmierzyć a określa się je tylko słownie (np. pochodzenie społeczne, płeć, kolor wlosów itp.). Można je wyrazić w różnych miarach np. w cm, latach, w złotych itp.
Ilościowe (mierzalne) - można podzielić na: zmienne skokowe są to takie cechy, których wartości można wyrazić jedynie w liczbach zmieniających się skokami np.: liczba studentów w grupie, czy liczna pokoi zmieszkanych w domu. Cechy skokwe, które przyjmują bardzo duże wartości nazywane są cechami quasi (niby, prawie) ciągłymi np.: zarobki pracowników wyrażane w gorszach.
- zmienne ciągłe mogą przyjmować każdą wartość z określonego przedziału liczbowego. Takimi zmiennymi są wiek, wzrost, waga. W praktyce ten podział cech na ciągłe i skokowe nie zawsze jest ostry, ponieważ pomiary dokonujemy z określoną dokładnością ( np.: do 1 miejsca po przecinku).
Przykład obserwujemy 57 odziały Sanepidu w woj. lubelskim ze względu na ilość zatrudnionych pracowników w październiku 2009r.
Jednostka zbiorowa - jednostka Sanepidu.
Jej cecha stała - jednakowy rodzaj działalności lokalizacja w jednym województwie jednakowy okras czasu.
Cecha mierzalna ( o charakterze skokowym) - różny poziom zatrudnienia.
Zbiorowość statystyczna - oddziały Sanepidu n=57
Zbiorowością statystyczną [n] - nazywamy taki zbiór jednostek, który podlega obserwacji statystycznej i który charakteryzuje się takimi samymi wariantami przynajmniej jednej cechy stałej oraz różnymi wariantami przynajmniej jednej cechy zmiennej.
Cechy charakteryzujące poszczególne jednostki zbiorowości mogą mieć różne warianty (rodzaje). Np.: cecha jakościowa, płeć może mieć dwa warianty: kobieta i mężczyzna. Mówimy wówczas o dwudzielnym (dychotomicznym) podziale. W takich przypadkach wariantom cechy przyporządkowuje się wartości 0 i 1, gdzie 1 oznacza wystepowanie cennego wariantu u cechy, a 0 jego brak. Taką cechę określa się mianem zmiennej zero - jedynkowej.
Biorąc pod uwagę liczbę cech poddanych badaniu zbiorowości statystyczne można podzielić na: jednowymiarowe (jednocechowe) i wielowymiarowe (wielocechowe).
POMIAR
W procesie pomiaru określana jest wielkość (nasilenie) badanej zmiennej. Polega on na podporządkowaniu cechom statystycznym ustalonych symboli, którymi mogą być liczby, litery alfabetu, kolory, formy geometryczne itp.
W statystyce cechom statystycznym najczęściej podporządkowuje się liczby, które powinny wiernie odzwierciedlać mierzoną zmienność np. : cieżar [g], długość [m], czas [s] itp. - jest to pomiar bezpośredni.
W statystyce wyróżnia się różne poziomy pomiarów, którym odpowiadają skale pomiarowe.
1. Niemetryczne (jakościowe): nominalna, porządkowa (rangowa).
2. Metryczne (ilościowe): przedziałową (interwałową), stosunkową .
SKALA NOMINALNA - stanowi najmniej precyzyjny sposób pomiaru. Liczby pełnią tu tylko rolę umownych symboli służących do identyfikacji jednostek w celu ich klasyfikacji do określonych grup. Jedyną operacją matematyczna jest zaliczenie jednostek w obrębie grupy i obliczanie np. proporcji, odsetek itp. Przykładami liczb nominalnych są grupy krwi, numery telefonów, numery pokoi hotelowych itp.
SKALA PORZĄDKOWA ( RANGOWA) - ma wszystkie cechy skali nominalnej a dodatkowo pozwala na podporządkowanie jednostek w obrębie grupy pod względem natężenia badanej cechy. Używa się tu więc stwierdzeń typu: większy niż, mniejszy niż. W skali tej liczby, zwane rangami, wyznaczają kolejność występowania jednostek, a nie określają odległość między nimi.
Podporządkowanie jednostek wg badanej cechy przy wykorzystaniu rang może być uporządkowaniem słabym lub mocnym.
Uporządkowanie jest słabe, jeżeli występują relacje między jednostkami typu: mniejszy bądź równy i większy bądź równy.
Np. Miarka handlowa A jest równie dobra jak B, a może nawet trochę mniej dobra jak C.
Oznacza to, że kilka jednostek może mieć tą samą rangę. W takim przypadku wyznacza się tzw. rangi wiązane, będące średnia arytmetyczną sumy rang dotyczących jednostek.
Uporządkowanie jest mocne, jeśli charakteryzuje je relacja typu większy lub mniejszy.
Np. Stosowanie herbicydu A przeciw chorom grzybowym jest skuteczniejsze niż herbicydu B.
W skali porządkowej (rangowej) określone są:
Klasy owoców i warzyw(I,II,III), klasy mleka, jaj, 9-stopniowa skla Richtera (trzęsienia ziemi), stopnie wojskowe, miejsca na zawodach, wykształcenie, preferencje konsumentów itp.
SKALA PRZEDZIAŁOWA (interwałowa) - zachowuje wszystkie właściwości skali porządkowej, a dodatkowo umożliwia określenie odległości (dystansu) między jednostkami. Jednakowymi różnicom między stopniami właściwości badanych jednostek odpowiadaja tu jednakowe różnice między przyporządkowanymi im liczbami. W skali przedziałowej punkt zerowy jest ustalony arbitralnie - brak jest zera absolutnego.
Np.W skali temp. Celsjusza 0 jest punktem, gdzie zamarza woda. Niskie temp. zapisywane są ze znakiem - a wyższe z +. Jeśli woda w naczyniu A ma temp. 10oC, w naczyniu B - 20oC, a w naczyniu C - 30oC to różnica między temp. wody w tych naczyniach wynosi 10oC.
Błędne natomiast jest stwierdzenie, że w naczyniu C woda jest trzy krotnie cieplejsza niż w naczyniu A, bo brak jest absolutnego punktu zerowego. Na skali przedziałowej nie można wykonać dzielenia.
SKALA STOSUNKOWA (ilorazowa) - ma właściwości trzech poprzednich skal, a jej cechą charakterystyczną jest posiadanie naturalnego punktu zerowego. Punkt ten oznacza brak (fizyczny poziom zerowy) danej cechy. Umożliwia to dokonanie wszystkich operacji matematycznych.
W skali stosunkowej mierzy się: wiek, dochody, wielkość sprzedaży, długość, ciężar, wielkość zanieczyszczeń itp.
Wszystkie cztery skale mają kumulatywny charakter tzn. charakteryzują się narastającym stopniem dokładności pomiaru. Każda skala jest mocniejsza od poprzedniej. Zawiera wszystkie własności poprzedniej oraz dodatkowe.
Wyróżnia się trzy metody badań statystycznych:
badania pełne (całkowite) - obejmujące wszystkie jednostki danej zbiorowości statystycznej.
badania niepełne (częściowe) - obejmujące niektóre jednostki zbiorowości statystycznej.
szacunki interpolacyjne i ekstrapolacyjne
Badania zarówno pełne jak i częściowe mogą być:
- ciągłe (ewidencja urodzeń, e. pracowników w firmie)
- okresowe (podejmowane w ścisłych odstępach czasowych - co 10 lat powszechne spisy ludności)
- doraźne (podejmowane w sytuacjach szczególnych straty materialne spowodowane klęskami, epidemią grypy itp.
Badania pełne:
- spis statystyczny(doraźny lub okresowy obejmujący wszystkie jednostki zbiorowości statystycznej)
- rejestracja bieżąca (systematyczne notowanie określonych faktów będących przedmiotem badań - ruch wędrówkowy ludności.
Badania częściowe:
- ankietowe(informacje zbierane są za pomocą ankiet rozesłanych do określonych osób, czy instytucji.
Badania częściowe cz.II
- monograficzne ( szczegółowy opis i analiza wybranej jednostki statystycznej, wybranej jako typowa dla danej zbiorowości)
- reprezentacyjna - jest częściowym badaniem statystycznym opartym na próbie pobranej ze zbiorowości w sposób losowy. Jest to najbardziej prawidłowa forma badania statystycznego.
Zastosowanie rachunku pp przy przenoszeniu wyników z losowej próby na całą zbiorowość umożliwia określenie wielkości popełnianego błędu, czego nie dają metody ankietowa i monograficzna.
W sytuacji niemożliwe jest zastosowanie badania bezpośredniego (pełnego lub częściowego) przeprowadza się wówczas szacunek statystyczny. Polega ona na ustaleniu wielkości lub właściwości nieznanej zbiorowości na podstawie zbiorowości znanej i pozostającej z nią w określonym związku.
Np. Czas przeznaczony na czytanie książek przez określoną grupę ludzi można szacować na odstawie zakupionych i wypożyczonych przez nią książek.
Metody szacunku statystycznego:
Interpolacja (rachunek interpolacyjny) - polega na oszacowaniu znanych wartości sąsiednich (wcześniejszych lub późniejszych)
Ekstrapolacja (rachunek ekstrapolacyjny) - polega na szacowaniu wartości wykraczających poza przedział wartości znanych.
Mogą mieć charakter liniowy lub nieliniowy.
Interpolacja i ekstrapolacja liniowa opiera się na założeniu proporcjonalnego rozkładu wartości cechy pomiędzy liczebności lub jednostki czasu.
Badanie szacunkowe o charakterze liniowym
Np.
Przedsiębiorstwo A zatrudniało:
W 1992r. - średnio 5000 osób
W 2002r. - średnio 8200 osób
Oszacować liczbę zatrudnionych w tym przedsiębiorstwie (przy założeniu, że zatrudnienie w firmie wzrastało liniowo) w latach:
1995 - postepowanie interpolacyjne
2003 - postepowanie ekstrapolacyjne
W okresie 10-lecia zatrudnienie wzrosło o 3200 osób, czyli o średnio 320 osób rocznie.
Szacunkowo liczba osób zatrudnionych wynosi:
W 1995r. - 5960 (5000+ 3*320)
W 2003r. - 8520 (8200 + 320)
Badanie szacunkowe o charakterze nieliniowym
Np. - rozwój ludności
Liczba ludności w woj. A wynosiła w roku bazowym 100 000 osób. Założono, że w 20 - letnim okresie planu perspektywicznego średnie roczne tempo wzrostu ludności wyniesie 2%.
Lo- liczba ludności w roku bazowym
Ln- liczba ludności po n latach
p- stopa wzrostu ludności
Po pierwszym roku:
L1=Lo + LoP= Lo(1+p)
Po n latach:
Lo=Lo(1+p)n P=
L20= 100 000 x (1+0.02)20= 100 000 x1.0220= 148 595 osób