Statystyka opisowa (opis statystyczny) to zbiór metod statystycznych służących do – surprise, surprise – opisu (w sensie przedstawienia sumarycznego) zbioru danych; w zależności od typu danych (przekrojowe, czasowe, przestrzenne) oraz sposobu pomiaru (dane nominalne, porządkowe liczbowe) należy używać różnych metod.
Omówimy w tym dokumencie opis statystyczny w przypadku jednej zmiennej. Taki opis nazywany jest też analizą struktury.
Analiza struktury: opisane zbiorowości ze względu na obserwowane w badaniu cechy zmienne z wykorzystaniem:
tablic (statystycznych)
wykresów
parametrów (takich jak średnia czy mediana)
Rozkład cechy (zmiennej) to przyporządkowanie wartościom cechy zmiennej odpowiedniej liczby wystąpień (liczebności albo częstości (czyli popularnych procentów).)
Analiza struktury (dla jednej zmiennej) obejmuje:
określenie tendencji centralnej (tzw. miary położenia / wartość przeciętna, mediana, dominanta);
zróżnicowanie wartości (rozproszenie);
asymetrię (rozłożenie wartości wokół średniej);
Tablica statystyczna to (w podstawowej formie) dwukolumnowa tabela zawierająca wartości cechy oraz odpowiadające tym wartościom liczebności.
Przykład 1: Tablica dla cechy niemierzalnej (nominalnej albo porządkowej)
Absolwenci studiów pielęgniarskich w ośmiu największych krajach UE w roku 2018
Jednostka badania: absolwent studiów pielęgniarskich w roku 2018,
badana cecha: kraj w którym ukończył studia (nominalna)
Tablica: Absolwenci studiów pielęgniarskich w ośmiu największych krajach UE w roku 2018
kraj | liczba |
---|---|
Belgium | 7203 |
Germany | 35742 |
Spain | 9936 |
France | 25757 |
Italy | 11207 |
Netherlands | 9920 |
Poland | 9070 |
Romania | 18664 |
Żródło: Eurostat, tablica Health graduates (HLTH_RS_GRD)
Przykład 2: Tablica dla cechy mierzalnej (liczbowej; skokowej lub ciągłej)
Jeżeli liczba wariantów cechy jest mała tablica zawiera wyliczenie wariantów cechy i odpowiadających im liczebności. Jeżeli liczba wariantów cechy jest duża tablica zawiera klasy wartości (przedziały wartości) oraz odpowiadające im liczebności.
Co do zasady klasy wartości powinny być jednakowej rozpiętości.
Na zasadzie wyjątku dopuszcza się aby pierwszy i ostatni przedział były otwarte, tj. nie miały dolnej (pierwszy) lub górnej (ostatni) granicy
Tablica: Gospodarstwa domowe we wsi X wg liczby samochodów w roku 2022
liczba samochodów | liczba gospodarstw | % |
---|---|---|
0 | 230 | 39.3162393 |
1 | 280 | 47.8632479 |
2 | 70 | 11.9658120 |
3 i więcej | 5 | 0.8547009 |
razem | 585 | 100.0000000 |
Źródło: obliczenia własne
Tablica dla cechy mierzalnej (liczbowej ciągłej–wymaga pogrupowania w klasy):
Przykład: Dzietność kobiet na świecie
Współczynnik dzietności – przeciętna liczba urodzonych dzieci przypadających na jedną kobietę w wieku rozrodczym (15–49 lat). Przyjmuje się, iż FR między 2,10–2,15 zapewnia zastępowalność pokoleń.
Dane dotyczące dzietności dla wszystkich krajów świata można znaleźć na stronie https://ourworldindata.org/grapher/fertility-rate-complete-gapminder) Zbudujmy tablicę przedstawiającą rozkład współczynników dzietności w roku 2018
Krajów jest 201. Wartość minimalna to 1.22 a wartość maksymalna to 7.13. Decydujemy się na rozpiętość przedziału równą 0,5; dolny koniec pierwszego przedziału przyjmujemy jako 1,0.
Zwykle przyjmuje się za końce przedziałów okrągłe liczby bo dziwnie by wyglądało gdyby koniec przedziału np. był równy 1,05 zamiast 1,0.
Liczba przedziałów jest dobierana metodą prób i błędów, tak aby:
nie było przedziałów z zerową liczebnością
przedziałów nie było za dużo ani za mało
większość populacji nie znajdowała się w jednej czy dwóch przedziałach
Tablica: Kraje świata według współczynnika dzietności (2018)
Wsp. dzietności | liczba krajów |
---|---|
(1,1.5] | 24 |
(1.5,2] | 61 |
(2,2.5] | 40 |
(2.5,3] | 17 |
(3,3.5] | 8 |
(3.5,4] | 15 |
(4,4.5] | 11 |
(4.5,5] | 12 |
(5,5.5] | 6 |
(5.5,6] | 5 |
(6,6.5] | 1 |
(7,7.5] | 1 |
Źródło: https://ourworldindata.org/grapher/fertility-rate-complete-gapminder
Każda tablica statystyczna musi mieć:
Część liczbowa (kolumny i wiersze);
Część opisową:
Pominięcie czegokolwiek z powyższego jest ciężkim błędem. Jeżeli nie ma danych (a często nie ma–z różnych powodów – należy to zaznaczyć a nie pozostawiać pustą rubrykę)
Wykresy statystyczne są graficzną formą prezentacji materiału statystycznego, są mniej precyzyjne i szczegółowe niż tablice, natomiast bardziej sugestywne.
Celem jest pokazanie rozkładu wartości cechy w populacji: jakie wartości występują często a jakie rzadko, jak bardzo wartości różnią się między sobą. Jak różnią się rozkłady dla różnych ale logicznie powiązanych populacji (np rozkład czegoś-tam w kraju A i B albo w roku X, Y i Z). Do tego celu stosuje się:
wykres słupkowy (skala nominalna/porządkowa)
wykres kołowy (skala nominalna/porządkowa)
histogram (albo wykres słupkowy dla skal nominalnych)
wykres kołowy jest zdecydowanie gorszy od wykresu słupkowego i nie jest zalecany. Każdy wykres kołowy można wykreślić jako słupkowy i w takiej postaci będzie on bardziej zrozumiały i łatwiejszy w interpretacji.
Przykład: skala nominalna
Wykres kołowy
Ekwiwalentny wykres kołowy wygląda być może efektowniej (z uwagi na paletę kolorów)
Ale jest mniej efektywny. Wymaga legendy w szczególności, która utrudnia interpretację treści (nieustannie trzeba porównywać koło z legendą żeby ustalić który kolor to który kraj)
Jeżeli zwiększymy liczbę krajów wykres kołowy staje się zupełnie nieczytelny (brakuje rozróżnialnych kolorów a wycinki koła są zbyt wąskie żeby cokolwiek wyróżniały)
Wykres słupkowy dalej jest natomiast OK:
Przykład skala liczbowa
Histogram przedstawiający rozkład współczynników dzietności dla wszystkich krajów świata w roku 2018
Podobnie jak Tablice rysunki powinny być opatrzone tytułem oraz zawierać źródło wskazujące na pochodzenie danych (zobacz przedstawione przykłady.)
Analiza parametryczna z oczywistych względów dotyczy tylko zmiennych mierzonych na skali liczbowej.
Miary przeciętne (położenia) charakteryzują średni lub typowy poziom wartości cechy. Są to więc takie wartości, wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy.
Na rysunku po lewej mamy dwa rozkłady różniące się poziomem przeciętnym (czerwony ma przeciętnie mniejsze wartości niż turkusowy). Są to rozkłady jednomodalne, tj. wartości skupiają się wokół jednej wartości. Dla takich rozkładów ma sens obliczanie średniej arytmetycznej.
Na rysunku po prawej mamy rozkłady nietypowe: wielomodalne (turkusowy) lub niesymetryczne (fioletowy.) W rozkładzie niesymetrycznym wartości skupiają się nie centralnie, ale po prawej/lewej od środka przedziału zmienności/wartości średniej).
W świecie rzeczywistym zdecydowana większość rozkładów jest jednomodalna. Rzadkie przypadki rozkładów wielomodalnych zwykle wynikają z łącznego analizowania dwóch różniących się wartością średnią zbiorów danych. Oczywistym zaleceniem w takiej sytuacji jest analiza każdego zbioru oddzielnie.
Rodzaje miar położenia
Średnia arytmetyczna (Mean, Arithmetic mean) to łączna suma wartości podzielona przez liczbę sumowanych jednostek. Jeżeli wartość jednostki \(i\) w \(N\)-elementowym zbiorze oznaczymy jako \(x_i\) (gdzie: \(i=1,\ldots,N\)) to średnią można zapisać jako \(\bar x = (x_1 + \cdots + x_N)/N\)
Uwaga: we wzorach statystycznych zmienne zwykle oznacza się małymi literami a średnią dla zmiennej przez umieszczenie nad nią kreski poziomej czyli \(\bar x\) to średnia wartość zmiennej \(x\).
Mediana (Median, kwartyl drugi) dzieli uporządkowaną zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze lub równe medianie, a połowa wartości cechy równe lub większe od Me. Stąd też mediana bywa nazywana wartością środkową.
Własności mediany: odporna na wartości nietypowe (w przeciwieństwie do średniej)
Kwartyle: coś jak mediana tylko bardziej szczegółowo. Kwartyli jest trzy i dzielą one zbiorowość na 4 równe części, każda zawierająca 25% całości.
Pierwszy kwartyl dzieli uporządkowaną zbiorowość w proporcji 25%–75%. Trzeci dzieli uporządkowaną zbiorowość w proporcji 75%–25%. Drugi kwartyl to mediana.
Kwantyle (D, wartości dziesiętne), podobnie jak kwartyle, tyle że dzielą na 10 części. Centyle (P, wartości setne), podobnie jak kwantyle tyle że dzielą na 100 części. Przykładowo wartość 99 centyla i mniejszą ma 99% jednostek w populacji.
Przykład: współczynnik dzietności na świecie w roku 2018
Średnia wartość współczynnika 2.68; mediana – 2.2. Interpretacja średniej: wartość współczynnika dzietności wyniosła 2.68 dziecka. Uwaga: średnia dzietność na świecie nie wynosi 2.68 (bo kraje różnią się liczbą ludności). Interpretacja mediany: dzietność kobiet w połowie krajów na świecie wynosiło 2.2 i mniej. Uwaga: dzietność połowy kobiet na świecie wyniosła 2.2 i mniej jest niepoprawną interpretacją (różne wielkości krajów.)
Generalna uwaga: interpretacja średniej-średnich często jest nieoczywista i należy uważać. (a współczynnik dzietności jest średnią: średnia liczba dzieci urodzonych przez kobietę w wieku rozrodczym. Jeżeli liczymy średnią dla 202 krajów, to mamy średnią-średnich). Inny przykład: odsetek ludności w wieku poprodukcyjnym wg powiatów (średnia z czegoś takiego nie da nam odsetka ludności w wieku poprodukcyjnym w Polsce, bo powiaty różnią się liczbą ludności.)
Kontynuując przykład:
Pierwszy kwartyl: 1.75; trzeci kwartyl 3.56 co oznacza że 25% krajów miało wartość współczynnika dzietności nie większą niż 1.75 dziecka a 75% krajów miało wartość współczynnika dzietności nie większą niż 3.56 dziecka.
Miary zmienności określają zmienną (dyspersję) zbiorowości
Rodzaje miar zmienności:
Wariancja (variance) jest to średnia arytmetyczna kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej zbiorowości. Co można zapisać
\[s^2 = \frac{1}{N} \left( (x_1 - \bar x)^2 + (x_2 - \bar x)^2 + \cdots + (x_N - \bar x)^N \right)\]
Przy czym często zamiast dzielenie przez \(N\) dzielimy przez \(N-1\).
Odchylenie standardowe (standard deviation, sd) jest pierwiastkiem kwadratowym z wariancji. Parametr ten określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej.
Rozstęp ćwiartkowy (interquartile range, IQR) ma banalnie prostą definicję: \[ R_Q = Q_3 - Q_1 \] Przykład: współczynnik dzietności na świecie w roku 2018 (cd)
Średnie odchylenie od średniej wartości współczynnika wynosi 1.2595749 dziecka. Wartość rozstępu ćwiartkowego wynosi 1.81 dziecka.
Asymetria (skewness), to odwrotność symetrii. Szereg jest symetryczny jeżeli jednostki są rozłożone ,,równomiernie’’ wokół wartości średniej. Wartości średniej i mediany są sobie równe.
Skośność może być
dodatnia (Positive Skew) lub ujemna (Negative Skew). Czym się różni
jedna od drugiej widać na rysunku.
Miary asymetrii:
klasyczny współczynnik asymetrii (\(g\))
współczynniki asymetrii Pearsona (\(W_s\))
Współczynnik asymetrii (skośności) oparty na odległościach między kwartylami lub decylami:
Polega na obliczeniu
średniej i mediany
odchylenia standardowego i rozstępu ćwiartkowego
współczynnika skośności \(g\)
Oraz