Opis statystyczny

Przegląd pojęć

Statystyka opisowa (opis statystyczny) to zbiór metod statystycznych służących do – surprise, surprise – opisu (w sensie przedstawienia sumarycznego) zbioru danych; w zależności od typu danych (przekrojowe, czasowe, przestrzenne) oraz sposobu pomiaru (dane nominalne, porządkowe liczbowe) należy używać różnych metod.

Omówimy w tym dokumencie opis statystyczny w przypadku jednej zmiennej. Taki opis nazywany jest też analizą struktury.

Analiza struktury: opisane zbiorowości ze względu na obserwowane w badaniu cechy zmienne z wykorzystaniem:

tablic (statystycznych)
wykresów
parametrów (takich jak średnia czy mediana)

Rozkład cechy (zmiennej) to przyporządkowanie wartościom cechy zmiennej odpowiedniej liczby wystąpień (liczebności albo częstości (czyli popularnych procentów).)

Analiza struktury (dla jednej zmiennej) obejmuje:

określenie tendencji centralnej (tzw. miary położenia / wartość przeciętna, mediana, dominanta);
zróżnicowanie wartości (rozproszenie);
asymetrię (rozłożenie wartości wokół średniej);

Tablice statystyczne

Tablica statystyczna to (w podstawowej formie) dwukolumnowa tabela zawierająca wartości cechy oraz odpowiadające tym wartościom liczebności.

Przykład 1: Tablica dla cechy niemierzalnej (nominalnej albo porządkowej)

Absolwenci studiów pielęgniarskich w ośmiu największych krajach UE w roku 2018

Jednostka badania: absolwent studiów pielęgniarskich w roku 2018,

badana cecha: kraj w którym ukończył studia (nominalna)

Tablica: Absolwenci studiów pielęgniarskich w ośmiu największych krajach UE w roku 2018

kraj	liczba
Belgium	7203
Germany	35742
Spain	9936
France	25757
Italy	11207
Netherlands	9920
Poland	9070
Romania	18664

Żródło: Eurostat, tablica Health graduates (HLTH_RS_GRD)

Przykład 2: Tablica dla cechy mierzalnej (liczbowej; skokowej lub ciągłej)

Jeżeli liczba wariantów cechy jest mała tablica zawiera wyliczenie wariantów cechy i odpowiadających im liczebności. Jeżeli liczba wariantów cechy jest duża tablica zawiera klasy wartości (przedziały wartości) oraz odpowiadające im liczebności.

Co do zasady klasy wartości powinny być jednakowej rozpiętości.
Na zasadzie wyjątku dopuszcza się aby pierwszy i ostatni przedział były otwarte, tj. nie miały dolnej (pierwszy) lub górnej (ostatni) granicy

Tablica: Gospodarstwa domowe we wsi X wg liczby samochodów w roku 2022

liczba samochodów	liczba gospodarstw	%
0	230	39.3162393
1	280	47.8632479
2	70	11.9658120
3 i więcej	5	0.8547009
razem	585	100.0000000

Źródło: obliczenia własne

Tablica dla cechy mierzalnej (liczbowej ciągłej–wymaga pogrupowania w klasy):

Przykład: Dzietność kobiet na świecie

Współczynnik dzietności – przeciętna liczba urodzonych dzieci przypadających na jedną kobietę w wieku rozrodczym (15–49 lat). Przyjmuje się, iż FR między 2,10–2,15 zapewnia zastępowalność pokoleń.

Dane dotyczące dzietności dla wszystkich krajów świata można znaleźć na stronie https://ourworldindata.org/grapher/fertility-rate-complete-gapminder) Zbudujmy tablicę przedstawiającą rozkład współczynników dzietności w roku 2018

Krajów jest 201. Wartość minimalna to 1.22 a wartość maksymalna to 7.13. Decydujemy się na rozpiętość przedziału równą 0,5; dolny koniec pierwszego przedziału przyjmujemy jako 1,0.

Zwykle przyjmuje się za końce przedziałów okrągłe liczby bo dziwnie by wyglądało gdyby koniec przedziału np. był równy 1,05 zamiast 1,0.

Liczba przedziałów jest dobierana metodą prób i błędów, tak aby:

nie było przedziałów z zerową liczebnością
przedziałów nie było za dużo ani za mało
większość populacji nie znajdowała się w jednej czy dwóch przedziałach

Tablica: Kraje świata według współczynnika dzietności (2018)

Wsp. dzietności	liczba krajów
(1,1.5]	24
(1.5,2]	61
(2,2.5]	40
(2.5,3]	17
(3,3.5]	8
(3.5,4]	15
(4,4.5]	11
(4.5,5]	12
(5,5.5]	6
(5.5,6]	5
(6,6.5]	1
(7,7.5]	1

Źródło: https://ourworldindata.org/grapher/fertility-rate-complete-gapminder

Każda tablica statystyczna musi mieć:

Część liczbowa (kolumny i wiersze);
- żadna rubryka w części liczbowej nie może być pusta
Część opisową:
- tytuł tablicy;
- nazwy (opisy zawartości) wierszy;
- nazwy (opisy zawartości) kolumn;
- wskazanie źródła danych;
- ewentualne uwagi odnoszące się do danych liczb.

Pominięcie czegokolwiek z powyższego jest ciężkim błędem. Jeżeli nie ma danych (a często nie ma–z różnych powodów – należy to zaznaczyć a nie pozostawiać pustą rubrykę)

Wykresy

Wykresy statystyczne są graficzną formą prezentacji materiału statystycznego, są mniej precyzyjne i szczegółowe niż tablice, natomiast bardziej sugestywne.

Celem jest pokazanie rozkładu wartości cechy w populacji: jakie wartości występują często a jakie rzadko, jak bardzo wartości różnią się między sobą. Jak różnią się rozkłady dla różnych ale logicznie powiązanych populacji (np rozkład czegoś-tam w kraju A i B albo w roku X, Y i Z). Do tego celu stosuje się:

wykres słupkowy (skala nominalna/porządkowa)
wykres kołowy (skala nominalna/porządkowa)
histogram (albo wykres słupkowy dla skal nominalnych)

wykres kołowy jest zdecydowanie gorszy od wykresu słupkowego i nie jest zalecany. Każdy wykres kołowy można wykreślić jako słupkowy i w takiej postaci będzie on bardziej zrozumiały i łatwiejszy w interpretacji.

Przykład: skala nominalna

Wykres kołowy

Ekwiwalentny wykres kołowy wygląda być może efektowniej (z uwagi na paletę kolorów)

Ale jest mniej efektywny. Wymaga legendy w szczególności, która utrudnia interpretację treści (nieustannie trzeba porównywać koło z legendą żeby ustalić który kolor to który kraj)

Jeżeli zwiększymy liczbę krajów wykres kołowy staje się zupełnie nieczytelny (brakuje rozróżnialnych kolorów a wycinki koła są zbyt wąskie żeby cokolwiek wyróżniały)

Wykres słupkowy dalej jest natomiast OK:

Przykład skala liczbowa

Histogram przedstawiający rozkład współczynników dzietności dla wszystkich krajów świata w roku 2018

Podobnie jak Tablice rysunki powinny być opatrzone tytułem oraz zawierać źródło wskazujące na pochodzenie danych (zobacz przedstawione przykłady.)

Analiza parametryczna

Analiza parametryczna z oczywistych względów dotyczy tylko zmiennych mierzonych na skali liczbowej.

Miary położenia

Miary przeciętne (położenia) charakteryzują średni lub typowy poziom wartości cechy. Są to więc takie wartości, wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy.

Na rysunku po lewej mamy dwa rozkłady różniące się poziomem przeciętnym (czerwony ma przeciętnie mniejsze wartości niż turkusowy). Są to rozkłady jednomodalne, tj. wartości skupiają się wokół jednej wartości. Dla takich rozkładów ma sens obliczanie średniej arytmetycznej.

Na rysunku po prawej mamy rozkłady nietypowe: wielomodalne (turkusowy) lub niesymetryczne (fioletowy.) W rozkładzie niesymetrycznym wartości skupiają się nie centralnie, ale po prawej/lewej od środka przedziału zmienności/wartości średniej).

W świecie rzeczywistym zdecydowana większość rozkładów jest jednomodalna. Rzadkie przypadki rozkładów wielomodalnych zwykle wynikają z łącznego analizowania dwóch różniących się wartością średnią zbiorów danych. Oczywistym zaleceniem w takiej sytuacji jest analiza każdego zbioru oddzielnie.

Rodzaje miar położenia

klasyczne
- średnia arytmetyczna
pozycyjne
- mediana
- dominanta
- kwartyle
- ewentualnie kwantyle, decyle, centyle (rzadziej używane)

Średnia arytmetyczna (Mean, Arithmetic mean) to łączna suma wartości podzielona przez liczbę sumowanych jednostek. Jeżeli wartość jednostki \(i\) w \(N\)-elementowym zbiorze oznaczymy jako \(x_i\) (gdzie: \(i=1,\ldots,N\)) to średnią można zapisać jako \(\bar x = (x_1 + \cdots + x_N)/N\)

Uwaga: we wzorach statystycznych zmienne zwykle oznacza się małymi literami a średnią dla zmiennej przez umieszczenie nad nią kreski poziomej czyli \(\bar x\) to średnia wartość zmiennej \(x\).

Mediana (Median, kwartyl drugi) dzieli uporządkowaną zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze lub równe medianie, a połowa wartości cechy równe lub większe od Me. Stąd też mediana bywa nazywana wartością środkową.

Własności mediany: odporna na wartości nietypowe (w przeciwieństwie do średniej)

Kwartyle: coś jak mediana tylko bardziej szczegółowo. Kwartyli jest trzy i dzielą one zbiorowość na 4 równe części, każda zawierająca 25% całości.

Pierwszy kwartyl dzieli uporządkowaną zbiorowość w proporcji 25%–75%. Trzeci dzieli uporządkowaną zbiorowość w proporcji 75%–25%. Drugi kwartyl to mediana.

Kwantyle (D, wartości dziesiętne), podobnie jak kwartyle, tyle że dzielą na 10 części. Centyle (P, wartości setne), podobnie jak kwantyle tyle że dzielą na 100 części. Przykładowo wartość 99 centyla i mniejszą ma 99% jednostek w populacji.

Przykład: współczynnik dzietności na świecie w roku 2018

Średnia wartość współczynnika 2.68; mediana – 2.2. Interpretacja średniej: wartość współczynnika dzietności wyniosła 2.68 dziecka. Uwaga: średnia dzietność na świecie nie wynosi 2.68 (bo kraje różnią się liczbą ludności). Interpretacja mediany: dzietność kobiet w połowie krajów na świecie wynosiło 2.2 i mniej. Uwaga: dzietność połowy kobiet na świecie wyniosła 2.2 i mniej jest niepoprawną interpretacją (różne wielkości krajów.)

Generalna uwaga: interpretacja średniej-średnich często jest nieoczywista i należy uważać. (a współczynnik dzietności jest średnią: średnia liczba dzieci urodzonych przez kobietę w wieku rozrodczym. Jeżeli liczymy średnią dla 202 krajów, to mamy średnią-średnich). Inny przykład: odsetek ludności w wieku poprodukcyjnym wg powiatów (średnia z czegoś takiego nie da nam odsetka ludności w wieku poprodukcyjnym w Polsce, bo powiaty różnią się liczbą ludności.)

Kontynuując przykład:

Pierwszy kwartyl: 1.75; trzeci kwartyl 3.56 co oznacza że 25% krajów miało wartość współczynnika dzietności nie większą niż 1.75 dziecka a 75% krajów miało wartość współczynnika dzietności nie większą niż 3.56 dziecka.

Miary zmienności

Miary zmienności określają zmienną (dyspersję) zbiorowości

Rodzaje miar zmienności:

Klasyczne
- Wariancja i odchylenie standardowe
Pozycyjne
- rozstęp
- rozstęp ćwiartkowy

Wariancja (variance) jest to średnia arytmetyczna kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej zbiorowości. Co można zapisać

\[s^2 = \frac{1}{N} \left( (x_1 - \bar x)^2 + (x_2 - \bar x)^2 + \cdots + (x_N - \bar x)^N \right)\]

Przy czym często zamiast dzielenie przez \(N\) dzielimy przez \(N-1\).

Odchylenie standardowe (standard deviation, sd) jest pierwiastkiem kwadratowym z wariancji. Parametr ten określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej.

Rozstęp ćwiartkowy (interquartile range, IQR) ma banalnie prostą definicję: \[ R_Q = Q_3 - Q_1 \] Przykład: współczynnik dzietności na świecie w roku 2018 (cd)

Średnie odchylenie od średniej wartości współczynnika wynosi 1.2595749 dziecka. Wartość rozstępu ćwiartkowego wynosi 1.81 dziecka.

Miary asymetrii

Asymetria (skewness), to odwrotność symetrii. Szereg jest symetryczny jeżeli jednostki są rozłożone ,,równomiernie’’ wokół wartości średniej. Wartości średniej i mediany są sobie równe.

Skośność może być dodatnia (Positive Skew) lub ujemna (Negative Skew). Czym się różni jedna od drugiej widać na rysunku.

Miary asymetrii:

klasyczny współczynnik asymetrii (\(g\))
- przyjmuje wartości ujemne dla asymetrii lewostronnej; a dodatnie dla prawostronnej. Teoretycznie może przyjąć dowolnie dużą wartość ale w praktyce rzadko przekracza 3 do do wartości bezwzględnej.
- wartości większe od 2 świadczą o dużej a większe od 3 o bardzo dużej asymetrii
współczynniki asymetrii Pearsona (\(W_s\))
- wykorzystuje różnice między średnia Medianą: \(W_s = (\bar x - Me)/s\)
Współczynnik asymetrii (skośności) oparty na odległościach między kwartylami lub decylami:
- Obliczany jest według następującej formuły: \(W_{sq} = \frac{(Q_3 - Q_2) - (Q_2 - Q_1)}{Q_3 - Q_1}\)

(Parametryczna) analiza struktury w jednym zdaniu

Polega na obliczeniu

średniej i mediany
odchylenia standardowego i rozstępu ćwiartkowego
współczynnika skośności \(g\)

Oraz

zinterpretowaniu powyższych parametrów (patrz przykłady)