2 Média e medidas de dispersão associadas

Nesta seção será discutido o cálculo e o uso da média como uma medida de tendência central, assim como as medidas de dispersão que lhe são associadas, variância, desvio-padrão e coeficiente de variação.

2.1 Média a partir de uma série de dados

Seja X uma variável e \(( x_1, \ldots,x_n )\), ou \(( x_1, \ldots,x_N )\), uma sequência de valores observados de X, então a média nesse conjunto de valores é dada por:

  • \(\overline{x}=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{x_i}}{n}, \mbox{que é a média populacional para valores a partir de uma amostra},\)
  • \(\mu=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{x_i}}{N}, \mbox{que é a média populacional para valores a partir de uma população},\) sendo:
    • \(\overline{x}\), a notação para média amostral,
      • \(\mu\) a notação para média populacional,
      • \(n\) a quantidade de elementos na amostra e
      • \(N\) a quantidade de elementos na população.

2.1.1 Código R para obtenção da média

No R a média pode ser obtida de modo simples e rápido. Considere a variável “Altura”, obtida a partir de questionário aos estudantes ingressastes das engenharias do Campus da UFC de Russas ano 2020, apresentados na Tabela 2.1. A obtenção da média de altura é vista a seguir, onde pode ser visto que a altura média dos estudantes entrevistados é \(\overline{x} \approx 1,68\).

2.1.1.1 Banco de dados

#if(!require(knitr)) install.packages("knitr");require(knitr) # instalar caso não tenha
## no código abaixo, se os dados estiverem em um diretório do computador, bastar fornecer o caminho com barras invertidas, seguido do nome do arquivo, em vez do link, exemplo "C:/user/meus documentos/DataEstudat.csv"
DadosEstudante<-read.table("https://raw.githubusercontent.com/rfdapaz/DadosAME/master/DataEstudat.csv",sep=',', head=TRUE, encoding = "UTF-8", check.names=FALSE) 

### apenas as cinco primeiras linhas e sete primeiras colunas
knitr::kable(
  head(DadosEstudante[,1:7], 5), caption = 'Dados fornecidos por estudantes ingressantes do ano de 2020 nos cursos de engenharias do Campus da UFC de Russas.',
  booktabs = TRUE
)
Tabela 2.1: Dados fornecidos por estudantes ingressantes do ano de 2020 nos cursos de engenharias do Campus da UFC de Russas.
Cidade UF Sexo Idade Peso Altura
1 Limoeiro do Norte CE Feminino 17 40,2 1,61
2 Aracati CE Feminino 17 100,0 1,60
3 Limoeiro do Norte CE Masculino 19 60,0 1,65
4 Quixadá CE Masculino 20 80,3 1,73
5 Russas CE Masculino 17 59,0 1,68

2.1.1.2 Obtenção da média da variável “Altura”

options(OutDec = ",")
X<-DadosEstudante$Altura                  ## variável "Idade"

X.bar<- mean(X)                           ## obtenção da média

X.bar
## [1] 1,685072

2.2 Média a partir da tabela de frequência simples

Para ilustrar a obtenção da média a partir da tabela de frequência simples, considere a variável idade dos entrevistados no dia da entrevista, vista na Tabela 2.1. Como a idade aqui é observada em número de anos completos por cada estudante, essa é uma variável resultado de uma contagem, assim pode ser considerada como discreta. Além, disso, são poucos valores possíveis no conjunto de dados, como pode ser visto a seguir:

X<-DadosEstudante$Idade                       ## variável "Idade"

Valores_possiveis<- unique(X)                 ## possíveis valores da variável no conjunto de dados

sort(Valores_possiveis)                      ## apresentação dos possíveis valores em ordem crescente
##  [1] 16 17 18 19 20 21 22 23 24 25 26 28 33 43

Deste modo, pode ser pensada uma tabela de frequência simples para essa variável, como mostra a Tabela 2.2. A partir dessa tabela pode ser obtida a idade média dos entrevistados multiplicando a frequência relativa pelos valores assumidos pela variável, em seguida somando os termos resultantes, como segue:

\(\overline{x}=\displaystyle\sum_{i=1}^{k} x_i f_i = 16 . (\frac{1}{209})+ 17 . (\frac{23}{209})+18 . ( \frac{63}{209})+ 19. (\frac{52}{209})+ 20. (\frac{30}{209})+ 21. (\frac{12}{209}) + \\22. (\frac{12}{209}) + 23. (\frac{8}{209}) + 24. (\frac{1}{209})+ 25. (\frac{1}{209}) + 26. (\frac{1}{209}) + 28. (\frac{8}{209}) + 33. (\frac{1}{209}) + 43. (\frac{2}{209})\approx 19,5.\)

Esses cálculos podem ser realizados na própria tabela de frequência, observe a quarta coluna da Tabela 2.2, onde podem ser encontrados os resultados para cada termo do somatório apresentado acima, bem como o total obtido, que é a média da variável “Idade”. Assim, em média os estudantes estavam com 19,5 anos completos na época de aplicação do questionário, que coincidiu com o início do curso que escolheram.

Tabela 2.2: Distribução de frequência da variável X=“Idade”.
\(X_i\) \(n_i\) \(f_i\) \(X_i \times f_i\)
16 1 0,005 0,077
17 23 0,110 1,871
18 63 0,301 5,426
19 52 0,249 4,727
20 30 0,144 2,871
21 12 0,057 1,206
22 12 0,057 1,263
23 8 0,038 0,880
24 1 0,005 0,115
25 1 0,005 0,120
26 1 0,005 0,124
28 2 0,010 0,268
33 1 0,005 0,158
43 2 0,010 0,411
Total 209 1,000 19,517

2.3 Média a partir da tabela de frequência com intervalos

Se a tabela contiver intervalos em vez dos valores possíveis da variável, deve-se se utilizar alguma estratégia para aproximar os possíveis valores no conjunto de dados. Uma opção é usar o ponto médio de cada intervalo para representar os valores possíveis da variável. Como ilustração, considere a Tabela de Frequência 2.3, onde é mostrada a distribuição de frequência da variável “Peso” dos estudantes entrevistados. A segunda coluna dessa tabela mostra o ponto médio de cada intervalo. A partir desses pontos médios, pode-se obter a média aproximada da seguinte forma:

\(\overline{x}=\displaystyle\sum_{i=1}^{k} x_i f_i = 45 . (\frac{39}{209})+ 59 . (\frac{79}{209}+73) . \frac{68}{209}+ 87 (\frac{18}{209})+ 101. (\frac{3}{209})+ 115. (\frac{2}{209})\approx 64,5.\)

O resultado para cada termo do somatório acima pode ser visto na quinta coluna da Tabela 2.3, enquanto o peso médio dos entrevistados é de aproximadamente 64,5, podendo ser visto na linha de totais na tabela e, também, no cálculo acima.

Observações:

  1. o ponto médio de cada intervalo pode ser obtido somando os limites superior e inferior do intervalo e dividindo o resultado por dois.
Tabela 2.3: Distribução de frequência da variável X=“Peso”.
X Ponto Médio \(n_i\) \(f_i\) \(X_i \times f_i\)
(38,52] 45 39 0,187 8,397
(94,108] 59 79 0,378 22,301
(52,66] 73 68 0,325 23,751
(80,94] 87 18 0,086 7,493
(66,80] 101 3 0,014 1,450
(108,122] 115 2 0,010 1,100
Total 209 1,000 64,493
  1. a média da variável “Peso” obtida a partir da série de dados é obtida a seguir, o que mostra que ocorreu uma perda na precisão do valor da média, pois essa obtida a partir da série apresentou valor \(69,66\), sendo um pouco maior que a média obtida a partir da tabela.
X<-DadosEstudante$Peso                       ## variável "Idade"

mean(X)
## [1] 65,63627

2.4 Medida da dispersão em torno da média

Uma medida da localização do centro da distribuição de frequência sem informações sobre a dispersão dos dados em torno dessa medida não é de muita utilidade. Principalmente se essa medida é a média, que pode ser afetada por diversas características dos dados. Para ilustrar, considere o Exemplo 2.1.

Exemplo.2.1 Suponha que duas lojas (Loja A e Loja B) de uma mesma franquia estejam sendo comparadas pelas vendas diárias de seus produtos. Para isso foram regitradas o total de itens vendidos por dia durante 30 dias. As Tabelas vistas em 2.4 mostram as distribuições dos números de vendas diárias para as duas lojas. Nestas tabelas estão apresentadas as médias de vendas diárias para as duas lojas sendo:

  • loja A: \(\overline{A}=3,7\)
  • loja B: \(\overline{B}=3,7.\)

Com base nas médias acima pode-se concluir que as vendas diárias ocorrem de maneira igual nas duas lojas. Mas será que isso é verdade?

Note que mesmo as distribuições das vendas diárias sendo diferente, como mostram as tabelas, essas distribuições levam a mesma média diária de vendas.

Assim, para se ter uma melhor descrição da distribução de frequência de uma variável, faz-se necessário o uso de uma medida da variabilidade dos dados em torno da medida de tendência central utilizada. Para medir a variabilidade em torno da média podem ser usadas:

  • variância;
  • desvio-padrão;
  • e coeficiente de variação.
Tabela 2.4: Frequência de vendas diárias das lojas A e B em 30 dias.
Vendas diárias Loja B \(n_i\) \(f_i\) \(X_i \times f_i\)
2 2 0,1 0,1
3 9 0,3 0,9
4 14 0,5 1,9
5 5 0,2 0,8
Total 30 1,0 3,7
Vendas diárias Loja A \(n_i\) \(f_i\) \(X_i \times f_i\)
0 2 0,1 0,0
2 8 0,3 0,5
3 4 0,1 0,4
4 5 0,2 0,7
5 7 0,2 1,2
6 2 0,1 0,4
7 1 0,0 0,2
9 1 0,0 0,3
Total 30 1,0 3,7

2.4.1 Variância e Desvio-Padrão

A medida de tendência central mais comumente utilizada na prática é a média. Uma vez que essa medida é adotada para descrever a posição da distribuição dos dados, faz-se necessário a escolha de uma medida da variabilidade em torno dessa média. Neste caso, a variância e o desvio padrão podem ser adotados.

Para entender a obtenção da variância é importante entender o conceito de desvio em torno da média. O desvio é dado pela diferênça entre cada valor observado e a média desses valores. Considere a sequência de observações a seguir:

## [1]  8 11 13  9  7

A média dessa sequência é dada por:

  • \(\overline{x}=\frac{(8 +11+ 13 + 9+ 7)}{5}=9,6\) Assim, os desvios dos dados em torno da média é dado por:

  • \(d_i=x_i-\overline{x}\)$ Para essa série de dados, os desvios são:

  • \(d_1=x_1-\overline{x}=8-9,6=-1,6\)

  • \(d_2=x_2-\overline{x}=11-9,6=1,4\)

  • \(d_3=x_3-\overline{x}=13-9,6=3,4\)

  • \(d_4=x_4-\overline{x}=9-9,6=-0,6\)

  • \(d_5=x_5-\overline{x}=7-9,6=-2,6\)

Com isso, têm-se um novo conjunto de dados, fornecido pelas diferenças acima. Uma medida da dispersão em torno da média é alcançada sumarizando esses desvios observados. Vimos que uma medida usada para resumir um conjunto de dados, é a média. No entanto, obter a média desses desvios diretamente não seria uma maneira eficaz de obter informações sobre os desvios, pois componentes negativos anulam parte de componentes positivos e vice-versa.

Então, para resolver esse problema é conveniente obter a média do quadrado dos desvios, em vez dos desvios diretamente, ou seja, é conveniente obter:

  • \(S^2=\frac{(d_1^2 +d_2^2+ d_3^2 + d_4^2+ d_5^2)}{5}=\frac{((-1.6)^2 +(1.4)^2+ (3.4)^2 + (-0.6)^2+ (-2.6)^2)}{5}= 4.64\)

Logo, uma medida da variabilidade dos dados em torno da média, que é dada pela média dos quadrados dos desvio. Essa medida é chamada de variância e, pela sua construção, quanto maior o seu valor, maior é a dispersão dos dados em torno da média.

Embora a variância seja uma boa medida da variabilidade dos dados, sua interpretação fica comprometida pela alteração da unidade da variável, ocorrida pela consideração dos quadrados dos desvio. Para contornar essa dificuldade, é comum o uso da raiz quadrada da variância, em vez de seu valor propriamente dito. Neste caso, tem-se o desvio-padrão.

2.4.2 Variância e desvio-padrão de uma amostra a partir de uma série de dados

Considerando \(x_1, x_2, \cdots, x_n\) uma sequência de valores observados de uma variável X a partir de uma amostra, a variância e o desvio-padrão amostrais podem ser obtidos como segue.

  • \(\mbox{Variância: } S^2=\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\)

  • \(\mbox{Desvio-Padrão: } S=\sqrt\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\) em que:

  • \(\overline{x}\) denota a média da amostral

  • e \(n\) denota a quantidade de elementos na amostra.

2.4.3 Variância e desvio-padrão da população a partir de uma série de dados

Seja \(x_1, x_2, \cdots, x_N\) uma sequência de valores observados de uma variável X. Assim, a variância e o desvio-padrão podem ser obtidos como segue.

  • \(\mbox{Variância: } \sigma^2=\frac{\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}{N}\)

  • \(\mbox{Desvio-Padrão: } \sigma=\sqrt\frac{\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}{N},\)
    em que:

  • \(\mu\) é a média da população

  • e \(N\) é a quantidade de elementos na população.

2.4.4 Variância a partir de uma tabela de frequência

Se os dados estão apresentados em uma tabela de frequência, a variância é obtida tomando-se a média ponderada dos quadrados dos desvios dos valores possíveis da variável (ou dos pontos médio das classes).

\(\sigma^2=\frac{\displaystyle\sum_{j=1}^{k}(x_j-\mu)^2.n_j}{N} \ \ \ \ \ \ \ \ \ \ \mbox{ ou } \ \ \ \ \ \ \ \ \ S^2=\frac{\displaystyle\sum_{j=1}^{k}(x_j-\mu)^2.n_j}{n-1},\)

em que:

  • \(n_j\) é a frequência da j-ésima classe;

  • \(k\) é o número de classes na tabela

  • e \(x_j\) é o j-ésimo valor possível da variável (ou ponto médio da classe).

2.5 Coeficiente de variação (CV)

O CV é uma medida de variabilidade relativa, que é definida como a razão entre o desvio padrão e a média. Assim, essa é uma medida expressa em percentual e seu cálculo é mostrado a seguir.

  • \(\mbox{População: } CV\%=\frac{\sigma}{\mu} \times 100\)
  • \(\mbox{Amostra: } CV\%=\frac{S}{\overline{x}} \times 100\)

Note que o CV não tem unidade, pois o desvio-padrão e a média estão na mesma unidade, fazendo com que estas se cancelem. Isso faz com que esta seja uma boa métrica para comparar variabilidade de dados em unidades diferentes.

Como foi visto no Exemplo 2.1, a interpretação da média pode ser comprometida pela variabilidade dos dados. Como o coeficiente de variação é bastante sensível a variabilidade, sendo que um CV um pouco alto já fornece alta variabilidade, em cada área, ou problema, é sempre bom ser estudados valores de referência, ou limiares para esse medida. Aqui, para efeitos didáticos, serão usados os limiares apresentados na Tabela 2.5.

Tabela 2.5: Exemplo de limiares para o CV.
Faixa CV % Dispersão
menor ou igual a 15 % baixo baixa dispersão dos dados
entre 15 % e 30 % médio média dispersão dos dados
maior que 30 % alto alta dispersão dos dados

2.6 Exemplos de Aplicação

Tabela 2.6: Dados das curvas da rodovia BR 116 entre os quilometros 52,90 e 113,20 no estado do Ceará, e número de acidentes entre 2014 e 2019 analisados em Quaresma (2019).
Km da curva \(N^o\) de Acidentes Raio Ângulo Central Desenvol. Superel.
53,11 6 260 34,18 75,124 7,99
53,43 5 260 29,90 55,697 7,99
55,76 0 5000 0,21 18,249 0,78
57,99 2 2300 3,27 131,249 1,64
58,16 0 1300 10,85 186,098 2,78
58,47 1 900 7,58 59,152 3,83

Se o interesse é na média de acidentes no trecho considerado, então:

  • \(\mu=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{x_i}}{N}=14/6 \approx 2,3\) acidentes por trecho em média.

  • \(\sigma^2=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{(x_i-\mu)^2}}{N}=2467,579/148=14/6 \approx 16,67\), é a variância em torno dessa média.

  • \(CV= 100 \times \frac{2,3}{\sqrt{16,67}}=56,32.\)%, é o coeficiente de variação, mostrando alta variabilidade do número de acidentes entre os trechos.

Quaresma, Renan Rocha. 2019. “Análise Da Influência de Parâmetros Geométricos de Rodovias Na Frequência e Severidade de Acidentes Rodoviários.” http://repositorio.ufc.br/bitstream/riufc/49429/1/2019_tcc_rrocha.pdf.

References

Quaresma, Renan Rocha. 2019. “Análise Da Influência de Parâmetros Geométricos de Rodovias Na Frequência e Severidade de Acidentes Rodoviários.” http://repositorio.ufc.br/bitstream/riufc/49429/1/2019_tcc_rrocha.pdf.