2 Média e medidas de dispersão associadas
Nesta seção será discutido o cálculo e o uso da média como uma medida de tendência central, assim como as medidas de dispersão que lhe são associadas, variância, desvio-padrão e coeficiente de variação.
2.1 Média a partir de uma série de dados
Seja X uma variável e \(( x_1, \ldots,x_n )\), ou \(( x_1, \ldots,x_N )\), uma sequência de valores observados de X, então a média nesse conjunto de valores é dada por:
- \(\overline{x}=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{x_i}}{n}, \mbox{que é a média populacional para valores a partir de uma amostra},\)
- \(\mu=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{x_i}}{N}, \mbox{que é a média populacional para valores a partir de uma população},\)
sendo:
- \(\overline{x}\), a notação para média amostral,
- \(\mu\) a notação para média populacional,
- \(n\) a quantidade de elementos na amostra e
- \(N\) a quantidade de elementos na população.
- \(\overline{x}\), a notação para média amostral,
2.1.1 Código R para obtenção da média
No R a média pode ser obtida de modo simples e rápido. Considere a variável “Altura”, obtida a partir de questionário aos estudantes ingressastes das engenharias do Campus da UFC de Russas ano 2020, apresentados na Tabela 2.1. A obtenção da média de altura é vista a seguir, onde pode ser visto que a altura média dos estudantes entrevistados é \(\overline{x} \approx 1,68\).
2.1.1.1 Banco de dados
#if(!require(knitr)) install.packages("knitr");require(knitr) # instalar caso não tenha
## no código abaixo, se os dados estiverem em um diretório do computador, bastar fornecer o caminho com barras invertidas, seguido do nome do arquivo, em vez do link, exemplo "C:/user/meus documentos/DataEstudat.csv"
<-read.table("https://raw.githubusercontent.com/rfdapaz/DadosAME/master/DataEstudat.csv",sep=',', head=TRUE, encoding = "UTF-8", check.names=FALSE)
DadosEstudante
### apenas as cinco primeiras linhas e sete primeiras colunas
::kable(
knitrhead(DadosEstudante[,1:7], 5), caption = 'Dados fornecidos por estudantes ingressantes do ano de 2020 nos cursos de engenharias do Campus da UFC de Russas.',
booktabs = TRUE
)
Cidade | UF | Sexo | Idade | Peso | Altura | |
---|---|---|---|---|---|---|
1 | Limoeiro do Norte | CE | Feminino | 17 | 40,2 | 1,61 |
2 | Aracati | CE | Feminino | 17 | 100,0 | 1,60 |
3 | Limoeiro do Norte | CE | Masculino | 19 | 60,0 | 1,65 |
4 | Quixadá | CE | Masculino | 20 | 80,3 | 1,73 |
5 | Russas | CE | Masculino | 17 | 59,0 | 1,68 |
2.2 Média a partir da tabela de frequência simples
Para ilustrar a obtenção da média a partir da tabela de frequência simples, considere a variável idade dos entrevistados no dia da entrevista, vista na Tabela 2.1. Como a idade aqui é observada em número de anos completos por cada estudante, essa é uma variável resultado de uma contagem, assim pode ser considerada como discreta. Além, disso, são poucos valores possíveis no conjunto de dados, como pode ser visto a seguir:
<-DadosEstudante$Idade ## variável "Idade"
X
<- unique(X) ## possíveis valores da variável no conjunto de dados
Valores_possiveis
sort(Valores_possiveis) ## apresentação dos possíveis valores em ordem crescente
## [1] 16 17 18 19 20 21 22 23 24 25 26 28 33 43
Deste modo, pode ser pensada uma tabela de frequência simples para essa variável, como mostra a Tabela 2.2. A partir dessa tabela pode ser obtida a idade média dos entrevistados multiplicando a frequência relativa pelos valores assumidos pela variável, em seguida somando os termos resultantes, como segue:
\(\overline{x}=\displaystyle\sum_{i=1}^{k} x_i f_i = 16 . (\frac{1}{209})+ 17 . (\frac{23}{209})+18 . ( \frac{63}{209})+ 19. (\frac{52}{209})+ 20. (\frac{30}{209})+ 21. (\frac{12}{209}) + \\22. (\frac{12}{209}) + 23. (\frac{8}{209}) + 24. (\frac{1}{209})+ 25. (\frac{1}{209}) + 26. (\frac{1}{209}) + 28. (\frac{8}{209}) + 33. (\frac{1}{209}) + 43. (\frac{2}{209})\approx 19,5.\)
Esses cálculos podem ser realizados na própria tabela de frequência, observe a quarta coluna da Tabela 2.2, onde podem ser encontrados os resultados para cada termo do somatório apresentado acima, bem como o total obtido, que é a média da variável “Idade”. Assim, em média os estudantes estavam com 19,5 anos completos na época de aplicação do questionário, que coincidiu com o início do curso que escolheram.
\(X_i\) | \(n_i\) | \(f_i\) | \(X_i \times f_i\) |
---|---|---|---|
16 | 1 | 0,005 | 0,077 |
17 | 23 | 0,110 | 1,871 |
18 | 63 | 0,301 | 5,426 |
19 | 52 | 0,249 | 4,727 |
20 | 30 | 0,144 | 2,871 |
21 | 12 | 0,057 | 1,206 |
22 | 12 | 0,057 | 1,263 |
23 | 8 | 0,038 | 0,880 |
24 | 1 | 0,005 | 0,115 |
25 | 1 | 0,005 | 0,120 |
26 | 1 | 0,005 | 0,124 |
28 | 2 | 0,010 | 0,268 |
33 | 1 | 0,005 | 0,158 |
43 | 2 | 0,010 | 0,411 |
Total | 209 | 1,000 | 19,517 |
2.3 Média a partir da tabela de frequência com intervalos
Se a tabela contiver intervalos em vez dos valores possíveis da variável, deve-se se utilizar alguma estratégia para aproximar os possíveis valores no conjunto de dados. Uma opção é usar o ponto médio de cada intervalo para representar os valores possíveis da variável. Como ilustração, considere a Tabela de Frequência 2.3, onde é mostrada a distribuição de frequência da variável “Peso” dos estudantes entrevistados. A segunda coluna dessa tabela mostra o ponto médio de cada intervalo. A partir desses pontos médios, pode-se obter a média aproximada da seguinte forma:
\(\overline{x}=\displaystyle\sum_{i=1}^{k} x_i f_i = 45 . (\frac{39}{209})+ 59 . (\frac{79}{209}+73) . \frac{68}{209}+ 87 (\frac{18}{209})+ 101. (\frac{3}{209})+ 115. (\frac{2}{209})\approx 64,5.\)
O resultado para cada termo do somatório acima pode ser visto na quinta coluna da Tabela 2.3, enquanto o peso médio dos entrevistados é de aproximadamente 64,5, podendo ser visto na linha de totais na tabela e, também, no cálculo acima.
Observações:
- o ponto médio de cada intervalo pode ser obtido somando os limites superior e inferior do intervalo e dividindo o resultado por dois.
X | Ponto Médio | \(n_i\) | \(f_i\) | \(X_i \times f_i\) |
---|---|---|---|---|
(38,52] | 45 | 39 | 0,187 | 8,397 |
(94,108] | 59 | 79 | 0,378 | 22,301 |
(52,66] | 73 | 68 | 0,325 | 23,751 |
(80,94] | 87 | 18 | 0,086 | 7,493 |
(66,80] | 101 | 3 | 0,014 | 1,450 |
(108,122] | 115 | 2 | 0,010 | 1,100 |
Total | 209 | 1,000 | 64,493 |
- a média da variável “Peso” obtida a partir da série de dados é obtida a seguir, o que mostra que ocorreu uma perda na precisão do valor da média, pois essa obtida a partir da série apresentou valor \(69,66\), sendo um pouco maior que a média obtida a partir da tabela.
<-DadosEstudante$Peso ## variável "Idade"
X
mean(X)
## [1] 65,63627
2.4 Medida da dispersão em torno da média
Uma medida da localização do centro da distribuição de frequência sem informações sobre a dispersão dos dados em torno dessa medida não é de muita utilidade. Principalmente se essa medida é a média, que pode ser afetada por diversas características dos dados. Para ilustrar, considere o Exemplo 2.1.
Exemplo.2.1 Suponha que duas lojas (Loja A e Loja B) de uma mesma franquia estejam sendo comparadas pelas vendas diárias de seus produtos. Para isso foram regitradas o total de itens vendidos por dia durante 30 dias. As Tabelas vistas em 2.4 mostram as distribuições dos números de vendas diárias para as duas lojas. Nestas tabelas estão apresentadas as médias de vendas diárias para as duas lojas sendo:
- loja A: \(\overline{A}=3,7\)
- loja B: \(\overline{B}=3,7.\)
Com base nas médias acima pode-se concluir que as vendas diárias ocorrem de maneira igual nas duas lojas. Mas será que isso é verdade?
Note que mesmo as distribuições das vendas diárias sendo diferente, como mostram as tabelas, essas distribuições levam a mesma média diária de vendas.
Assim, para se ter uma melhor descrição da distribução de frequência de uma variável, faz-se necessário o uso de uma medida da variabilidade dos dados em torno da medida de tendência central utilizada. Para medir a variabilidade em torno da média podem ser usadas:
- variância;
- desvio-padrão;
- e coeficiente de variação.
|
|
2.4.1 Variância e Desvio-Padrão
A medida de tendência central mais comumente utilizada na prática é a média. Uma vez que essa medida é adotada para descrever a posição da distribuição dos dados, faz-se necessário a escolha de uma medida da variabilidade em torno dessa média. Neste caso, a variância e o desvio padrão podem ser adotados.
Para entender a obtenção da variância é importante entender o conceito de desvio em torno da média. O desvio é dado pela diferênça entre cada valor observado e a média desses valores. Considere a sequência de observações a seguir:
## [1] 8 11 13 9 7
A média dessa sequência é dada por:
\(\overline{x}=\frac{(8 +11+ 13 + 9+ 7)}{5}=9,6\) Assim, os desvios dos dados em torno da média é dado por:
\(d_i=x_i-\overline{x}\)$ Para essa série de dados, os desvios são:
\(d_1=x_1-\overline{x}=8-9,6=-1,6\)
\(d_2=x_2-\overline{x}=11-9,6=1,4\)
\(d_3=x_3-\overline{x}=13-9,6=3,4\)
\(d_4=x_4-\overline{x}=9-9,6=-0,6\)
\(d_5=x_5-\overline{x}=7-9,6=-2,6\)
Com isso, têm-se um novo conjunto de dados, fornecido pelas diferenças acima. Uma medida da dispersão em torno da média é alcançada sumarizando esses desvios observados. Vimos que uma medida usada para resumir um conjunto de dados, é a média. No entanto, obter a média desses desvios diretamente não seria uma maneira eficaz de obter informações sobre os desvios, pois componentes negativos anulam parte de componentes positivos e vice-versa.
Então, para resolver esse problema é conveniente obter a média do quadrado dos desvios, em vez dos desvios diretamente, ou seja, é conveniente obter:
- \(S^2=\frac{(d_1^2 +d_2^2+ d_3^2 + d_4^2+ d_5^2)}{5}=\frac{((-1.6)^2 +(1.4)^2+ (3.4)^2 + (-0.6)^2+ (-2.6)^2)}{5}= 4.64\)
Logo, uma medida da variabilidade dos dados em torno da média, que é dada pela média dos quadrados dos desvio. Essa medida é chamada de variância e, pela sua construção, quanto maior o seu valor, maior é a dispersão dos dados em torno da média.
Embora a variância seja uma boa medida da variabilidade dos dados, sua interpretação fica comprometida pela alteração da unidade da variável, ocorrida pela consideração dos quadrados dos desvio. Para contornar essa dificuldade, é comum o uso da raiz quadrada da variância, em vez de seu valor propriamente dito. Neste caso, tem-se o desvio-padrão.
2.4.2 Variância e desvio-padrão de uma amostra a partir de uma série de dados
Considerando \(x_1, x_2, \cdots, x_n\) uma sequência de valores observados de uma variável X a partir de uma amostra, a variância e o desvio-padrão amostrais podem ser obtidos como segue.
\(\mbox{Variância: } S^2=\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\)
\(\mbox{Desvio-Padrão: } S=\sqrt\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\) em que:
\(\overline{x}\) denota a média da amostral
e \(n\) denota a quantidade de elementos na amostra.
2.4.3 Variância e desvio-padrão da população a partir de uma série de dados
Seja \(x_1, x_2, \cdots, x_N\) uma sequência de valores observados de uma variável X. Assim, a variância e o desvio-padrão podem ser obtidos como segue.
\(\mbox{Variância: } \sigma^2=\frac{\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}{N}\)
\(\mbox{Desvio-Padrão: } \sigma=\sqrt\frac{\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}{N},\)
em que:\(\mu\) é a média da população
e \(N\) é a quantidade de elementos na população.
2.4.4 Variância a partir de uma tabela de frequência
Se os dados estão apresentados em uma tabela de frequência, a variância é obtida tomando-se a média ponderada dos quadrados dos desvios dos valores possíveis da variável (ou dos pontos médio das classes).
\(\sigma^2=\frac{\displaystyle\sum_{j=1}^{k}(x_j-\mu)^2.n_j}{N} \ \ \ \ \ \ \ \ \ \ \mbox{ ou } \ \ \ \ \ \ \ \ \ S^2=\frac{\displaystyle\sum_{j=1}^{k}(x_j-\mu)^2.n_j}{n-1},\)
em que:
\(n_j\) é a frequência da j-ésima classe;
\(k\) é o número de classes na tabela
e \(x_j\) é o j-ésimo valor possível da variável (ou ponto médio da classe).
2.5 Coeficiente de variação (CV)
O CV é uma medida de variabilidade relativa, que é definida como a razão entre o desvio padrão e a média. Assim, essa é uma medida expressa em percentual e seu cálculo é mostrado a seguir.
- \(\mbox{População: } CV\%=\frac{\sigma}{\mu} \times 100\)
- \(\mbox{Amostra: } CV\%=\frac{S}{\overline{x}} \times 100\)
Note que o CV não tem unidade, pois o desvio-padrão e a média estão na mesma unidade, fazendo com que estas se cancelem. Isso faz com que esta seja uma boa métrica para comparar variabilidade de dados em unidades diferentes.
Como foi visto no Exemplo 2.1, a interpretação da média pode ser comprometida pela variabilidade dos dados. Como o coeficiente de variação é bastante sensível a variabilidade, sendo que um CV um pouco alto já fornece alta variabilidade, em cada área, ou problema, é sempre bom ser estudados valores de referência, ou limiares para esse medida. Aqui, para efeitos didáticos, serão usados os limiares apresentados na Tabela 2.5.
Faixa | CV % | Dispersão |
---|---|---|
menor ou igual a 15 % | baixo | baixa dispersão dos dados |
entre 15 % e 30 % | médio | média dispersão dos dados |
maior que 30 % | alto | alta dispersão dos dados |
2.6 Exemplos de Aplicação
Km da curva | \(N^o\) de Acidentes | Raio | Ângulo Central | Desenvol. | Superel. |
---|---|---|---|---|---|
53,11 | 6 | 260 | 34,18 | 75,124 | 7,99 |
53,43 | 5 | 260 | 29,90 | 55,697 | 7,99 |
55,76 | 0 | 5000 | 0,21 | 18,249 | 0,78 |
57,99 | 2 | 2300 | 3,27 | 131,249 | 1,64 |
58,16 | 0 | 1300 | 10,85 | 186,098 | 2,78 |
58,47 | 1 | 900 | 7,58 | 59,152 | 3,83 |
Se o interesse é na média de acidentes no trecho considerado, então:
\(\mu=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{x_i}}{N}=14/6 \approx 2,3\) acidentes por trecho em média.
\(\sigma^2=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{(x_i-\mu)^2}}{N}=2467,579/148=14/6 \approx 16,67\), é a variância em torno dessa média.
\(CV= 100 \times \frac{2,3}{\sqrt{16,67}}=56,32.\)%, é o coeficiente de variação, mostrando alta variabilidade do número de acidentes entre os trechos.