Resumo da distribução de frequência de variáveis

Medidas de resumo ou resmos numéricos

  • Gráfico utilizado para visualizar a distribuição de frequência da variável resposta do problema investigado.

  • A partir desse gráfico, muitas vezes é possível ter uma ideia sobre a curva matemática que descreve a distribuição dessa resposta.

  • No entanto, é importante entender o relacionamento entre essa curva e características numéricas da população investigada.

  • Aqui vamos estudar algumas medidas de posição da distribuição: média e mediana.

  • Para cada medida de posição, vamos introduzir uma medida da variabilidade da distribuição em torno da medida de tendência central: variância (para a média) e quantis (para mediana).

Medidas de Resumo ou Resumo numéricos

Medidas de resumo mais utilizadas na prática

Medidas de resumo mais utilizadas na prática

Dentre as medidas de resumo mais utilizadas, destacam-se:

  1. a média como uma medida de posição do centro da distribuição, juntamente com a variância ou desvio-padrão;

  2. a mediana como uma medida de posição do centro da distribuição, juntamente com outras separatrizes;

Medidas de resumo mais utilizadas na prática

Dentre as medidas de resumo mais utilizadas, destacam-se:

  1. a média como medidas de posição do centro da distribuição, juntamente com a variância ou desvio-padrão;

  2. a mediana como medidas de posição do centro da distribuição, juntamente com outras separatrizes;

Média e medidas de dispersão associadas

Média a partir de uma série de dados

Seja X uma variável e \(( x_1, \ldots,x_n )\), ou \(( x_1, \ldots,x_N )\), uma sequência de valores observados de X, então a média nesse conjunto de valores é dada por:

  • \(\overline{x}=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{x_i}}{n} \mbox{ (amostra) ou } \mu=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{x_i}}{N} \mbox{(população)}\) sendo:
    • \(\overline{x}\) notação para média amostral,
    • \(\mu\) notação para média populacional,
    • \(n\) quantidade de elementos na amostra e
    • \(N\) quantidade de elementos na população.

Média a partir de uma série de dados

Considere a série de dados:

##  [1] 1.63 1.77 1.75 1.71 1.50 1.77 1.65 1.69 1.71 1.68

A soma dos valores é dada por:

## [1] 16.86

A média desta série é:

## [1] 1.69

Média a partir da tabela de frequência simples

Suponha que o controle de qualidade de uma empresa faça o registro do número de itens produzidos com defeito por dia. Considerando um período de um ano, foi construída a seguinte tabela de frequência.

\(X_i:\) Número de defeitos Frequência Absoluta \(f_i\): Frequência Relativa \(X_i \times f_i\)
1 6 0.016 0.016
2 23 0.063 0.126
3 81 0.222 0.666
4 104 0.285 1.140
5 95 0.260 1.301
6 46 0.126 0.756
7 10 0.027 0.192
Total 365 1.000 4.197

Média diária de defeitos

A partir da tabela, pode-se obter a média diária de defeitos, multiplicando a frequência relativa pelos valores assumidos pela variável, em seguida somando os termos resultantes, como segue:

- \(\overline{x}=\displaystyle\sum_{j=1}^{k} x_j f_j\)

  • Ex: obtenha a média.

Média a partir da tabela de frequência com intervalos

Considere a nota do ENEM dos ingressantes neste curso em 2022.

Intervalos de Tempo \(n_j\):Frequência Absoluta \(f_j\): Frequência Relativa
(424,459] 1 0.010
(459,494] 1 0.010
(494,529] 1 0.010
(529,564] 8 0.076
(564,599] 26 0.248
(599,634] 33 0.314
(634,669] 25 0.238
(669,704] 7 0.067
Total 102 0.973

Média a partir da tabela de frequência com intervalos

Intervalos de Tempo \(X_j:\) Ponto Médio \(n_j\):Frequência Absoluta \(f_j\): Frequência Relativa
(424,459] 441.52 1 0.010
(459,494] 476.52 1 0.010
(494,529] 511.52 1 0.010
(529,564] 546.52 8 0.076
(564,599] 581.52 26 0.248
(599,634] 616.52 33 0.314
(634,669] 651.52 25 0.238
(669,704] 686.52 7 0.067
Total
102 0.973

Média a partir da tabela de frequência com intervalos

Intervalos de Tempo \(X_j:\) Ponto Médio \(n_j\):Frequência Absoluta \(f_j\): Frequência Relativa \(X_j \times f_j\)
(424,459] 441.52 1 0.010 4.415
(459,494] 476.52 1 0.010 4.765
(494,529] 511.52 1 0.010 5.115
(529,564] 546.52 8 0.076 41.536
(564,599] 581.52 26 0.248 144.217
(599,634] 616.52 33 0.314 193.587
(634,669] 651.52 25 0.238 155.062
(669,704] 686.52 7 0.067 45.997
Total
102 0.973 594.694

Média aproximada

  • Sempre vai existir uma perda de informação, quando os dados são agrupados em tabelas de frequência em intervalos.

  • A média verdadeira desse conjunto de dados é:

## [1] 613.8
  • Como o valor obtido a parti da tabela é:
## [1] 594.694
  • ocorreu uma perda de informação que corresponde a:
## [1] 19.106

Dispersão em torno da média

Vendas diárias por duas filiais de uma loja.

Vendas diárias Loja A
Vendas diárias Loja A Frequência Absoluta \(f_j\) \(X_j \times f_j\)
0 1 0.0 0.0
2 5 0.2 0.3
3 4 0.1 0.4
4 5 0.2 0.7
5 3 0.1 0.5
6 4 0.1 0.8
7 4 0.1 0.9
8 2 0.1 0.5
9 1 0.0 0.3
11 1 0.0 0.4
Total 30 1.0 4.8
Vendas diárias Loja B
Vendas diárias Loja B Frequência Absoluta \(f_j\) \(X_j \times f_j\)
2 1 0.0 0.1
3 4 0.1 0.4
4 7 0.2 0.9
5 9 0.3 1.5
6 3 0.1 0.6
7 5 0.2 1.2
8 1 0.0 0.3
Total 30 1.0 4.9

Histogramas

Variância e Desvio-Padrão

Observações

  • A variância é uma medida da variabilidade dos dados em torno da média.

  • Sua interpretação fica comprometida pela alteração da unidade da variável, ocorrida devido a obtenção dos quadrados dos desvio.

  • Para contornar essa dificuldade, é comum o uso da raiz quadrada da variância, em vez de seu valor propriamente dito. Neste caso, tem-se o desvio-padrão.

Variância e desvio-padrão da população a partir de uma série de dados

Seja \(x_1, x_2, \cdots, x_N\) uma sequência de valores observados de uma variável X. A variância da “população X” é denotada aqui por \(\sigma^2\).

\(\mbox{Variância: } \sigma^2=\frac{\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}{N}\);

\(\mbox{Desvio-Padrão: } \sigma=\sqrt\frac{\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}{N},\)
em que:

  • \(\mu\) é a média da população

  • e \(N\) é a quantidade de elementos na população.

Variância e desvio-padrão de uma amostra a partir de uma série de dados

Considerando \(x_1, x_2, \cdots, x_n\) uma sequência de valores observados de uma variável X.

  • \(\mbox{Variância: } S^2=\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\)

  • \(\mbox{Desvio-Padrão: } S=\sqrt\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\) em que:

  • \(\overline{x}\) denota a média da amostral

  • e \(n\) denota a quantidade de elementos na amostra.

Variância a partir de uma tabela de frequência

Suponha novamente o registro do número de itens produzidos com defeito por dia em um processo produtivo. Considerando um período de ano e a seguinte tabela de frequência.

\(X_j:\) Número de defeitos \(n_j\):Frequência Absoluta \(f_j\): Frequência Relativa \(X_j \times f_j\)
1 6 0.016 0.016
2 23 0.063 0.126
3 81 0.222 0.666
4 104 0.285 1.140
5 95 0.260 1.301
6 46 0.126 0.756
7 10 0.027 0.192
Total 365 1.000 4.197

Qual seria a variância amostral?

Variância a partir de uma tabela de frequência

\(X_j:\) Número de defeitos \(n_j\):Frequência Absoluta \(f_j\): Frequência Relativa \(X_j \times f_j\) \((X_j - \overline{X})^2\) \((X_j - \overline{X})^2 \times n_j\)
1 6 0.016 0.016 10.222 61.332
2 23 0.063 0.126 4.828 111.044
3 81 0.222 0.666 1.433 116.073
4 104 0.285 1.140 0.039 4.056
5 95 0.260 1.301 0.644 61.180
6 46 0.126 0.756 3.25 149.500
7 10 0.027 0.192 7.855 78.550
Soma 365 1.000 4.197
581.735

Variância a partir de uma tabela de frequência

\(X_j:\) Número de defeitos \(n_j\):Frequência Absoluta \(f_j\): Frequência Relativa \(X_j \times f_j\) \((X_j - \overline{X})^2\) \((X_j - \overline{X})^2 \times n_j\)
1 6 0.016 0.016 10.222 61.332
2 23 0.063 0.126 4.828 111.044
3 81 0.222 0.666 1.433 116.073
4 104 0.285 1.140 0.039 4.056
5 95 0.260 1.301 0.644 61.180
6 46 0.126 0.756 3.25 149.500
7 10 0.027 0.192 7.855 78.550
Soma 365 1.000 4.197
581.735

Assim, a variância e o desvio-padrão são dados, respectivamente, por:

  • \(S^2=\displaystyle\sum_{j=1}^{k}(x_j-\overline{x})^2 (\frac{n_j}{n-1}) =\frac{581,735}{364} \approx 1,598\)
  • \(S=1,26.\)

Variância a partir de uma tabela de frequência

\(\sigma^2=\displaystyle\sum_{j=1}^{k}(x_j-\mu)^2.f_j \ \ \ \ \ \ \ \ \ \ \mbox{ ou } \ \ \ \ \ \ \ \ \ S^2=\displaystyle\sum_{j=1}^{k}(x_j-\overline{x})^2 (\frac{n_j}{n-1}),\)

em que:

  • \(n_j\) é a frequência da j-ésima classe;

  • \(k\) é o número de classes na tabela

  • e \(x_j\) é o j-ésimo valor possível da variável (ou ponto médio da classe).

  • OBS.: Caso a tabela esteja em intervalos de classes, utilizar o ponto médio de cada classe, com suas frequências, para realizar os cálculos da média dos desvios.

Coeficiente de variação (CV)

O CV é uma medida  de variabilidade relativa,  é a razão entre o desvio padrão e a média. 

Assim, essa é uma medida expressa em percentual e seu cálculo é mostrado a seguir.
  • \(\mbox{População: } CV\%=\frac{\sigma}{\mu} \times 100\)
  • \(\mbox{Amostra: } CV\%=\frac{S}{\overline{x}} \times 100\)
Uma interpretação para o coeficiente de variação.
Faixa CV % Dispersão
menor ou igual a 15 % baixo baixa dispersão dos dados
entre 15 % e 30 % médio média dispersão dos dados
maior que 30 % alto alta dispersão dos dados

Aplicação do coeficiente de variação

O coeficiente de variação é útil para comparar variabilidades de variáveis com unidades de medida diferente.

Exemplos:

  • comparar variações de peso e circunferencia de melões em uma plantação;

  • comparar a variabilidade da produção de diferentes linhas de produção;

  • comparar variabilidade de medidas críticas de um processo, como temperatura, pressão ou fluxo;

  • comparar a variabilidade do consumo de energia em diferentes instalações ou equipamentos. Isso pode ajudar a identificar oportunidades de economia de energia e a melhorar a eficiência energética.

Exercício AME

Os dados a seguir representam a quantidade de um produto em toneladas/hora produzido por uma indústria no decorrer de n=32 horas.

33.3 28.9 23.8 50.5 39.9 37.6 25 23 34.5 17.7 21.1 29.4 33.3 30.2 38 23.5 33.9 21.2 36.6 49.1 20.7 39.8 31.9 21.4 26.3 31.3 26.7 24.3 30 28.6 25.7 39.4

  1. Qual é o valor da média do conjunto de dados, obtida a partir da série de observações?

  2. Qual é o valor da média do conjunto de dados, obtida a partir da tabela de frequência?

  3. Qual é o erro que se comete, ao obter a média a partir da tabela, ou seja, qual é o módulo da diferença entre a média obtida a partir da série e a média obtida a partir da tabela de frequência?

Exercício AME

Suponha que os dados representados no histograma são resultados de um teste para saber a satisfação de um grupo de pessoas sobre a prestação de um serviço. Nesse teste foram obtidos os traços latentes dos usuários usando um modelo estatístico, em que o resultado para cada indivíduo investigado será de máxima satisfação se o seu traço latente fornecer o valor 3 e nada satisfeito se o seu traço for -3. Assim, valores intermediários podem ser interpretados de modo que quanto mais próximo de -3 menos satisfeito, quanto mais próximo de -3 menos satisfeito.

##  [1]  73  73  73  74  79  81  81  87  92  92  92 119 119
##        73        74        79        81        87        92       119 
## 0.2307692 0.3076923 0.3846154 0.5384615 0.6153846 0.8461538 1.0000000