Gráfico utilizado para visualizar a distribuição de frequência da variável resposta do problema investigado.
A partir desse gráfico, muitas vezes é possível ter uma ideia sobre a curva matemática que descreve a distribuição dessa resposta.
No entanto, é importante entender o relacionamento entre essa curva e características numéricas da população investigada.
Aqui vamos estudar algumas medidas de posição da distribuição: média e mediana.
Para cada medida de posição, vamos introduzir uma medida da variabilidade da distribuição em torno da medida de tendência central: variância (para a média) e quantis (para mediana).
Dentre as medidas de resumo mais utilizadas, destacam-se:
a média como medidas de posição do centro da distribuição, juntamente com a variância ou desvio-padrão;
a mediana como medidas de posição do centro da distribuição, juntamente com outras separatrizes;
Dentre as medidas de resumo mais utilizadas, destacam-se:
a média como medidas de posição do centro da distribuição, juntamente com a variância ou desvio-padrão;
a mediana como medidas de posição do centro da distribuição, juntamente com outras separatrizes;
Seja X uma variável e \(( x_1, \ldots,x_n )\), ou \(( x_1, \ldots,x_N )\), uma sequência de valores observados de X, então a média nesse conjunto de valores é dada por:
Considere a série de dados:
## [1] 1.86 1.67 1.71 1.73 1.82 1.87 1.72 1.85 1.67 1.62
A soma dos valores é dada por:
## [1] 17.52
A média desta série é:
## [1] 1.75
Suponha que o controle de qualidade de uma empresa faça o registro do número de itens produzidos com defeito por dia. Considerando um período de um ano, foi construída a seguinte tabela de frequência.
\(X_i:\) Número de defeitos | Frequência Absoluta | \(f_i\): Frequência Relativa | \(X_i \times f_i\) |
---|---|---|---|
1 | 6 | 0.016 | 0.016 |
2 | 23 | 0.063 | 0.126 |
3 | 81 | 0.222 | 0.666 |
4 | 104 | 0.285 | 1.140 |
5 | 95 | 0.260 | 1.301 |
6 | 46 | 0.126 | 0.756 |
7 | 10 | 0.027 | 0.192 |
Total | 365 | 1.000 | 4.197 |
A partir da tabela, pode-se obter a média diária de defeitos, multiplicando a frequência relativa pelos valores assumidos pela variável, em seguida somando os termos resultantes, como segue:
- \(\overline{x}=\displaystyle\sum_{j=1}^{k} x_j f_j\)
Considere a nota do ENEM dos ingressantes neste curso em 2022.
Intervalos de Tempo | \(n_j\):Frequência Absoluta | \(f_j\): Frequência Relativa |
---|---|---|
(424,459] | 1 | 0.010 |
(459,494] | 1 | 0.010 |
(494,529] | 1 | 0.010 |
(529,564] | 8 | 0.076 |
(564,599] | 26 | 0.248 |
(599,634] | 33 | 0.314 |
(634,669] | 25 | 0.238 |
(669,704] | 7 | 0.067 |
Total | 102 | 0.973 |
Intervalos de Tempo | \(X_j:\) Ponto Médio | \(n_j\):Frequência Absoluta | \(f_j\): Frequência Relativa |
---|---|---|---|
(424,459] | 441.52 | 1 | 0.010 |
(459,494] | 476.52 | 1 | 0.010 |
(494,529] | 511.52 | 1 | 0.010 |
(529,564] | 546.52 | 8 | 0.076 |
(564,599] | 581.52 | 26 | 0.248 |
(599,634] | 616.52 | 33 | 0.314 |
(634,669] | 651.52 | 25 | 0.238 |
(669,704] | 686.52 | 7 | 0.067 |
Total |
|
102 | 0.973 |
Intervalos de Tempo | \(X_j:\) Ponto Médio | \(n_j\):Frequência Absoluta | \(f_j\): Frequência Relativa | \(X_j \times f_j\) |
---|---|---|---|---|
(424,459] | 441.52 | 1 | 0.010 | 4.415 |
(459,494] | 476.52 | 1 | 0.010 | 4.765 |
(494,529] | 511.52 | 1 | 0.010 | 5.115 |
(529,564] | 546.52 | 8 | 0.076 | 41.536 |
(564,599] | 581.52 | 26 | 0.248 | 144.217 |
(599,634] | 616.52 | 33 | 0.314 | 193.587 |
(634,669] | 651.52 | 25 | 0.238 | 155.062 |
(669,704] | 686.52 | 7 | 0.067 | 45.997 |
Total |
|
102 | 0.973 | 594.694 |
Sempre vai existir uma perda de informação, quando os dados são agrupados em tabelas de frequência em intervalos.
A média verdadeira desse conjunto de dados é:
## [1] 613.8
## [1] 594.694
## [1] 19.106
Vendas diárias por duas filiais de uma loja.
Vendas diárias Loja A | Frequência Absoluta | \(f_j\) | \(X_j \times f_j\) |
---|---|---|---|
0 | 1 | 0.0 | 0.0 |
2 | 5 | 0.2 | 0.3 |
3 | 4 | 0.1 | 0.4 |
4 | 5 | 0.2 | 0.7 |
5 | 3 | 0.1 | 0.5 |
6 | 4 | 0.1 | 0.8 |
7 | 4 | 0.1 | 0.9 |
8 | 2 | 0.1 | 0.5 |
9 | 1 | 0.0 | 0.3 |
11 | 1 | 0.0 | 0.4 |
Total | 30 | 1.0 | 4.8 |
Vendas diárias Loja B | Frequência Absoluta | \(f_j\) | \(X_j \times f_j\) |
---|---|---|---|
2 | 1 | 0.0 | 0.1 |
3 | 4 | 0.1 | 0.4 |
4 | 7 | 0.2 | 0.9 |
5 | 9 | 0.3 | 1.5 |
6 | 3 | 0.1 | 0.6 |
7 | 5 | 0.2 | 1.2 |
8 | 1 | 0.0 | 0.3 |
Total | 30 | 1.0 | 4.9 |
Observações
A variância é uma medida da variabilidade dos dados em torno da média.
Sua interpretação fica comprometida pela alteração da unidade da variável, ocorrida devido a obtenção dos quadrados dos desvio.
Para contornar essa dificuldade, é comum o uso da raiz quadrada da variância, em vez de seu valor propriamente dito. Neste caso, tem-se o desvio-padrão.
Seja \(x_1, x_2, \cdots, x_N\) uma sequência de valores observados de uma variável X. A variância da “população X” é denotada aqui por \(\sigma^2\).
\(\mbox{Variância: } \sigma^2=\frac{\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}{N}\);
\(\mbox{Desvio-Padrão: } \sigma=\sqrt\frac{\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}{N},\)
em que:
\(\mu\) é a média da população
e \(N\) é a quantidade de elementos na população.
Considerando \(x_1, x_2, \cdots, x_n\) uma sequência de valores observados de uma variável X.
\(\mbox{Variância: } S^2=\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\)
\(\mbox{Desvio-Padrão: } S=\sqrt\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\) em que:
\(\overline{x}\) denota a média da amostral
e \(n\) denota a quantidade de elementos na amostra.
Suponha novamente o registro do número de itens produzidos com defeito por dia em um processo produtivo. Considerando um período de ano e a seguinte tabela de frequência.
\(X_j:\) Número de defeitos | \(n_j\):Frequência Absoluta | \(f_j\): Frequência Relativa | \(X_j \times f_j\) |
---|---|---|---|
1 | 6 | 0.016 | 0.016 |
2 | 23 | 0.063 | 0.126 |
3 | 81 | 0.222 | 0.666 |
4 | 104 | 0.285 | 1.140 |
5 | 95 | 0.260 | 1.301 |
6 | 46 | 0.126 | 0.756 |
7 | 10 | 0.027 | 0.192 |
Total | 365 | 1.000 | 4.197 |
Qual seria a variância amostral?
\(X_j:\) Número de defeitos | \(n_j\):Frequência Absoluta | \(f_j\): Frequência Relativa | \(X_j \times f_j\) | \((X_j - \overline{X})^2\) | \((X_j - \overline{X})^2 \times n_j\) |
---|---|---|---|---|---|
1 | 6 | 0.016 | 0.016 | 10.222 | 61.332 |
2 | 23 | 0.063 | 0.126 | 4.828 | 111.044 |
3 | 81 | 0.222 | 0.666 | 1.433 | 116.073 |
4 | 104 | 0.285 | 1.140 | 0.039 | 4.056 |
5 | 95 | 0.260 | 1.301 | 0.644 | 61.180 |
6 | 46 | 0.126 | 0.756 | 3.25 | 149.500 |
7 | 10 | 0.027 | 0.192 | 7.855 | 78.550 |
Soma | 365 | 1.000 | 4.197 |
|
581.735 |
\(X_j:\) Número de defeitos | \(n_j\):Frequência Absoluta | \(f_j\): Frequência Relativa | \(X_j \times f_j\) | \((X_j - \overline{X})^2\) | \((X_j - \overline{X})^2 \times n_j\) |
---|---|---|---|---|---|
1 | 6 | 0.016 | 0.016 | 10.222 | 61.332 |
2 | 23 | 0.063 | 0.126 | 4.828 | 111.044 |
3 | 81 | 0.222 | 0.666 | 1.433 | 116.073 |
4 | 104 | 0.285 | 1.140 | 0.039 | 4.056 |
5 | 95 | 0.260 | 1.301 | 0.644 | 61.180 |
6 | 46 | 0.126 | 0.756 | 3.25 | 149.500 |
7 | 10 | 0.027 | 0.192 | 7.855 | 78.550 |
Soma | 365 | 1.000 | 4.197 |
|
581.735 |
Assim, a variância e o desvio-padrão são dados, respectivamente, por:
\(\sigma^2=\displaystyle\sum_{j=1}^{k}(x_j-\mu)^2.f_j \ \ \ \ \ \ \ \ \ \ \mbox{ ou } \ \ \ \ \ \ \ \ \ S^2=\displaystyle\sum_{j=1}^{k}(x_j-\overline{x})^2 (\frac{n_j}{n-1}),\)
em que:
\(n_j\) é a frequência da j-ésima classe;
\(k\) é o número de classes na tabela
e \(x_j\) é o j-ésimo valor possível da variável (ou ponto médio da classe).
O CV é uma medida de variabilidade relativa, é a razão entre o desvio padrão e a média. Assim, essa é uma medida expressa em percentual e seu cálculo é mostrado a seguir.
Faixa | CV % | Dispersão |
---|---|---|
menor ou igual a 15 % | baixo | baixa dispersão dos dados |
entre 15 % e 30 % | médio | média dispersão dos dados |
maior que 30 % | alto | alta dispersão dos dados |
O coeficiente de variação é útil para comparar variabilidades de variáveis com unidades de medida diferente.
Exemplos:
comparar variações de peso e circunferencia de melões em uma plantação;
comparar a variabilidade da produção de diferentes linhas de produção;
comparar variabilidade de medidas críticas de um processo, como temperatura, pressão ou fluxo;
comparar a variabilidade do consumo de energia em diferentes instalações ou equipamentos. Isso pode ajudar a identificar oportunidades de economia de energia e a melhorar a eficiência energética.
Os dados a seguir representam a quantidade de um produto em toneladas/hora produzido por uma indústria no decorrer de n=32 horas.
33.3 28.9 23.8 50.5 39.9 37.6 25 23 34.5 17.7 21.1 29.4 33.3 30.2 38 23.5 33.9 21.2 36.6 49.1 20.7 39.8 31.9 21.4 26.3 31.3 26.7 24.3 30 28.6 25.7 39.4
Qual é o valor da média do conjunto de dados, obtida a partir da série de observações?
Qual é o valor da média do conjunto de dados, obtida a partir da tabela de frequência?
Qual é o erro que se comete, ao obter a média a partir da tabela, ou seja, qual é o módulo da diferença entre a média obtida a partir da série e a média obtida a partir da tabela de frequência?
Suponha que os dados representados no histograma a seguir são resultados de um teste para saber a satisfação de um grupo de pessoas sobre a prestação de um serviço. Nesse teste foram obtidos os traços latentes dos usuários usando um modelo estatístico, em que o resultado para cada indivíduo investigado será de máxima satisfação se o seu traço latente fornecer o valor 3 e nada satisfeito se o seu traço for -3. Assim, valores intermediários podem ser interpretados de modo que quanto mais próximo de -3 menos satisfeito, quanto mais próximo de -3 menos satisfeito.