Exemplo 1: Para obter informações sobre o nível de glicose no sangue de uma pessoa, basta uma amostra bem pequena do sangue. Por que isso é possível?
Exemplo 2: Para checar se um prato foi preparado com as medidas certas de tempero, basta provar uma pequena porção. Por que isso é possível?
População: conjunto de elementos com pelo menos uma característica em comum e que a delimita.
A população é o objeto alvo do estudo na estatística.
Amostra: subconjunto da população.
Amostra representativa da população: é capaz de representar a população como um todo, no que diz respeito a(s) característica(s) investigada(s).
Amostra probabilística: extraída de modo a garantir probabilidades de escolha para os elementos da população.
amostragem probabilística: consiste no processo de selecionar elementos (ou conjunto de elementos) de uma população bem definida, usando um procedimento capaz de atribuir a cada elemento (ou conjunto de elementos) da população uma probabilidade do mesmo ser selecionado, sendo essa probabilidade calculável e diferente de zero.
Os elementos de uma população podem ser entendidos como entidades portadoras das informações que se deseja obter (fenômenos, pessoas, máquinas, estabelecimentos comerciais etc.).
Variáveis: são as características associadas a essas entidades, as quais queremos investigar.
Em geral queremos estudar a frequência de ocorrência das variáveis.
Para isso, pode ser utilizada uma amostra aleatória simples e um modelo probabilístico.
Aqui vamos sempre supor que a amostra é extraída de forma aleatória simples. Ou seja, todos os elementos da população têm a mesma chance de serem selecionados.
Uma amostra aleatória simples de tamanho \(n\) de uma única variável aleatória \(X\) (com distribuição dada por \(F(x)\)) é um vetor \[{\bf X} = (X_1, X _2, \cdots,X_n)\] em que cada componente \(X_1 X _2, \cdots,X_n\) tem a mesma distribuição de \(X\).
População: itens produzidos por uma determinada máquina;
Característica em comum: produzidos pela mesma máquina;
Característica de interesse: qualidade da peça;
X: se defeito \(X=1\) e se não defeito \(X=0\).
Então, \(X\) representa o estado de TODAS as peças produzidas pela máquina, com ou sem defeito, que já foram ou que ainda serão produzidas.
Neste caso temos: \(X \sim Bernoulli(p)\), com \(p\) desconhecido, devendo ser estimado.
Em geral, não se pode ter certeza sobre a distribuição de \(X\), e nem sobre seus parâmetros.
Assim, a partir de uma análise exploratória dos dados, é proposto um modelo probabilístico.
A amostra é utilizada para estimar os seus parâmetros.
Por fim, testes estatístico são realizados para checar a adequação do modelo proposto.
Observação:
os métodos de inferência discutidos aqui são baseados na obteção de uma amostra aleatória simples,
chamada aqui de amostra aleatória.
Parâmetro: qualquer característica da população.
Exmplo:
Estatística: qualquer função da amostra
Exmplo:
Considere que uma amostra aleatória \({\bf X} = (X_1, X_2, \cdots, X_n)\) seja selecionada.
Então, a partir dessa amostra, se uma estatística \[T({\bf X}) = T(X_1, X_2, \cdots, X_n)\] é usada para estimar um parâmetro, então essa estatística é chamada de ESTIMADOR.
Chamamos de ESTIMATIVA, o valor assumido pelo estimador \[T({\bf x} ) = T(x_1, x_2, \cdots, x_n)\] depois de serem observados \((x_1, x _2, \cdots,x_n)\) a partir de \((X_1, X _2, \cdots,X_n)\).
Exemplo: Considere o problema de estimar a proporção de defeitos produzidos por uma máquina. Assim, define-se a variável aleatória:
\[ X= \left\{ \begin{array}{ll} 1,&~~ \text{se uma peça selecionada tem defeito} \\ 0, &~~ \text{se uma peça selecionada não tem defeito}.\\ \end{array} \right. \] \(X \sim Bernoulli(p)\), com \(p\) desconhecido.
Supondo que duas peças sejam selecionadas de forma aleatória, então tem-se \(X_1,X_2\) tais que:
\(X_1 \sim Bernoulli(p)\) e
\(X_2 \sim Bernoulli(p)\).
Então, se \(\hat{p}=T(X_1,X_2)=\bar{X}=\frac{X_1+X_2}{2}\) é um estimator para \(p\) e observarmos \(x_1=0\) e \(x_2=1\),
\(\hat{p}=\frac{x_1+x_2}{2}=\frac{0+1}{2}=1/2\) é uma estimativa de \(p\).
é um estimador para a média populacional \(\mu\).
é um estimador para variância populacional \(\sigma^2\).
A proporção amostral: \(\hat{p}=\frac{Y}{n}\),
é um estimador para a proporção populacional \(p\).
Em geral, denotamos os parâmetros desconhecidos por uma letra grega.
Exemplo, \(\theta, \lambda, \eta, \delta\) etc.
e as suas estimativas pelas respectivas letras com ” ^”
Exemplo \(\hat{\theta}, \hat{\lambda}, \hat{\eta}, \hat{\delta}\) etc.
Como exceções citamos os estimadores para média e e variância \((\mu, \sigma^2)\), que são denotados de forma diferente \((\bar{X}, S^2)\).
Como estimadores são estatísticas, estes são funções de variáveis aleatórias, \(T=T({\bf X})\),
então estes também são variáveis aleatórias,
logo possuem uma distribuição de probabilidades.
Essa distribuição é chamada de distribuição amostral do estimador.
Com isso, faz sentido falarmos de média \(E(T)\) e de variância \(Var(T)\) de um estimador \(T\).
No exemplo anterior, consideramos duas peças selecionadas de forma aleatória, dando origem a \(X_1,X_2\) tais que:
\(X_1 \sim Bernoulli(p)\) e
\(X_2 \sim Bernoulli(p)\).
\(\hat{p}=\frac{X_1+X_2}{2}\) é um estimator para \(p\).
\(\hat{p}=\frac{X_1+X_2}{2}\) é variável aleatória e tem uma distribuição.
A esperança de \(\hat{p}\) é dada por: \[E(\hat{p})=\frac{E(X_1+X_2)}{2}=\frac{E(X_1)+E(X_2)}{2}=\frac{p+p}{2}=p.\]
Note que a esperança do estimador \(\hat{p}\) é igual ao parâmetro \(p\).
Isso confere ao estimador \(\hat{p}\) uma importante propriedade.
Uma vez que, obtendo-se várias amostras aleatórias de mesmo tamanho,
a média desses valores deverá estar próxima do valor verdadeiro do parâmetro a ser estimado.
Exemplos
A média amostral \(\overline{X}=\frac{\sum_{i=1}^{n}X_i}{n}\) é não viciada para estimar a média populacional:
A variância amostral \(S^2=\frac{\sum_{i=1}^{n}(X_i-\overline{X})}{n-1}\) é não viciada para estimar a variânacia populacional:
A proporção amostral \(\hat{P}=\frac{Y}{n}\), com \(Y=\sum_{i=1}^{n}X_i\), definida a partir de \(n\) ensaios independentes de Bernoulli, é não viciada para estimar a proporção populacional:
Além da esperança, pode ser calculada a variância dos estimadores apresentados anteriormente.
Na prática, é desejado que o esetimador utilizado seja aquele com ménor variância.
Pode ser mostrado que os estimadores apresentados anteriormente são os de menor variância para estimar os parâmetros considerados.
O máximo que pode ocorrer é exitir estimadares com variância igual as que apresetam esses estimadores, mas nunca maior.
Portanto, estes estimadores são os melhores, para estimar os respectivos parâmetros.
A média amostral \(\overline{X}=\frac{\sum_{i=1}^{n}X_i}{n}\) tem a menor (ou igual) variância entre aqueles estimadores usados para estimar a média populacional:
A variância amostral \(S^2=\frac{\sum_{i=1}^{n}(X_i-\overline{X})}{n-1}\) tem a menor (ou igual) variância entre aqueles usados para estimar a variânacia populacional:
A proporção amostral \(\hat{P}=\frac{Y}{n}\), com \(Y=\sum_{i=1}^{n}X_i\), definida a partir de \(n\) ensaios independentes de Bernoulli, tem a menor (ou igual) variância entre aqueles usados para estimar a proporção populacional:
Em uma amostra aleatória simples de tamanho \(n\), \({\bf X}=(X_1,X_2,\cdots,X_n)\), de uma população qualquer, representada por \(X\), com média \(\mu\) e variância \(\sigma^2\),
a distribuição de \(\overline{X}\) é aproximadamente normal com média \(\mu\) e variância \(\frac{\sigma^2}{n}\),
ou seja,
\[\mbox{se } n \rightarrow \infty \mbox{ então } \overline{X} \rightarrow N(\mu,\frac{\sigma^2}{n}),\]
em que \(N(\mu,\frac{\sigma^2}{n})\) representa a distribuição normal de média \(\mu\) e variância \(\frac{\sigma^2}{n}\).
Neste resultado, se incluirmos a suposição de que X tem distribuição normal, ou seja,
\[X \sim N(\mu,\sigma^2), \]
Então a distribuição de \(\overline{X}\) é exatamente normal, ou seja
\[\overline{X} \sim N\left( \mu,\frac{\sigma^2}{n}\right).\]
Obs: reveja o Exemplo visto no início do tópico, sobre volumes de garrafas com água.
Suponha que em um criadouro de peixes existam 50 berçários.
As larvas são recebidas do fornecedor e dividas entre os berçários.
Considerando que a quantidade de peixes tende a diminuir, devido a morte precoce, existe interesse em estimar a quantidade média de peixes nos berçários.
Considerando que todos os peixes têm a mesma procedência e recebem o mesmo tratamento, selecionaram-se 4 berçários de forma aleatória, para fazer a contagem.
Suponha as seguintes quantidades de peixes em cada berçario.
219777 | 188401 | 215723 | 219440 | 222988 |
248802 | 227959 | 229774 | 169702 | 187296 |
214718 | 195001 | 195823 | 214258 | 190232 |
178866 | 210229 | 221181 | 211127 | 207428 |
211305 | 208663 | 195658 | 227022 | 183277 |
223090 | 213492 | 178271 | 231149 | 187820 |
227174 | 236776 | 187524 | 186703 | 229633 |
213871 | 218341 | 206971 | 204281 | 198706 |
197425 | 187161 | 218965 | 224791 | 169106 |
221717 | 214974 | 203537 | 240505 | 196635 |
É possível que se tenha uma boa estimativa?
Vamos simular a extração de amostras aleatórias a partir desta população, e verificar a média amostral.
População
## [1] 208265.4
Amostra
## [1] 209624.6
População
## [1] 208265.4
Agora, serão selecionadas várias amostras e será analisado o comportamento das médias.
Média amostral
## [1] 64.28571
Quantil Z
## [1] -0.04761905