Exemplo 1: Para obter informações sobre o nível de glicose no sangue de uma pessoa, basta uma amostra bem pequena do sangue. Por que isso é possível?
Exemplo 2: Para checar se um prato foi preparado com as medidas certas de tempero, basta provar uma pequena porção. Por que isso é possível?
Variáveis: são as características associadas a entidades que queremos investigar.
População: conjunto de todos os valores possíveis de serem observados de uma característica (variável) de elementos (entidades) que se pretende investigar.
Os elementos de uma população podem ser entendidos como entidades portadoras das informações que se deseja obter (fenômenos, pessoas, máquinas, estabelecimentos comerciais etc.).
Amostra: subconjunto da população.
Amostra representativa da população: é capaz de representar a população como um todo, no que diz respeito as ocorrências da(s) característica(s) investigada(s).
Suponha que o interesse é investigar a média \(\mu\) de uma população \(\Omega\) com dez elementos.
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
---|---|---|---|---|---|---|---|---|---|---|
\(\Omega\) | -1.5 | 0.3 | 1.1 | -0.5 | -0.9 | -0.1 | 0.3 | -0.4 | -1.7 | 0.4 |
X | -0.4 | -1.5 | -0.4 | 1.1 | -0.9 | 0.3 | NA | NA | NA | NA |
\(\mu=\frac{-1.5 +0.3+ 1.1 -0.5-0.9 -0.1+ 0.3 -0.4+ 0.4}{10}=\frac{-3}{10}=-0.3\)
\(\overline{X}=\frac{-1.5 + 1.1 -0.9+ 0.3-0.4 -0.4 }{6}=\frac{-1.8}{6}=-0.3\)
Amostra probabilística: extraída de modo a garantir probabilidades de escolha para os elementos da população.
amostragem probabilística: consiste no processo de selecionar elementos (ou conjunto de elementos) de uma população bem definida, usando um procedimento capaz de atribuir a cada elemento (ou conjunto de elementos) da população uma probabilidade do mesmo ser selecionado, sendo essa probabilidade calculável e diferente de zero.
amostra aleatória simples : é aquela em que todos os elementos da população tem a mesma chance de serem escolhidos, e é o tipo de amostra requerida para se aplicar as técnicas discutidas aqui.
Vamos sempre supor que a amostra é extraída de forma aleatória simples. Ou seja, todos os elementos da população têm a mesma chance de serem selecionados.
População: itens produzidos por uma determinada máquina;
Característica em comum: produzidos pela mesma máquina;
Característica de interesse: qualidade da peça;
X: se defeito \(X=1\) e se não defeito \(X=0\).
Então, \(X\) representa o estado de TODAS as peças produzidas pela máquina, com ou sem defeito, que já foram ou que ainda serão produzidas.
Neste caso temos: \(X \sim Bernoulli(p)\), com \(p\) sendo o parâmetro desconhecido do modelo, devendo ser estimado.
Diferente do exemplo anterior, muitas vezes não se pode ter certeza sobre a distribuição de \(X\), e nem sobre seus parâmetros.
Assim, a partir de uma análise exploratória dos dados, é proposto um modelo probabilístico.
A amostra é utilizada para estimar os seus parâmetros.
Por fim, testes estatístico são realizados para checar a adequação do modelo proposto.
Observação:
os métodos de inferência discutidos aqui são baseados na obteção de uma amostra aleatória simples,
chamada aqui de amostra aleatória.
Em geral queremos estudar a frequência de ocorrência das variáveis.
Para isso, pode ser utilizada uma amostra aleatória simples e um modelo probabilístico.
Uma amostra aleatória simples de tamanho \(n\) de uma única variável aleatória \(X\) com distribuição dada por \(f(x|\theta)\) é um vetor \[{\bf X} = (X_1, X _2, \cdots,X_n)\] em que cada componente \(X_1 X _2, \cdots,X_n\) tem a mesma distribuição de \(X\).
Deste modo, \(X_1, X _2, \cdots,X_n\) são identicamente distribuídos.
Deste modo, toda informação que desejamos obter sobre uma população é obtida, se conhecemos completamente a distribuição de probabilidades da variável \(X\) considerada.
O modelo deve ser assumido e seus parâmetros estimados.
Existem vários métodos que podem ser aplicados para estimar parâmetros de modelos probabilísticos.
O método mais tradicional é o médoto da máxima verossimilhança.
\[f(x_1, x _2, \cdots,x_n|\theta).\] - Caso as observações sejam extraídas de forma independente e são identicamente distribuídas (iid), a função de verossimilhança é dada por:
\[f(x_1, x _2, \cdots,x_n|\theta) = \prod_{i=1}^{n} f(xi|\theta).\]
Para obter a estimativa dos parâmetros do modelo, podemos maximizar a função de verossimilhança em relação aos seus parâmetros.
Muitas vezes podemos obter uma fórmula (estimador com forma fechada) para obtenção das estimativas dos parâmetros.
Caso essa maximização não leve a uma forma fechada para a obtenção das estimativas, métodos numéricos precisam ser empregados nessas obtenções
Existem situações em que a aplicação do método máxima verossimilhança não é apropriada.
Uma abordagem comum no processo de estimação de parâmetros é o uso de uma função de perda.
Essa técnica é útil quando se tem problemas em que não se pode supor um modelo probabilístico com forma fechada.
A função de perda busca minimizar a discrepância entre os valores observados da variável aleatória e os valores previstos.
Nesse caso é necessário realizar uma validação cruzada com amostras geralmente denominadas na literatura por treinamento (para estimar os parâmetros) e teste (para medir a perda).
Caso existam valores que não possam ser estimados diretamente a partir dos dados, é necessário a utilização de amostras de treinamento, validação e teste.
O objetivo da inclusão da amostra de validação é para realizar a comparação de diferentes conjuntos de parâmetros, a fim de escolher aquele que melhor se adeque ao problema.
Os parâmetros que não podem ser estimados diretamente com os dados de treinamento são comumente chamados de hiperparâmetros.
Parâmetro: qualquer característica da população.
Exmplo:
Estatística: qualquer função da amostra
Exmplo:
Supondo \(X_1,X_2\) amostra aleatória simples da variável aleatória \(X\) tal que \[X \sim Bernoulli(p),\]
Se uma amostra aleatória de tamanho \(n=2\) é extraída, tem-se:
\(X_1 \sim Bernoulli(p)\), primeira seleção;
\(X_2 \sim Bernoulli(p)\), segunda seleção.
Assim,
\[T(X_1,X_2)=X_1+X_2\]
é uma estatística.
Observações
Qualquer função apenas da amostra (fórmula ou expressão) é uma estatística.
As estatísticas são utilizadas para estimar os parâmetros.
Estatísticas com boas propriedades são utilizadas para estimar parâmetros, e ganham o nome de estimador.
Considere que uma amostra aleatória \({\bf X} = (X_1, X_2, \cdots, X_n)\) seja selecionada.
Então, a partir dessa amostra, se uma estatística \[T({\bf X}) = T(X_1, X_2, \cdots, X_n)\] é usada para estimar um parâmetro, então essa estatística é chamada de ESTIMADOR.
Chamamos de ESTIMATIVA, o valor assumido pelo estimador \[T({\bf x} ) = T(x_1, x_2, \cdots, x_n)\] depois de serem observados \((x_1, x _2, \cdots,x_n)\) a partir de \((X_1, X _2, \cdots,X_n)\).
Exemplo: Considere o problema de estimar a proporção de defeitos produzidos por uma máquina. Assim, define-se a variável aleatória:
\[ X= \left\{ \begin{array}{ll} 1,&~~ \text{se uma peça selecionada tem defeito} \\ 0, &~~ \text{se uma peça selecionada não tem defeito}.\\ \end{array} \right. \] \(X \sim Bernoulli(p)\), com \(p\) desconhecido.
Supondo que duas peças sejam selecionadas de forma aleatória, então tem-se \(X_1,X_2\) tais que:
\(X_1 \sim Bernoulli(p)\) e
\(X_2 \sim Bernoulli(p)\).
Então, se \(\hat{p}=T(X_1,X_2)=\bar{X}=\frac{X_1+X_2}{2}\) é um estimator para \(p\) e observarmos \(x_1=0\) e \(x_2=1\),
\(\hat{p}=\frac{x_1+x_2}{2}=\frac{0+1}{2}=1/2\) é uma estimativa de \(p\).
é um estimador para a média populacional \(\mu\).
é um estimador para variância populacional \(\sigma^2\).
A proporção amostral: \(\hat{p}=\frac{Y}{n}\),
é um estimador para a proporção populacional \(p\).
Em geral, denotamos os parâmetros desconhecidos por uma letra grega.
Exemplo, \(\theta, \lambda, \eta, \delta\) etc.
e as suas estimativas pelas respectivas letras com ” ^”
Exemplo \(\hat{\theta}, \hat{\lambda}, \hat{\eta}, \hat{\delta}\) etc.
Como exceções citamos os estimadores para média e e variância \((\mu, \sigma^2)\), que são denotados de forma diferente \((\bar{X}, S^2)\).
Como estimadores são estatísticas, estes são funções de variáveis aleatórias, \(T=T({\bf X})\),
então estes também são variáveis aleatórias,
logo possuem uma distribuição de probabilidades.
Essa distribuição é chamada de distribuição amostral do estimador.
Com isso, faz sentido falarmos de média \(E(T)\) e de variância \(Var(T)\) de um estimador \(T\).
Estudos teóricos envolvendo obtenção de estimadores
Um método de estimação é usado a partir da função de verossimilhança.
O método fornece um estimador para cada parâmetro do modelo probabilístico adotado.
São investigadas as propriedades dos estimadores.
Os estimadores são utilizados para estimar os parâmetros do modelo adotado.
Exemplos
A média amostral \(\overline{X}=\frac{\sum_{i=1}^{n}X_i}{n}\) é não viciada para estimar a média populacional:
A variância amostral \(S^2=\frac{\sum_{i=1}^{n}(X_i-\overline{X})}{n-1}\) é não viciada para estimar a variânacia populacional:
A proporção amostral \(\hat{P}=\frac{Y}{n}\), com \(Y=\sum_{i=1}^{n}X_i\), definida a partir de \(n\) ensaios independentes de Bernoulli, é não viciada para estimar a proporção populacional:
Considere duas peças selecionadas de forma aleatória e a obserfação da presença (1) ou não (0) de defeito, que dá origem a \(X_1,X_2\) tais que:
\(X_1 \sim Bernoulli(p)\) e
\(X_2 \sim Bernoulli(p)\).
Além disso, temos que \(\hat{p}=\frac{X_1+X_2}{2}\) é um estimator para \(p\).
A esperança de \(\hat{p}\) é dada por: \[E(\hat{p})=\frac{E(X_1+X_2)}{2}=\frac{E(X_1)+E(X_2)}{2}=\frac{p+p}{2}=p.\]
Note que a esperança do estimador \(\hat{p}\) é igual ao parâmetro \(p\).
Isso confere ao estimador \(\hat{p}\) uma importante propriedade.
Uma vez que, obtendo-se várias amostras aleatórias de mesmo tamanho,
a média desses valores deverá estar próxima do valor verdadeiro do parâmetro a ser estimado.
Além da esperança, pode ser calculada a variância dos estimadores apresentados anteriormente.
Na prática, é desejado que o estimador utilizado seja aquele com menor variância.
Pode ser mostrado que os estimadores apresentados anteriormente são os de menor variância para estimar os parâmetros considerados.
O máximo que pode ocorrer é existir estimadores com variância igual as que apresentam esses estimadores, mas nunca maior.
Portanto, estes estimadores são os melhores, para estimar os respectivos parâmetros.
A média amostral \(\overline{X}=\frac{\sum_{i=1}^{n}X_i}{n}\) tem a menor (ou igual) variância entre aqueles estimadores usados para estimar a média populacional:
A variância amostral \(S^2=\frac{\sum_{i=1}^{n}(X_i-\overline{X})}{n-1}\) tem a menor (ou igual) variância entre aqueles usados para estimar a variânacia populacional:
A proporção amostral \(\hat{P}=\frac{Y}{n}\), com \(Y=\sum_{i=1}^{n}X_i\), definida a partir de \(n\) ensaios independentes de Bernoulli, tem a menor (ou igual) variância entre aqueles usados para estimar a proporção populacional:
Em uma amostra aleatória simples de tamanho \(n\), \({\bf X}=(X_1,X_2,\cdots,X_n)\), de uma população qualquer, representada por \(X\), com média \(\mu\) e variância \(\sigma^2\),
a distribuição de \(\overline{X}\) é aproximadamente normal com média \(\mu\) e variância \(\frac{\sigma^2}{n}\),
ou seja,
\[\mbox{se } n \rightarrow \infty \mbox{ então } \overline{X} \rightarrow N(\mu,\frac{\sigma^2}{n}),\]
em que \(N(\mu,\frac{\sigma^2}{n})\) representa a distribuição normal de média \(\mu\) e variância \(\frac{\sigma^2}{n}\).
Neste resultado, se incluirmos a suposição de que X tem distribuição normal, ou seja,
\[X \sim N(\mu,\sigma^2), \]
Então a distribuição de \(\overline{X}\) é exatamente normal, ou seja
\[\overline{X} \sim N\left( \mu,\frac{\sigma^2}{n}\right).\]
Obs: reveja o Exemplo visto no início do tópico, sobre volumes de garrafas com água.
Suponha uma população de plantas, cujas alturas são medidas em metros.
Os dados de alturas para toda a população são mostrados na tabela.
Caso se queira estimar essa média usando uma amostra, deve-se extrair uma amostra aleatória.
É possível que se tenha uma boa estimativa a partir de uma amostra de qual tamanho?
4.43 | 3.24 | 3.79 | 3.78 | 3.91 | 3.92 | 4.98 | 4.19 | 4.42 | 6.00 |
7.47 | 4.21 | 3.64 | 5.09 | 3.89 | 4.68 | 5.12 | 4.20 | 5.04 | 5.09 |
5.82 | 2.65 | 4.65 | 4.00 | 3.01 | 1.83 | 1.16 | 4.54 | 2.91 | 4.22 |
4.01 | 3.73 | 4.84 | 4.03 | 3.58 | 3.13 | 4.14 | 5.28 | 2.89 | 4.53 |
4.29 | 4.28 | 4.86 | 2.71 | 2.99 | 3.31 | 5.21 | 4.27 | 4.16 | 3.82 |
População
## [1] 4.1188
Amostra
## [1] 4.03
População
## [1] 4.1188
Agora, serão selecionadas várias amostras e será analisado o comportamento das médias.