Inferência

Conceitos Básicos

  • O objetivo da inferência estatística é obter informações sobre populações, sem a necessidade de acessar todos os seus elementos.
  • Ou seja, as informações são obtidas com base em amostras.
  • Se a população é homogênea, em termos da característica investigada, qualquer amostra pode ser utilizada no processo de inferência.

Exemplo 1: Para obter informações sobre o nível de glicose no sangue de uma pessoa, basta uma amostra bem pequena do sangue. Por que isso é possível?

Exemplo 2: Para checar se um prato foi preparado com as medidas certas de tempero, basta provar uma pequena porção. Por que isso é possível?

Conceitos Básicos

  • População: conjunto de elementos com pelo menos uma característica em comum e que a delimita.

  • A população é o objeto alvo do estudo na estatística.

  • Amostra: subconjunto da população.

  • Amostra representativa da população: é capaz de representar a população como um todo, no que diz respeito a(s) característica(s) investigada(s).

  • Exemplo
  • Para saber se uma pizza de três sabores está boa, é preciso experimentar pelo menos três pedaços, sendo um de cada sabor, para que a amostra seja representativa.

Amostra probabilística

  • Amostra probabilística: extraída de modo a garantir probabilidades de escolha para os elementos da população.

  • amostragem probabilística: consiste no processo de selecionar elementos (ou conjunto de elementos) de uma população bem definida, usando um procedimento capaz de atribuir a cada elemento (ou conjunto de elementos) da população uma probabilidade do mesmo ser selecionado, sendo essa probabilidade calculável e diferente de zero.

Variável e Amostra Aleatória Simples

Os elementos de uma população podem ser entendidos como entidades portadoras das informações que se deseja obter (fenômenos, pessoas, máquinas, estabelecimentos comerciais etc.).

  • Variáveis: são as características associadas a essas entidades, as quais queremos investigar.

  • Em geral queremos estudar a frequência de ocorrência das variáveis.

  • Para isso, pode ser utilizada uma amostra aleatória simples e um modelo probabilístico.

  • Aqui vamos sempre supor que a amostra é extraída de forma aleatória simples. Ou seja, todos os elementos da população têm a mesma chance de serem selecionados.

Uma amostra aleatória simples de tamanho \(n\) de uma única variável aleatória \(X\) (com distribuição dada por \(F(x)\)) é um vetor \[{\bf X} = (X_1, X _2, \cdots,X_n)\] em que cada componente \(X_1 X _2, \cdots,X_n\) tem a mesma distribuição de \(X\).

  • Deste modo, toda informação que desejamos obter sobre uma população é obtida, se conhecemos completamente a distribuição de probabilidades da variável \(X\) considerada.

Exemplo

  • População: itens produzidos por uma determinada máquina;

  • Característica em comum: produzidos pela mesma máquina;

  • Característica de interesse: qualidade da peça;

  • X: se defeito \(X=1\) e se não defeito \(X=0\).

  • Então, \(X\) representa o estado de TODAS as peças produzidas pela máquina, com ou sem defeito, que já foram ou que ainda serão produzidas.

  • Neste caso temos: \(X \sim Bernoulli(p)\), com \(p\) desconhecido, devendo ser estimado.

Etapas da análise inferencial

  • Em geral, não se pode ter certeza sobre a distribuição de \(X\), e nem sobre seus parâmetros.

  • Assim, a partir de uma análise exploratória dos dados, é proposto um modelo probabilístico.

  • A amostra é utilizada para estimar os seus parâmetros.

  • Por fim, testes estatístico são realizados para checar a adequação do modelo proposto.

Observação:

  • os métodos de inferência discutidos aqui são baseados na obteção de uma amostra aleatória simples,

  • chamada aqui de amostra aleatória.

Parâmetro e Estatística

Parâmetro: qualquer característica da população.

  • Exmplo:

    • média populacional (\(\mu\));
    • variância populacional (\(\sigma^2\));
    • proporção populacional (\(p\));
    • tamanho da população (\(N\));
    • taxa de ocorrência de algum fenômeno na população (\(\lambda\)).

Estatística: qualquer função da amostra

  • Exmplo:

    • média amostral (\(\overline{X}\));
    • variância amostral (\(S^2\));
    • proporção amostral (\(P\));
    • tamanho da amostra (\(n\));
    • taxa de ocorrência de algum fenômeno na amostra (\(\frac{n_A}{n}\)), em que \(n_A\) é a quatidade de vezes que ocorre o fenômeno na amostra.

Estimação Pontual

Estimador e Estimativa

Considere que uma amostra aleatória \({\bf X} = (X_1, X_2, \cdots, X_n)\) seja selecionada.

Então, a partir dessa amostra, se uma estatística \[T({\bf X}) = T(X_1, X_2, \cdots, X_n)\] é usada para estimar um parâmetro, então essa estatística é chamada de ESTIMADOR.

Chamamos de ESTIMATIVA, o valor assumido pelo estimador \[T({\bf x} ) = T(x_1, x_2, \cdots, x_n)\] depois de serem observados \((x_1, x _2, \cdots,x_n)\) a partir de \((X_1, X _2, \cdots,X_n)\).

Exemplo: Considere o problema de estimar a proporção de defeitos produzidos por uma máquina. Assim, define-se a variável aleatória:

\[ X= \left\{ \begin{array}{ll} 1,&~~ \text{se uma peça selecionada tem defeito} \\ 0, &~~ \text{se uma peça selecionada não tem defeito}.\\ \end{array} \right. \] \(X \sim Bernoulli(p)\), com \(p\) desconhecido.

Supondo que duas peças sejam selecionadas de forma aleatória, então tem-se \(X_1,X_2\) tais que:

  • \(X_1 \sim Bernoulli(p)\) e

  • \(X_2 \sim Bernoulli(p)\).

Então, se \(\hat{p}=T(X_1,X_2)=\bar{X}=\frac{X_1+X_2}{2}\) é um estimator para \(p\) e observarmos \(x_1=0\) e \(x_2=1\),

\(\hat{p}=\frac{x_1+x_2}{2}=\frac{0+1}{2}=1/2\) é uma estimativa de \(p\).

Exemplos de estimadores utilizados na prática

  • A média amostral: \(\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\)

é um estimador para a média populacional \(\mu\).

  • A variância amostral:
    \(S^2=\frac{\sum_{i=1}^{n}(X_i-\overline{X})}{n-1}\)

é um estimador para variância populacional \(\sigma^2\).

  • A proporção amostral: \(\hat{p}=\frac{Y}{n}\),

    • com \(Y\) a quantidade de sucessos na amostra e
    • \(n\) o tamanho da amostra,

é um estimador para a proporção populacional \(p\).

  • Em geral, denotamos os parâmetros desconhecidos por uma letra grega.

  • Exemplo, \(\theta, \lambda, \eta, \delta\) etc.

  • e as suas estimativas pelas respectivas letras com ” ^”

  • Exemplo \(\hat{\theta}, \hat{\lambda}, \hat{\eta}, \hat{\delta}\) etc.

  • Como exceções citamos os estimadores para média e e variância \((\mu, \sigma^2)\), que são denotados de forma diferente \((\bar{X}, S^2)\).

Distribuição Amostral

Distribuição do estimador

  • Como estimadores são estatísticas, estes são funções de variáveis aleatórias, \(T=T({\bf X})\),

  • então estes também são variáveis aleatórias,

  • logo possuem uma distribuição de probabilidades.

  • Essa distribuição é chamada de distribuição amostral do estimador.

  • Com isso, faz sentido falarmos de média \(E(T)\) e de variância \(Var(T)\) de um estimador \(T\).

Exemplo

No exemplo anterior, consideramos duas peças selecionadas de forma aleatória, dando origem a \(X_1,X_2\) tais que:

  • \(X_1 \sim Bernoulli(p)\) e

  • \(X_2 \sim Bernoulli(p)\).

  • \(\hat{p}=\frac{X_1+X_2}{2}\) é um estimator para \(p\).

  • \(\hat{p}=\frac{X_1+X_2}{2}\) é variável aleatória e tem uma distribuição.

A esperança de \(\hat{p}\) é dada por: \[E(\hat{p})=\frac{E(X_1+X_2)}{2}=\frac{E(X_1)+E(X_2)}{2}=\frac{p+p}{2}=p.\]

  • Note que a esperança do estimador \(\hat{p}\) é igual ao parâmetro \(p\).

  • Isso confere ao estimador \(\hat{p}\) uma importante propriedade.

  • Uma vez que, obtendo-se várias amostras aleatórias de mesmo tamanho,

  • a média desses valores deverá estar próxima do valor verdadeiro do parâmetro a ser estimado.

Propriedades dos Estimadores

Vício de um estimador

  1. Um estimador \(T = T(X_1, X_2, \cdots, X_n)\) é dito não viciado (não enviesado), para o parâmetro \(\theta\), se sua esperança é igual ao parâmetro, ou seja \[\mathbb{E}(T)=\theta,\] para todo \(\theta\).
  2. Se a igualdade acima não ocorre, dizemos que \(T\) é um estimador viciado (viesado) e a diferença \(V(T,\theta) = \mathbb{E}(T) - \theta\) é chamada de vício (viés) do estimador \(T\).

Exemplos

A média amostral \(\overline{X}=\frac{\sum_{i=1}^{n}X_i}{n}\) é não viciada para estimar a média populacional:

  • \(\mathbb{E}(\overline{X})=\mu.\)

A variância amostral \(S^2=\frac{\sum_{i=1}^{n}(X_i-\overline{X})}{n-1}\) é não viciada para estimar a variânacia populacional:

  • \(\mathbb{E}(S^2)=\sigma^2\).

A proporção amostral \(\hat{P}=\frac{Y}{n}\), com \(Y=\sum_{i=1}^{n}X_i\), definida a partir de \(n\) ensaios independentes de Bernoulli, é não viciada para estimar a proporção populacional:

  • \(\mathbb{E}(\hat{P})=p.\)

Precisão do estimador

  • Além da esperança, pode ser calculada a variância dos estimadores apresentados anteriormente.

  • Na prática, é desejado que o esetimador utilizado seja aquele com ménor variância.

  • Pode ser mostrado que os estimadores apresentados anteriormente são os de menor variância para estimar os parâmetros considerados.

  • O máximo que pode ocorrer é exitir estimadares com variância igual as que apresetam esses estimadores, mas nunca maior.

  • Portanto, estes estimadores são os melhores, para estimar os respectivos parâmetros.

A média amostral \(\overline{X}=\frac{\sum_{i=1}^{n}X_i}{n}\) tem a menor (ou igual) variância entre aqueles estimadores usados para estimar a média populacional:

  • \(\mathbb{Var}(\overline{X})= \frac{\sigma^2}{n}\)

A variância amostral \(S^2=\frac{\sum_{i=1}^{n}(X_i-\overline{X})}{n-1}\) tem a menor (ou igual) variância entre aqueles usados para estimar a variânacia populacional:

  • \(\mathbb{Var}(S^2)=\frac{2\sigma^4}{n-1}\).

A proporção amostral \(\hat{P}=\frac{Y}{n}\), com \(Y=\sum_{i=1}^{n}X_i\), definida a partir de \(n\) ensaios independentes de Bernoulli, tem a menor (ou igual) variância entre aqueles usados para estimar a proporção populacional:

  • \(\mathbb{Var}(\hat{P})=\frac{p(1-p)}{n}.\)

Distribuição Amostral a Média

Teorema do Limite Central (TLC)

  • Em uma amostra aleatória simples de tamanho \(n\), \({\bf X}=(X_1,X_2,\cdots,X_n)\), de uma população qualquer, representada por \(X\), com média \(\mu\) e variância \(\sigma^2\),

  • a distribuição de \(\overline{X}\) é aproximadamente normal com média \(\mu\) e variância \(\frac{\sigma^2}{n}\),

  • ou seja,

    \[\mbox{se } n \rightarrow \infty \mbox{ então } \overline{X} \rightarrow N(\mu,\frac{\sigma^2}{n}),\]

em que \(N(\mu,\frac{\sigma^2}{n})\) representa a distribuição normal de média \(\mu\) e variância \(\frac{\sigma^2}{n}\).

  • Neste resultado, se incluirmos a suposição de que X tem distribuição normal, ou seja,

    \[X \sim N(\mu,\sigma^2), \]

  • Então a distribuição de \(\overline{X}\) é exatamente normal, ou seja

    \[\overline{X} \sim N\left( \mu,\frac{\sigma^2}{n}\right).\]

Obs: reveja o Exemplo visto no início do tópico, sobre volumes de garrafas com água.

Exemplo

  • Suponha que em um criadouro de peixes existam 50 berçários.

  • As larvas são recebidas do fornecedor e dividas entre os berçários.

  • Considerando que a quantidade de peixes tende a diminuir, devido a morte precoce, existe interesse em estimar a quantidade média de peixes nos berçários.

  • Considerando que todos os peixes têm a mesma procedência e recebem o mesmo tratamento, selecionaram-se 4 berçários de forma aleatória, para fazer a contagem.

Suponha as seguintes quantidades de peixes em cada berçario.

219777 188401 215723 219440 222988
248802 227959 229774 169702 187296
214718 195001 195823 214258 190232
178866 210229 221181 211127 207428
211305 208663 195658 227022 183277
223090 213492 178271 231149 187820
227174 236776 187524 186703 229633
213871 218341 206971 204281 198706
197425 187161 218965 224791 169106
221717 214974 203537 240505 196635
  • É possível que se tenha uma boa estimativa?

  • Vamos simular a extração de amostras aleatórias a partir desta população, e verificar a média amostral.

Histograma real da população e de uma amostra

População

## [1] 208265.4

Amostra

## [1] 209624.6

Histograma real da população

População

## [1] 208265.4

Agora, serão selecionadas várias amostras e será analisado o comportamento das médias.

Histogramas para as médias de 1000 amostras simuladas com diferentes tamanhos

Exemplo

Um elevador tem seu funcionamento bloqueado se sua carga for superior a 450 kg. Sabe-se que o peso de um adulto é uma variável aleatória com distribuição normal, sendo a média igual a 65 kg e o desvio igual a 15 kg.
  1. Qual a probabilidade de ocorrer o bloqueio numa tentativa de transportar 7 adultos?
  2. Encontre um intervalo que contenha 90% das médias amostrais, quando são realizadas tentativas de transportar 7 pessoas no elevador.

Exemplo

Um elevador tem seu funcionamento bloqueado se sua carga for superior a 450 kg. Sabe-se que o peso de um adulto é uma variável aleatória com distribuição normal, sendo a média igual a 65 kg e o desvio igual a 15 kg.
  1. Qual a probabilidade de ocorrer o bloqueio numa tentativa de transportar 7 adultos?
  2. Encontre um intervalo que contenha 90% das médias amostrais, quando são realizadas tentativas de transportar 7 pessoas no elevador.

Média amostral

## [1] 64.28571

Quantil Z

## [1] -0.04761905

Fim