Inferência

Conceitos Básicos

  • O objetivo da inferência estatística é obter informações sobre populações, sem a necessidade de acessar todos os seus elementos.
  • Ou seja, as informações são obtidas com base em amostras.
  • Se a população é homogênea, em termos da característica investigada, qualquer amostra pode ser utilizada no processo de inferência.

Exemplo 1: Para obter informações sobre o nível de glicose no sangue de uma pessoa, basta uma amostra bem pequena do sangue. Por que isso é possível?

Exemplo 2: Para checar se um prato foi preparado com as medidas certas de tempero, basta provar uma pequena porção. Por que isso é possível?

Conceitos Básicos

  • Variáveis: são as características associadas a entidades que queremos investigar.

  • População: conjunto de todos os valores possíveis de serem observados de uma característica (variável) de elementos (entidades) que se pretende investigar.

  • Os elementos de uma população podem ser entendidos como entidades portadoras das informações que se deseja obter (fenômenos, pessoas, máquinas, estabelecimentos comerciais etc.).

  • Amostra: subconjunto da população.

  • Amostra representativa da população: é capaz de representar a população como um todo, no que diz respeito as ocorrências da(s) característica(s) investigada(s).

Suponha que o interesse é investigar a média \(\mu\) de uma população \(\Omega\) com dez elementos.

1 2 3 4 5 6 7 8 9 10
\(\Omega\) -1.5 0.3 1.1 -0.5 -0.9 -0.1 0.3 -0.4 -1.7 0.4
X -0.4 -1.5 -0.4 1.1 -0.9 0.3 NA NA NA NA

  • Média de \(\Omega\):

\(\mu=\frac{-1.5 +0.3+ 1.1 -0.5-0.9 -0.1+ 0.3 -0.4+ 0.4}{10}=\frac{-3}{10}=-0.3\)

  • Média Amostral:

\(\overline{X}=\frac{-1.5 + 1.1 -0.9+ 0.3-0.4 -0.4 }{6}=\frac{-1.8}{6}=-0.3\)

Amostra probabilística

  • Amostra probabilística: extraída de modo a garantir probabilidades de escolha para os elementos da população.

  • amostragem probabilística: consiste no processo de selecionar elementos (ou conjunto de elementos) de uma população bem definida, usando um procedimento capaz de atribuir a cada elemento (ou conjunto de elementos) da população uma probabilidade do mesmo ser selecionado, sendo essa probabilidade calculável e diferente de zero.

  • amostra aleatória simples : é aquela em que todos os elementos da população tem a mesma chance de serem escolhidos, e é o tipo de amostra requerida para se aplicar as técnicas discutidas aqui.

  • Vamos sempre supor que a amostra é extraída de forma aleatória simples. Ou seja, todos os elementos da população têm a mesma chance de serem selecionados.

Exemplo

  • População: itens produzidos por uma determinada máquina;

  • Característica em comum: produzidos pela mesma máquina;

  • Característica de interesse: qualidade da peça;

  • X: se defeito \(X=1\) e se não defeito \(X=0\).

  • Então, \(X\) representa o estado de TODAS as peças produzidas pela máquina, com ou sem defeito, que já foram ou que ainda serão produzidas.

  • Neste caso temos: \(X \sim Bernoulli(p)\), com \(p\) sendo o parâmetro desconhecido do modelo, devendo ser estimado.

Etapas da análise inferencial

  • Diferente do exemplo anterior, muitas vezes não se pode ter certeza sobre a distribuição de \(X\), e nem sobre seus parâmetros.

  • Assim, a partir de uma análise exploratória dos dados, é proposto um modelo probabilístico.

  • A amostra é utilizada para estimar os seus parâmetros.

  • Por fim, testes estatístico são realizados para checar a adequação do modelo proposto.

Observação:

  • os métodos de inferência discutidos aqui são baseados na obteção de uma amostra aleatória simples,

  • chamada aqui de amostra aleatória.

Amostras e inferência

  • Em geral queremos estudar a frequência de ocorrência das variáveis.

  • Para isso, pode ser utilizada uma amostra aleatória simples e um modelo probabilístico.

  • Uma amostra aleatória simples de tamanho \(n\) de uma única variável aleatória \(X\) com distribuição dada por \(f(x|\theta)\) é um vetor \[{\bf X} = (X_1, X _2, \cdots,X_n)\] em que cada componente \(X_1 X _2, \cdots,X_n\) tem a mesma distribuição de \(X\).

  • Deste modo, \(X_1, X _2, \cdots,X_n\) são identicamente distribuídos.

  • Deste modo, toda informação que desejamos obter sobre uma população é obtida, se conhecemos completamente a distribuição de probabilidades da variável \(X\) considerada.

  • O modelo deve ser assumido e seus parâmetros estimados.

  • Existem vários métodos que podem ser aplicados para estimar parâmetros de modelos probabilísticos.

  • O método mais tradicional é o médoto da máxima verossimilhança.

Verossimilhança dos dados

  • Se \(f(x)\) é a função de densidade (ou de probabilidade no caso discreto), a verossimilhança dos dados observados da v.a. \(X\), \(x_1, x _2, \cdots,x_n\) é a conjunta:

\[f(x_1, x _2, \cdots,x_n|\theta).\] - Caso as observações sejam extraídas de forma independente e são identicamente distribuídas (iid), a função de verossimilhança é dada por:

\[f(x_1, x _2, \cdots,x_n|\theta) = \prod_{i=1}^{n} f(xi|\theta).\]

  • Aqui \(\theta\) representa os parâmetros desconhecidos do modelo adotado, cujo espaço onde assumem valores é conhecido.

  • Para obter a estimativa dos parâmetros do modelo, podemos maximizar a função de verossimilhança em relação aos seus parâmetros.

  • Muitas vezes podemos obter uma fórmula (estimador com forma fechada) para obtenção das estimativas dos parâmetros.

  • Caso essa maximização não leve a uma forma fechada para a obtenção das estimativas, métodos numéricos precisam ser empregados nessas obtenções

Observações

  • Existem situações em que a aplicação do método máxima verossimilhança não é apropriada.

  • Uma abordagem comum no processo de estimação de parâmetros é o uso de uma função de perda.

  • Essa técnica é útil quando se tem problemas em que não se pode supor um modelo probabilístico com forma fechada.

  • A função de perda busca minimizar a discrepância entre os valores observados da variável aleatória e os valores previstos.

  • Nesse caso é necessário realizar uma validação cruzada com amostras geralmente denominadas na literatura por treinamento (para estimar os parâmetros) e teste (para medir a perda).

  • Caso existam valores que não possam ser estimados diretamente a partir dos dados, é necessário a utilização de amostras de treinamento, validação e teste.

  • O objetivo da inclusão da amostra de validação é para realizar a comparação de diferentes conjuntos de parâmetros, a fim de escolher aquele que melhor se adeque ao problema.

  • Os parâmetros que não podem ser estimados diretamente com os dados de treinamento são comumente chamados de hiperparâmetros.

Parâmetro, Estatística e estimadores

Parâmetro: qualquer característica da população.

  • Exmplo:

    • média populacional (\(\mu\));
    • variância populacional (\(\sigma^2\));
    • proporção populacional (\(p\));
    • tamanho da população (\(N\));
    • taxa de ocorrência de algum fenômeno na população (\(\lambda\)).

Estatística: qualquer função da amostra

  • Exmplo:

    • média amostral (\(\overline{X}\));
    • variância amostral (\(S^2\));
    • proporção amostral (\(P\));
    • tamanho da amostra (\(n\));
    • taxa de ocorrência de algum fenômeno na amostra (\(\frac{Y}{n}\)), em que \(Y\) é a quatidade de vezes que ocorre o fenômeno na amostra.

Exemplo

Supondo \(X_1,X_2\) amostra aleatória simples da variável aleatória \(X\) tal que \[X \sim Bernoulli(p),\]

  • Se uma amostra aleatória de tamanho \(n=2\) é extraída, tem-se:

    • \(X_1 \sim Bernoulli(p)\), primeira seleção;

    • \(X_2 \sim Bernoulli(p)\), segunda seleção.

  • Assim,

\[T(X_1,X_2)=X_1+X_2\]

é uma estatística.

  • Como utilizar uma estatística para estimar \(p\)?

Observações

  • Qualquer função apenas da amostra (fórmula ou expressão) é uma estatística.

  • As estatísticas são utilizadas para estimar os parâmetros.

  • Estatísticas com boas propriedades são utilizadas para estimar parâmetros, e ganham o nome de estimador.

Estimador e Estimativa

Considere que uma amostra aleatória \({\bf X} = (X_1, X_2, \cdots, X_n)\) seja selecionada.

Então, a partir dessa amostra, se uma estatística \[T({\bf X}) = T(X_1, X_2, \cdots, X_n)\] é usada para estimar um parâmetro, então essa estatística é chamada de ESTIMADOR.

Chamamos de ESTIMATIVA, o valor assumido pelo estimador \[T({\bf x} ) = T(x_1, x_2, \cdots, x_n)\] depois de serem observados \((x_1, x _2, \cdots,x_n)\) a partir de \((X_1, X _2, \cdots,X_n)\).

Exemplo: Considere o problema de estimar a proporção de defeitos produzidos por uma máquina. Assim, define-se a variável aleatória:

\[ X= \left\{ \begin{array}{ll} 1,&~~ \text{se uma peça selecionada tem defeito} \\ 0, &~~ \text{se uma peça selecionada não tem defeito}.\\ \end{array} \right. \] \(X \sim Bernoulli(p)\), com \(p\) desconhecido.

Supondo que duas peças sejam selecionadas de forma aleatória, então tem-se \(X_1,X_2\) tais que:

  • \(X_1 \sim Bernoulli(p)\) e

  • \(X_2 \sim Bernoulli(p)\).

Então, se \(\hat{p}=T(X_1,X_2)=\bar{X}=\frac{X_1+X_2}{2}\) é um estimator para \(p\) e observarmos \(x_1=0\) e \(x_2=1\),

\(\hat{p}=\frac{x_1+x_2}{2}=\frac{0+1}{2}=1/2\) é uma estimativa de \(p\).

Exemplos de estimadores utilizados na prática

  • A média amostral: \(\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\)

é um estimador para a média populacional \(\mu\).

  • A variância amostral:
    \(S^2=\frac{\sum_{i=1}^{n}(X_i-\overline{X})}{n-1}\)

é um estimador para variância populacional \(\sigma^2\).

  • A proporção amostral: \(\hat{p}=\frac{Y}{n}\),

    • com \(Y\) a quantidade de sucessos na amostra e
    • \(n\) o tamanho da amostra,

é um estimador para a proporção populacional \(p\).

  • Em geral, denotamos os parâmetros desconhecidos por uma letra grega.

  • Exemplo, \(\theta, \lambda, \eta, \delta\) etc.

  • e as suas estimativas pelas respectivas letras com ” ^”

  • Exemplo \(\hat{\theta}, \hat{\lambda}, \hat{\eta}, \hat{\delta}\) etc.

  • Como exceções citamos os estimadores para média e e variância \((\mu, \sigma^2)\), que são denotados de forma diferente \((\bar{X}, S^2)\).

Distribuição Amostral

Distribuição do estimador

  • Como estimadores são estatísticas, estes são funções de variáveis aleatórias, \(T=T({\bf X})\),

  • então estes também são variáveis aleatórias,

  • logo possuem uma distribuição de probabilidades.

  • Essa distribuição é chamada de distribuição amostral do estimador.

  • Com isso, faz sentido falarmos de média \(E(T)\) e de variância \(Var(T)\) de um estimador \(T\).

Inferência estatística clássica

Estudos teóricos envolvendo obtenção de estimadores

  1. Um método de estimação é usado a partir da função de verossimilhança.

  2. O método fornece um estimador para cada parâmetro do modelo probabilístico adotado.

  3. São investigadas as propriedades dos estimadores.

  4. Os estimadores são utilizados para estimar os parâmetros do modelo adotado.

Propriedades dos Estimadores

Vício de um estimador

Um estimador é uma estatística, e, portanto, tem: distribuição, esperança e variância.
  1. Um estimador \(T = T(X_1, X_2, \cdots, X_n)\) é dito não viciado (não viesado), para o parâmetro \(\theta\), se sua esperança é igual ao parâmetro, ou seja \[\mathbb{E}(T)=\theta,\] para todo \(\theta\).
  2. Se a igualdade acima não ocorre, dizemos que \(T\) é um estimador viciado (viesado) e a diferença \(V(T,\theta) = \mathbb{E}(T) - \theta\) é chamada de vício (viés) do estimador \(T\).

Exemplos

A média amostral \(\overline{X}=\frac{\sum_{i=1}^{n}X_i}{n}\) é não viciada para estimar a média populacional:

  • \(\mathbb{E}(\overline{X})=\mu.\)

A variância amostral \(S^2=\frac{\sum_{i=1}^{n}(X_i-\overline{X})}{n-1}\) é não viciada para estimar a variânacia populacional:

  • \(\mathbb{E}(S^2)=\sigma^2\).

A proporção amostral \(\hat{P}=\frac{Y}{n}\), com \(Y=\sum_{i=1}^{n}X_i\), definida a partir de \(n\) ensaios independentes de Bernoulli, é não viciada para estimar a proporção populacional:

  • \(\mathbb{E}(\hat{P})=p.\)

Exemplo

Considere duas peças selecionadas de forma aleatória e a obserfação da presença (1) ou não (0) de defeito, que dá origem a \(X_1,X_2\) tais que:

  • \(X_1 \sim Bernoulli(p)\) e

  • \(X_2 \sim Bernoulli(p)\).

Além disso, temos que \(\hat{p}=\frac{X_1+X_2}{2}\) é um estimator para \(p\).

A esperança de \(\hat{p}\) é dada por: \[E(\hat{p})=\frac{E(X_1+X_2)}{2}=\frac{E(X_1)+E(X_2)}{2}=\frac{p+p}{2}=p.\]

  • Note que a esperança do estimador \(\hat{p}\) é igual ao parâmetro \(p\).

  • Isso confere ao estimador \(\hat{p}\) uma importante propriedade.

  • Uma vez que, obtendo-se várias amostras aleatórias de mesmo tamanho,

  • a média desses valores deverá estar próxima do valor verdadeiro do parâmetro a ser estimado.

Precisão do estimador

  • Além da esperança, pode ser calculada a variância dos estimadores apresentados anteriormente.

  • Na prática, é desejado que o estimador utilizado seja aquele com menor variância.

  • Pode ser mostrado que os estimadores apresentados anteriormente são os de menor variância para estimar os parâmetros considerados.

  • O máximo que pode ocorrer é existir estimadores com variância igual as que apresentam esses estimadores, mas nunca maior.

  • Portanto, estes estimadores são os melhores, para estimar os respectivos parâmetros.

A média amostral \(\overline{X}=\frac{\sum_{i=1}^{n}X_i}{n}\) tem a menor (ou igual) variância entre aqueles estimadores usados para estimar a média populacional:

  • \(\mathbb{Var}(\overline{X})= \frac{\sigma^2}{n}\)

A variância amostral \(S^2=\frac{\sum_{i=1}^{n}(X_i-\overline{X})}{n-1}\) tem a menor (ou igual) variância entre aqueles usados para estimar a variânacia populacional:

  • \(\mathbb{Var}(S^2)=\frac{2\sigma^4}{n-1}\).

A proporção amostral \(\hat{P}=\frac{Y}{n}\), com \(Y=\sum_{i=1}^{n}X_i\), definida a partir de \(n\) ensaios independentes de Bernoulli, tem a menor (ou igual) variância entre aqueles usados para estimar a proporção populacional:

  • \(\mathbb{Var}(\hat{P})=\frac{p(1-p)}{n}.\)

Distribuição Amostral da Média

Teorema do Limite Central (TLC)

  • Em uma amostra aleatória simples de tamanho \(n\), \({\bf X}=(X_1,X_2,\cdots,X_n)\), de uma população qualquer, representada por \(X\), com média \(\mu\) e variância \(\sigma^2\),

  • a distribuição de \(\overline{X}\) é aproximadamente normal com média \(\mu\) e variância \(\frac{\sigma^2}{n}\),

  • ou seja,

    \[\mbox{se } n \rightarrow \infty \mbox{ então } \overline{X} \rightarrow N(\mu,\frac{\sigma^2}{n}),\]

em que \(N(\mu,\frac{\sigma^2}{n})\) representa a distribuição normal de média \(\mu\) e variância \(\frac{\sigma^2}{n}\).

  • Neste resultado, se incluirmos a suposição de que X tem distribuição normal, ou seja,

    \[X \sim N(\mu,\sigma^2), \]

  • Então a distribuição de \(\overline{X}\) é exatamente normal, ou seja

    \[\overline{X} \sim N\left( \mu,\frac{\sigma^2}{n}\right).\]

Obs: reveja o Exemplo visto no início do tópico, sobre volumes de garrafas com água.

Exemplo

  • Suponha uma população de plantas, cujas alturas são medidas em metros.

  • Os dados de alturas para toda a população são mostrados na tabela.

  • Caso se queira estimar essa média usando uma amostra, deve-se extrair uma amostra aleatória.

  • É possível que se tenha uma boa estimativa a partir de uma amostra de qual tamanho?

4.43 3.24 3.79 3.78 3.91 3.92 4.98 4.19 4.42 6.00
7.47 4.21 3.64 5.09 3.89 4.68 5.12 4.20 5.04 5.09
5.82 2.65 4.65 4.00 3.01 1.83 1.16 4.54 2.91 4.22
4.01 3.73 4.84 4.03 3.58 3.13 4.14 5.28 2.89 4.53
4.29 4.28 4.86 2.71 2.99 3.31 5.21 4.27 4.16 3.82
  • Vamos simular a extração de amostras aleatórias a partir desta população, e verificar a média amostral.

Histograma real da população e de uma amostra

População

## [1] 4.1188

Amostra

## [1] 4.03

Histograma real da população

População

## [1] 4.1188

Agora, serão selecionadas várias amostras e será analisado o comportamento das médias.

Simulação de amostras de vários tamanhos

Exemplo

Um elevador tem seu funcionamento bloqueado se sua carga for superior a 450 kg. Sabe-se que o peso de um adulto é uma variável aleatória com distribuição normal, sendo a média igual a 65 kg e o desvio igual a 15 kg.
  1. Qual a probabilidade de ocorrer o bloqueio numa tentativa de transportar 7 adultos?
  2. Encontre um intervalo que contenha 90% das médias amostrais, quando são realizadas tentativas de transportar 7 pessoas no elevador.

Fim