Estatística para Ciência de Dados: Introdução ao Teorema do Limite Central (com implementação em R)

Introdução

Qual é um dos conceitos mais importantes e centrais de estatísticas que nos permitem fazer modelagem preditiva, e ainda assim confunde aspirantes a cientistas de dados? Sim, estou falando sobre o teorema do limite central.

É um conceito estatístico poderoso que todo cientista de dados DEVE saber. Agora, por que isso?

Bem, o teorema do limite central (CLT) está no cerne do teste de hipótese – um componente crítico do ciclo de vida da ciência de dados. Isso mesmo, a ideia que nos permite explorar as vastas possibilidades dos dados que recebemos vem do CLT. Na verdade, é uma noção simples de entender, mas a maioria dos cientistas de dados tropeça nessa questão durante as entrevistas.

Nós entenderemos o conceito do Teorema do Limite Central (CLT) neste artigo. Veremos por que é importante, onde é usado e, em seguida, aprenderemos como aplicá-lo em R.

Recomendo ler o artigo abaixo se você precisar de uma atualização rápida sobre a distribuição e seus vários tipos:

  • 6 Distribuições de probabilidade comuns que todo profissional de ciência de dados deve saber

Índice

  1. O que é o Teorema do Limite Central (CLT )?
  2. Significância do teorema do limite central
    • Significância estatística
    • Aplicações práticas
  3. Suposições por trás do Teorema do Limite Central
  4. Implementando o Teorema do Limite Central em R

O que é Teorema do Limite Central (CLT)?

Vamos entender o limite central teorema com a ajuda de um exemplo. Isso o ajudará a compreender intuitivamente como o CLT funciona por baixo.

Considere que há 15 seções no departamento de ciências de uma universidade e cada seção hospeda cerca de 100 alunos. Nossa tarefa é calcular o peso médio dos alunos do departamento de ciências. Parece simples, certo?

A abordagem que recebo de aspirantes a cientistas de dados é simplesmente calcular a média:

  • Primeiro, meça os pesos de todos os alunos do departamento de ciências
  • Some todos os pesos
  • Finalmente, divida a soma total dos pesos com o número total de alunos para obter a média

Mas e se o tamanho dos dados é enorme? Essa abordagem faz sentido? Na verdade não – medir o peso de todos os alunos será um processo longo e cansativo. Então, o que podemos fazer? Vejamos uma abordagem alternativa.

  • Primeiro, tire grupos de alunos aleatoriamente da classe. Chamaremos isso de amostra. Faremos vários exemplos, cada um consistindo de 30 alunos.

Fonte: http://www.123rf.com

  • Calcular a média individual dessas amostras
  • Calcular a média dessas médias amostrais
  • Este valor nos dará o peso médio aproximado dos alunos no departamento de ciências
  • Além disso, o histograma dos pesos médios da amostra dos alunos será semelhante a uma curva de sino (ou distribuição normal)

Isso, em poucas palavras, é do que trata o teorema do limite central. Se você aprende por meio de vídeos, verifique a introdução abaixo ao teorema do limite central. Isso faz parte do módulo de estatística abrangente no curso ‘Introdução à Ciência de Dados’:

Definindo formalmente o teorema do limite central

Vamos colocar uma definição formal para CLT:

Dado um conjunto de dados com distribuição desconhecida (pode ser uniforme, binomial ou completamente aleatório), as médias da amostra se aproximarão da distribuição normal.

Essas amostras devem ter tamanho suficiente. A distribuição das médias da amostra, calculada a partir da amostragem repetida, tenderá à normalidade conforme o tamanho das suas amostras aumenta.

Fonte: corporatefinanceinstitute.com

O teorema do limite central tem uma ampla variedade de aplicações em muitos campos. Vamos examiná-los na próxima seção.

Significância do teorema do limite central

O teorema do limite central tem significância estatística e também aplicações práticas . Não é esse o ponto ideal que buscamos quando estamos aprendendo um novo conceito?

Veremos ambos os aspectos para avaliar onde podemos usá-los.

Significância estatística de CLT

Fonte: http://srjcstaff.santarosa.edu

  • A análise de dados envolve métodos estatísticos como teste de hipóteses e construção de intervalos de confiança. Esses métodos assumem que a população está normalmente distribuída.No caso de distribuições desconhecidas ou não normais, tratamos a distribuição amostral como normal de acordo com o teorema do limite central
  • Se aumentarmos as amostras retiradas da população, o desvio padrão das médias amostrais diminuirá. Isso nos ajuda a estimar a média da população com muito mais precisão
  • Além disso, a média da amostra pode ser usada para criar o intervalo de valores conhecido como intervalo de confiança (que provavelmente consiste na média da população)

Aplicações práticas de CLT

Fonte: projetos .fivethirtyeight.com

  • As pesquisas políticas / eleitorais são os principais aplicativos CLT. Essas pesquisas estimam a porcentagem de pessoas que apóiam um determinado candidato. Você deve ter visto esses resultados em canais de notícias que vêm com intervalos de confiança. O teorema do limite central ajuda a calcular que
  • o intervalo de confiança, uma aplicação do CLT, é usado para calcular a renda familiar média para uma região particular

O teorema do limite central tem muitas aplicações em diferentes campos. Você pode pensar em mais exemplos? Deixe-me saber na seção de comentários abaixo do artigo – irei incluí-los aqui.

Suposições por trás do teorema do limite central

Antes de mergulharmos na implementação do teorema do limite central, é importante entender os pressupostos por trás desta técnica:

  1. Os dados devem seguir a condição de randomização. Deve ser amostrado aleatoriamente
  2. As amostras devem ser independentes umas das outras. Uma amostra não deve influenciar as outras amostras
  3. O tamanho da amostra não deve ser superior a 10% da população quando a amostragem é feita sem reposição
  4. O tamanho da amostra deve ser suficientemente grande. Agora, como vamos descobrir o quão grande esse tamanho deve ser? Bem, isso depende da população. Quando a população é distorcida ou assimétrica, o tamanho da amostra deve ser grande. Se a população for simétrica, também podemos extrair pequenas amostras

Em geral, um tamanho de amostra de 30 é considerado suficiente quando a população é simétrica.

O a média das médias da amostra é denotada como:

µ X̄ = µ

onde,

  • µ X̄ = Média das médias da amostra
  • µ = Média da população

E, o desvio padrão da média da amostra é indicado como:

σ X̄ = σ / sqrt (n)

onde,

  • σ X̄ = desvio padrão da média da amostra
  • σ = Desvio padrão da população
  • n = tamanho da amostra

E é isso para o conceito por trás do teorema do limite central. É hora de iniciar o RStudio e mergulhar na implementação do CLT!

Implementando o Teorema do Limite Central em R

Animado para ver como podemos codificar o teorema do limite central em R? Vamos aprofundar então.

Compreendendo a declaração do problema

Uma organização de fabricação de tubos produz diferentes tipos de tubos. Recebemos os dados mensais da espessura da parede de certos tipos de tubos. Você pode baixar os dados aqui.

A organização deseja analisar os dados realizando testes de hipóteses e construindo intervalos de confiança para implementar algumas estratégias no futuro. O desafio é que a distribuição dos dados não é normal.

Nota: Esta análise trabalha com algumas suposições e uma delas é que os dados devem ser normalmente distribuídos.

Solução Metodologia

O teorema do limite central nos ajudará a contornar o problema desses dados em que a população não é normal. Portanto, vamos simular o teorema do limite central no conjunto de dados fornecido em R passo a passo. Então, vamos começar.

Importe o conjunto de dados CSV e valide-o

Primeiro, importe o arquivo CSV em R e, em seguida, valide os dados quanto à exatidão:

Resultado:

#Count of Rows and columns9000 1#View top 10 rows of the dataset Wall.Thickness1 12.354872 12.617423 12.369724 13.223355 13.159196 12.675497 12.361318 12.444689 12.6297710 12.90381#View last 10 rows of the dataset Wall.Thickness8991 12.654448992 12.807448993 12.932958994 12.332718995 12.438568996 12.995328997 13.060038998 12.795008999 12.777429000 13.01416

Em seguida, calcule a média da população e plote todas as observações dos dados:

Resultado:

#Calculate the population mean 12.80205

Veja o vermelho linha vertical acima? Essa é a média da população. Também podemos ver no gráfico acima que a população não é normal, certo? Portanto, precisamos extrair amostras suficientes de tamanhos diferentes e calcular suas médias (conhecidas como médias de amostra). Em seguida, plotaremos essas médias amostrais para obter uma distribuição normal.

Em nosso exemplo, desenharemos amostras suficientes de tamanho 10, calcularemos suas médias e as representamos em R. Eu sei que o tamanho mínimo da amostra tomadas devem ser 30, mas vamos ver o que acontece quando tiramos 10:

Agora, sabemos que obteremos uma bela curva em forma de sino à medida que o tamanho das amostras aumentar. Vamos agora aumentar nosso tamanho de amostra e ver o que obtemos:

Aqui, nós temos uma boa curva em forma de sino e a distribuição de amostragem aproximam-se da distribuição normal conforme o tamanho da amostra aumenta.Portanto, podemos considerar as distribuições de amostragem normais e a organização de fabricação de tubos pode usar essas distribuições para análises posteriores.

Você também pode brincar pegando tamanhos de amostra diferentes e tirando um número diferente de amostras. Deixe-me saber como funciona para você!

Notas finais

O teorema do limite central é um conceito bastante importante em estatística e, conseqüentemente, em ciência de dados. Não posso deixar de enfatizar o quão crítico é que você atualize seus conhecimentos de estatística antes de entrar na ciência de dados ou até mesmo sentar para uma entrevista de ciência de dados.

Eu recomendo fazer o curso de introdução à ciência de dados – é um uma visão abrangente das estatísticas antes de introduzir a ciência de dados.

Write a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *