Estadísticas para la ciencia de datos: Introducción al teorema del límite central (con implementación en R)

Introducción

¿Cuál es uno de los conceptos centrales más importantes? de estadísticas que nos permite hacer modelos predictivos y, sin embargo, a menudo confunde a los aspirantes a científicos de datos? Sí, estoy hablando del teorema del límite central.

Es un concepto estadístico poderoso que todo científico de datos DEBE conocer. Ahora, ¿por qué?

Bueno, el teorema del límite central (CLT) está en el corazón de la prueba de hipótesis, un componente crítico del ciclo de vida de la ciencia de datos. Así es, la idea que nos permite explorar las vastas posibilidades de los datos que recibimos surge de CLT. En realidad, es una noción simple de entender, sin embargo, la mayoría de los científicos de datos fracasan con esta pregunta durante las entrevistas.

Comprenderemos el concepto del Teorema del límite central (CLT) en este artículo. Veremos por qué es importante, dónde se usa y luego aprenderemos cómo aplicarlo en R.

Recomiendo leer el artículo a continuación si necesita un repaso rápido sobre la distribución y sus diversos tipos:

  • 6 distribuciones de probabilidad comunes que todo profesional de la ciencia de datos debe conocer

Tabla de contenido

  1. ¿Qué es el teorema del límite central (CLT )?
  2. Importancia del teorema del límite central
    • Importancia estadística
    • Aplicaciones prácticas
  3. Supuestos detrás de Teorema del límite central
  4. Implementación del teorema del límite central en R

¿Qué es el teorema del límite central (CLT)?

Entendamos el límite central teorema con la ayuda de un ejemplo. Esto le ayudará a comprender intuitivamente cómo funciona CLT en el fondo.

Tenga en cuenta que hay 15 secciones en el departamento de ciencias de una universidad y cada sección alberga alrededor de 100 estudiantes. Nuestra tarea es calcular el peso promedio de los estudiantes en el departamento de ciencias. Suena simple, ¿verdad?

El enfoque que obtengo de los aspirantes a científicos de datos es simplemente calcular el promedio:

  • Primero, mida el peso de todos los estudiantes en el departamento de ciencias.
  • Sume todos los pesos
  • Finalmente, divida la suma total de pesos con el número total de estudiantes para obtener el promedio

Pero, ¿y si el tamaño de los datos es enorme? ¿Tiene sentido este enfoque? Realmente no, medir el peso de todos los estudiantes será un proceso largo y tedioso. Entonces, ¿qué podemos hacer en su lugar? Veamos un enfoque alternativo.

  • Primero, extraiga grupos de estudiantes al azar de la clase. A esto lo llamaremos una muestra. Dibujaremos varias muestras, cada una con 30 estudiantes.

Fuente: http://www.123rf.com

  • Calcule la media individual de estas muestras
  • Calcule la media de estas medias muestrales
  • Este valor nos dará el peso medio aproximado de los estudiantes en el departamento de ciencias
  • Además, el histograma de los pesos medios de la muestra de los estudiantes se asemejará a una curva de campana (o distribución normal)

Esto, en pocas palabras, es de lo que trata el teorema del límite central. Si lleva su aprendizaje a través de videos, consulte la siguiente introducción al teorema del límite central. Esto es parte del módulo completo de estadísticas en el curso ‘Introducción a la ciencia de datos’:

Definición formal del teorema del límite central

Pongamos una definición formal de CLT:

Dado un conjunto de datos con distribución desconocida (podría ser uniforme, binomial o completamente aleatorio), las medias de la muestra se aproximarán a la distribución normal.

Estas muestras deben tener un tamaño suficiente. La distribución de las medias muestrales, calculadas a partir de muestreos repetidos, tenderá a la normalidad a medida que el tamaño de las muestras aumente.

Fuente: corporatefinanceinstitute.com

El teorema del límite central tiene una amplia variedad de aplicaciones en muchos campos. Veámoslos en la siguiente sección.

Significado del teorema del límite central

El teorema del límite central tiene tanto significado estadístico como aplicaciones prácticas . ¿No es ese el punto óptimo al que aspiramos cuando aprendemos un nuevo concepto?

Analizaremos ambos aspectos para evaluar dónde podemos usarlos.

Importancia estadística de CLT

Fuente: http://srjcstaff.santarosa.edu

  • El análisis de datos implica métodos estadísticos como la prueba de hipótesis y la construcción de intervalos de confianza. Estos métodos asumen que la población está distribuida normalmente.En el caso de distribuciones desconocidas o anormales, tratamos la distribución muestral como normal de acuerdo con el teorema del límite central.
  • Si aumentamos las muestras extraídas de la población, la desviación estándar de las medias muestrales disminuirá. Esto nos ayuda a estimar la media de la población con mucha más precisión
  • Además, la media de la muestra se puede utilizar para crear el rango de valores conocido como intervalo de confianza (que probablemente consista en la media de la población)

Aplicaciones prácticas de CLT

Fuente: proyectos .fivethirtyeight.com

  • Las encuestas políticas / electorales son aplicaciones CLT principales. Estas encuestas estiman el porcentaje de personas que apoyan a un candidato en particular. Es posible que haya visto estos resultados en canales de noticias que vienen con intervalos de confianza. El teorema del límite central ayuda a calcular que
  • El intervalo de confianza, una aplicación de CLT, se utiliza para calcular el ingreso familiar medio para una región en particular

El teorema del límite central tiene muchas aplicaciones en diferentes campos. ¿Puedes pensar en más ejemplos? Házmelo saber en la sección de comentarios debajo del artículo; los incluiré aquí.

Supuestos detrás del teorema del límite central

Antes de sumergirnos en la implementación del teorema del límite central, es Es importante comprender las suposiciones detrás de esta técnica:

  1. Los datos deben seguir la condición de aleatorización. Debe tomarse una muestra aleatoria
  2. Las muestras deben ser independientes entre sí. Una muestra no debe influir en las otras muestras
  3. El tamaño de la muestra no debe ser más del 10% de la población cuando el muestreo se realiza sin reemplazo
  4. El tamaño de la muestra debe ser suficientemente grande. Ahora, ¿cómo averiguaremos qué tan grande debe ser este tamaño? Bueno, depende de la población. Cuando la población está sesgada o asimétrica, el tamaño de la muestra debe ser grande. Si la población es simétrica, también podemos extraer muestras pequeñas

En general, un tamaño de muestra de 30 se considera suficiente cuando la población es simétrica.

El la media de las medias de la muestra se indica como:

µ X̄ = µ

donde,

  • µ X̄ = Media de las medias de la muestra
  • µ = Media de la población

Y la desviación estándar de la media de la muestra se denota como:

σ X̄ = σ / sqrt (n)

donde,

  • σ X̄ = Desviación estándar de la media muestral
  • σ = Desviación estándar de la población
  • n = tamaño de la muestra

Y eso es todo para el concepto detrás del teorema del límite central. ¡Es hora de iniciar RStudio y profundizar en la implementación de CLT!

Implementar el teorema del límite central en R

Estoy emocionado de ver cómo podemos codificar el teorema del límite central en R? Entonces, profundicemos.

Comprensión del enunciado del problema

Una organización de fabricación de tuberías produce diferentes tipos de tuberías. Recibimos los datos mensuales del espesor de pared de ciertos tipos de tuberías. Puede descargar los datos aquí.

La organización desea analizar los datos realizando pruebas de hipótesis y construyendo intervalos de confianza para implementar algunas estrategias en el futuro. El desafío es que la distribución de los datos no es normal.

Nota: Este análisis funciona con algunas suposiciones y una de ellas es que los datos deberían distribuirse normalmente.

Solución Metodología

El teorema del límite central nos ayudará a solucionar el problema de estos datos donde la población no es normal. Por lo tanto, simularemos el teorema del límite central en el conjunto de datos dado en R paso a paso. Entonces, comencemos.

Importe el conjunto de datos CSV y valídelo

Primero, importe el archivo CSV en R y luego valide la exactitud de los datos:

Resultado:

#Count of Rows and columns9000 1#View top 10 rows of the dataset Wall.Thickness1 12.354872 12.617423 12.369724 13.223355 13.159196 12.675497 12.361318 12.444689 12.6297710 12.90381#View last 10 rows of the dataset Wall.Thickness8991 12.654448992 12.807448993 12.932958994 12.332718995 12.438568996 12.995328997 13.060038998 12.795008999 12.777429000 13.01416

A continuación, calcule la media de la población y grafique todas las observaciones de los datos:

Salida:

#Calculate the population mean 12.80205

Vea el rojo línea vertical arriba? Esa es la media de la población. También podemos ver en el gráfico anterior que la población no es normal, ¿verdad? Por lo tanto, necesitamos extraer suficientes muestras de diferentes tamaños y calcular sus medias (conocidas como medias muestrales). Luego trazaremos esas medias muestrales para obtener una distribución normal.

En nuestro ejemplo, sacaremos suficientes muestras de tamaño 10, calcularemos sus medias y las trazaremos en R. Sé que el tamaño mínimo de muestra tomado debería ser 30, pero veamos qué sucede cuando dibujamos 10:

Ahora, sabemos que obtendremos una curva en forma de campana muy agradable a medida que aumenten los tamaños de muestra. Aumentemos ahora nuestro tamaño de muestra y veamos qué obtenemos:

Aquí, obtenemos una buena curva en forma de campana y la distribución muestral se aproxima a la distribución normal a medida que aumenta el tamaño de la muestra.Por lo tanto, podemos considerar las distribuciones de muestreo como normales y la organización de fabricación de tuberías puede usar estas distribuciones para análisis adicionales.

También puede jugar tomando diferentes tamaños de muestra y extrayendo un número diferente de muestras. ¡Déjame saber cómo te funciona!

Notas finales

El teorema del límite central es un concepto bastante importante en estadística y, en consecuencia, en ciencia de datos. No puedo enfatizar lo suficiente en lo importante que es que repases tus conocimientos de estadística antes de comenzar con la ciencia de datos o incluso de asistir a una entrevista sobre ciencia de datos.

Recomiendo tomar el curso de Introducción a la ciencia de datos, es análisis exhaustivo de las estadísticas antes de introducir la ciencia de datos.

Write a Comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *