Statistici pentru știința datelor: Introducere în teorema limitei centrale (cu implementare în R)

Introducere

Care este unul dintre cele mai importante și esențiale concepte de statistici care ne permit să facem modelări predictive și totuși confundă adesea oamenii de știință care aspiră la date? Da, vorbesc despre teorema limitei centrale.

Este un concept statistic puternic pe care orice om de știință de date TREBUIE să îl cunoască. Acum, de ce este asta?

Ei bine, teorema limitei centrale (CLT) se află în centrul testării ipotezelor – o componentă critică a ciclului de viață al științei datelor. Așa este, ideea care ne permite să explorăm posibilitățile vaste ale datelor care ni se oferă provine din CLT. Este de fapt o noțiune simplă de înțeles, totuși majoritatea oamenilor de știință de date analizează această întrebare în timpul interviurilor.

Vom înțelege conceptul teoremei limitei centrale (CLT) din acest articol. Vom vedea de ce este important, unde este folosit și apoi vom afla cum să-l aplicăm în R.

Vă recomandăm să parcurgeți articolul de mai jos dacă aveți nevoie de o actualizare rapidă a distribuției și a diferitelor sale tipuri:

  • 6 distribuții comune de probabilitate pe care trebuie să le cunoască fiecare profesionist în știința datelor

Cuprins

  1. Ce este teorema limitei centrale (CLT) )?
  2. Semnificația teoremei limitei centrale
    • Semnificația statistică
    • Aplicații practice
  3. Ipoteze în spatele Teorema limitei centrale
  4. Implementarea teoremei limitei centrale în R

Ce este teorema limitei centrale (CLT)?

Să înțelegem limita centrală teorema cu ajutorul unui exemplu. Acest lucru vă va ajuta să înțelegeți în mod intuitiv modul în care funcționează CLT dedesubt.

Luați în considerare că există 15 secțiuni în departamentul științific al unei universități și fiecare secțiune găzduiește aproximativ 100 de studenți. Sarcina noastră este să calculăm greutatea medie a studenților din departamentul de științe. Sună simplu, nu-i așa?

Abordarea pe care o obțin de la oamenii de știință care aspiră la date este să calculez pur și simplu media:

  • Mai întâi, măsoară greutățile tuturor studenților din departamentul de științe
  • Adăugați toate greutățile
  • În cele din urmă, împărțiți suma totală a greutăților cu un număr total de studenți pentru a obține media

Dar dacă dimensiunea datelor este imensă? Are această abordare un sens? Nu chiar – măsurarea greutății tuturor elevilor va fi un proces foarte obositor și lung. Deci, ce putem face în schimb? Să ne uităm la o abordare alternativă.

  • Mai întâi, atrageți grupuri de elevi la întâmplare din clasă. Vom numi acest lucru un eșantion. Vom extrage mai multe eșantioane, fiecare format din 30 de studenți.

Sursă: http://www.123rf.com

  • Calculați media individuală a acestor probe
  • Calculați media acestor probe medii
  • Această valoare ne va oferi greutatea medie aproximativă a studenților din departamentul de științe
  • În plus, histograma eșantionului de greutăți medii ale studenților va semăna cu o curbă de clopot (sau distribuție normală)

În concluzie, este vorba despre teorema limitei centrale. Dacă vă învățați prin videoclipuri, consultați introducerea de mai jos a teoremei limitei centrale. Aceasta face parte din modulul cuprinzător de statistici din cursul „Introducere în știința datelor”:

Definirea formală a teoremei limitei centrale

Să punem o definiție formală pentru CLT:

Având în vedere un set de date cu distribuție necunoscută (ar putea fi uniform, binom sau complet aleatoriu), eșantionul va aproxima distribuția normală.

Aceste eșantioane ar trebui să aibă dimensiuni suficiente. Distribuția mijloacelor de eșantionare, calculate din eșantionarea repetată, va tinde spre normalitate pe măsură ce dimensiunea eșantioanelor dvs. devine mai mare.

Sursă: corporatefinanceinstitute.com

Teorema limitei centrale are o mare varietate de aplicații în multe domenii. Să le privim în secțiunea următoare.

Semnificația teoremei limitei centrale

Teorema limitei centrale are atât semnificație statistică, cât și aplicații practice. . Nu acesta este locul dulce pe care îl vizăm atunci când învățăm un nou concept?

Ne vom uita la ambele aspecte pentru a evalua unde le putem folosi.

Semnificația statistică din CLT

Sursă: http://srjcstaff.santarosa.edu

  • Analiza datelor implică metode statistice precum testarea ipotezelor și construirea intervalelor de încredere. Aceste metode presupun că populația este distribuită în mod normal.În cazul distribuțiilor necunoscute sau non-normale, tratăm distribuția eșantionării ca fiind normală conform teoremei limitei centrale
  • Dacă mărim eșantioanele extrase din populație, deviația standard a mijloacelor eșantionului va scădea. Acest lucru ne ajută să estimăm media populației mult mai precis
  • De asemenea, media eșantionului poate fi utilizată pentru a crea intervalul de valori cunoscut sub numele de interval de încredere (care este probabil să fie format din media populației)

Aplicații practice ale CLT

Sursă: proiecte .fivethirtyeight.com

  • Sondajele politice / electorale sunt aplicații principale ale CLT. Aceste sondaje estimează procentul de persoane care susțin un anumit candidat. Este posibil să fi văzut aceste rezultate pe canalele de știri care vin cu intervale de încredere. Teorema limitei centrale ajută la calcularea faptului că
  • Intervalul de încredere, o aplicație a CLT, este utilizat pentru a calcula venitul mediu al familiei pentru o anumită regiune

Teorema limitei centrale are multe aplicații în diferite domenii. Vă puteți gândi la mai multe exemple? Anunță-mă în secțiunea de comentarii de mai jos a articolului – le voi include aici.

Ipoteze în spatele teoremei limitei centrale

Înainte de a ne arunca cu capul în implementarea teoremei limitei centrale, este important pentru a înțelege ipotezele din spatele acestei tehnici:

  1. Datele trebuie să urmeze condiția de randomizare. Trebuie prelevat la întâmplare
  2. Probele trebuie să fie independente una de cealaltă. Un eșantion nu trebuie să influențeze celelalte eșantioane
  3. Dimensiunea eșantionului nu trebuie să depășească 10% din populație atunci când eșantionarea se face fără înlocuire
  4. Dimensiunea eșantionului trebuie să fie suficient de mare. Acum, cum ne vom da seama cât de mare ar trebui să fie această dimensiune? Ei bine, depinde de populație. Când populația este înclinată sau asimetrică, dimensiunea eșantionului ar trebui să fie mare. Dacă populația este simetrică, putem extrage și eșantioane mici.

În general, o dimensiune a eșantionului de 30 este considerată suficientă atunci când populația este simetrică.

media eșantionului înseamnă:

µ X̄ = µ

unde,

  • µ X̄ = Media eșantionului înseamnă
  • µ = Media populației

Și, abaterea standard a mediei eșantionului este notată ca:

σ X̄ = σ / sqrt (n)

unde,

  • σ X̄ = Abaterea standard a eșantionului mediu
  • σ = deviația standard a populației
  • n = dimensiunea eșantionului

Și asta este pentru conceptul din spatele teoremei limitei centrale. E timpul să aprindeți RStudio și să intrați în implementarea CLT!

Implementarea teoremei limitei centrale în R

Emoționat să vedem cum putem codifica teorema limitei centrale în R? Haideți să cercetăm atunci.

Înțelegerea declarației de problemă

O organizație de producție de țevi produce diferite tipuri de țevi. Ni se dau datele lunare despre grosimea peretelui anumitor tipuri de țevi. Puteți descărca datele aici.

Organizația dorește să analizeze datele efectuând testarea ipotezelor și construind intervale de încredere pentru a implementa unele strategii în viitor. Provocarea este că distribuția datelor nu este normală.

Notă: Această analiză funcționează pe câteva ipoteze și una dintre ele este că datele ar trebui distribuite în mod normal.

Soluție Metodologie

Teorema limită centrală ne va ajuta să rezolvăm problema acestor date acolo unde populația nu este normală. Prin urmare, vom simula teorema limitei centrale pe setul de date dat în R pas cu pas. Deci, să începem.

Importați setul de date CSV și validați-l

Mai întâi, importați fișierul CSV în R și apoi validați datele pentru corectitudine:

Ieșire:

#Count of Rows and columns9000 1#View top 10 rows of the dataset Wall.Thickness1 12.354872 12.617423 12.369724 13.223355 13.159196 12.675497 12.361318 12.444689 12.6297710 12.90381#View last 10 rows of the dataset Wall.Thickness8991 12.654448992 12.807448993 12.932958994 12.332718995 12.438568996 12.995328997 13.060038998 12.795008999 12.777429000 13.01416

Apoi, calculați media populației și trasați toate observațiile datelor:

Ieșire:

#Calculate the population mean 12.80205

Vedeți roșu linie verticală deasupra? Aceasta este populația medie. Putem vedea și din complotul de mai sus că populația nu este normală, nu? Prin urmare, trebuie să extragem suficiente eșantioane de diferite dimensiuni și să le calculăm mijloacele (cunoscute sub numele de eșantioane). Apoi vom trasa aceste mijloace de eșantionare pentru a obține o distribuție normală.

În exemplul nostru, vom extrage suficiente eșantioane de dimensiunea 10, le vom calcula media și le vom trasa în R. Știu că dimensiunea eșantionului minim luate ar trebui să fie 30, dar să vedem ce se întâmplă când desenăm 10:

Acum, știm că vom obține o curbă foarte frumoasă în formă de clopot pe măsură ce mărimile eșantionului cresc. Haideți acum să mărim dimensiunea eșantionului și să vedem ce obținem:

Iată o curbă bună în formă de clopot și distribuția eșantionării se apropie de distribuția normală pe măsură ce mărimile eșantionului cresc.Prin urmare, putem considera distribuțiile de eșantionare ca fiind normale, iar organizația producătoare de țevi poate utiliza aceste distribuții pentru analize ulterioare.

De asemenea, puteți juca luând diferite dimensiuni de eșantionare și extragând un număr diferit de eșantioane. Spuneți-mi cum funcționează pentru dvs.!

Note finale

Teorema limitei centrale este un concept destul de important în statistici și, în consecință, știința datelor. Nu pot să subliniez suficient cât de critic este să vă perfecționați cunoștințele statistice înainte de a intra în știința datelor sau chiar să stați la un interviu în domeniul științei datelor.

Vă recomand să urmați cursul Introducere în știința datelor – este un o privire cuprinzătoare asupra statisticilor înainte de a introduce știința datelor.

Write a Comment

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *