statisztikában az adattudomány számára: Bevezetés a központi határ tételbe (megvalósítással R-ben)

Bevezetés

Mi az egyik legfontosabb és legfontosabb fogalom statisztikák, amelyek lehetővé teszik számunkra a prediktív modellezést, és mégis gyakran összezavarja a törekvő adatkutatókat? Igen, a központi határtételről beszélek.

Ez egy erőteljes statisztikai koncepció, amelyet minden adatkutatónak ismernie kell. Most miért van ez?

Nos, a központi határtétel (CLT) áll a hipotézisek tesztelésének középpontjában – ez az adattudomány életciklusának kritikus eleme. Így van, az az ötlet, amely lehetővé teszi számunkra a kapott adatok hatalmas lehetőségeinek feltárását, a CLT-től származik. Valójában egyszerű fogalom, hogy megértsük, ennek ellenére a legtöbb tudós az interjúk során erre a kérdésre ront.

Megértjük a koncepciót cikk (CLT) ebben a cikkben. Meglátjuk, miért fontos, hol használják, majd megtanuljuk, hogyan kell alkalmazni az R-ben.

Javasoljuk, hogy olvassa el az alábbi cikket, ha gyors frissítést igényel a terjesztésről és annak különféle típusairól:

  • 6 Gyakori valószínűségeloszlás, amelyet minden adattudományi szakembernek tudnia kell

Tartalomjegyzék

  1. Mi a központi határtétel (CLT) )?
  2. A központi határtétel jelentősége
    • Statisztikai jelentősége
    • Gyakorlati alkalmazások
  3. Feltételezések a Központi korlát tétel
  4. A központi határ tétel végrehajtása az R

Mi a központi határ tétel (CLT)?

Értsük meg a központi határt tétel egy példa segítségével. Ez segít intuitívan megérteni, hogyan működik a CLT alatta.

Fontolja meg, hogy az egyetem természettudományi tanszékén 15 szekció van, és mindegyik szakasz körülbelül 100 hallgatót fogad. Feladatunk a természettudományi osztály hallgatóinak átlagos súlyának kiszámítása. Egyszerűen hangzik, igaz?

Az a módszer, amelyet a törekvő adatkutatóktól kapok, az, hogy egyszerűen kiszámítja az átlagot:

  • Először mérje meg a természettudományi osztály összes hallgatójának súlyát
  • Adja hozzá az összes súlyt
  • Végül ossza el a súlyok teljes összegét a hallgatók teljes számával, hogy megkapja az átlagot

De mi van, ha az adatok mérete humongous? Van-e értelme ennek a megközelítésnek? Nem igazán – az összes diák súlyának mérése nagyon fárasztó és hosszú folyamat lesz. Tehát mit tehetünk helyette? Nézzünk egy alternatív megközelítést.

  • Először rajzoljon véletlenszerűen diákcsoportokat az osztályból. Ezt nevezzük mintának. Több mintát rajzolunk, mindegyik 30 tanulóból áll.

Forrás: http://www.123rf.com

  • Számítsa ki a minták átlagát
  • Számítsa ki a minták átlagának átlagát
  • Ez az érték megadja a természettudományi tanszék hallgatóinak hozzávetőleges átlagsúlyát
  • Ezenkívül a minták átlagos diákjainak hisztogramja haranggörbére (vagy normális eloszlásra) hasonlít.

Dióhéjban erről szól a központi határtétel. Ha videókon keresztül veszed a tanulásodat, nézd meg a központi korláttétel alábbi bevezetőjét. Ez része a “Bevezetés az adattudományba” kurzus átfogó statisztikai moduljának:

A központi határtétel formális meghatározása

Tegyünk hivatalos meghatározást a CLT-re:

Adott ismeretlen eloszlású (lehet egységes, binomiális vagy teljesen véletlenszerű) adatkészlet esetén a minta átlagai közelítik a normális eloszlást.

Ezeknek a mintáknak elegendőnek kell lenniük. Az ismételt mintavétel alapján kiszámított minták átlagának megoszlása a normálissá válik, mivel a minták mérete nagyobb lesz.

Forrás: corporatefinanceinstitute.com

A központi limit tétel sok területen sokféle alkalmazással rendelkezik. Nézzük meg őket a következő szakaszban.

A központi határtétel jelentősége

A központi határtételnek mind statisztikai jelentősége, mind gyakorlati alkalmazása van . Nem ez az édes pont, amelyre törekszünk, amikor új koncepciót tanulunk?

Mindkét szempontot megvizsgáljuk, hogy felmérjük, hol használhatjuk őket.

Statisztikai jelentőség a CLT

Forrás: http://srjcstaff.santarosa.edu

  • Az adatok elemzése olyan statisztikai módszereket foglal magában, mint a hipotézisek tesztelése és a konfidencia intervallumok felépítése. Ezek a módszerek azt feltételezik, hogy a populáció normális eloszlású.Ismeretlen vagy nem normális eloszlás esetén a mintavételi eloszlást normálnak tekintjük a központi határtétel szerint
  • Ha növeljük a populációból vett mintákat, a mintaátlagok szórása csökken. Ez segít sokkal pontosabban megbecsülni a populáció átlagát
  • Emellett a minta átlaga felhasználható a konfidencia intervallum néven ismert értéktartomány létrehozására (amely valószínűleg a populáció átlagából áll)

A CLT gyakorlati alkalmazásai

Forrás: projektek .fivethirtyeight.com

  • A politikai / választási közvélemény-kutatások a CLT legfontosabb alkalmazásai. Ezek a közvélemény-kutatások becsülik azoknak az embereknek a százalékos arányát, akik támogatják az adott jelöltet. Lehet, hogy látta ezeket az eredményeket a hírcsatornákon, amelyek bizalmi időközönként érkeznek. A központi határtétel segít kiszámítani, hogy
  • a CLT alkalmazásával a konfidenciaintervallumot használják egy adott régió átlagos családi jövedelmének kiszámításához.

A központi határtétel számos alkalmazás különböző területeken. Eszedbe jutna további példák? Tudassa velem a cikk alatti megjegyzés rovatban – ide sorolom őket.

Feltételezések a központi határtétel mögött

Mielőtt belevágnánk a központi határtétel megvalósításába, fontos, hogy megértsük a technika mögött álló feltételezéseket:

  1. Az adatoknak követniük kell a randomizálási feltételt. Véletlenszerűen kell mintát venni
  2. A mintáknak függetlennek kell lenniük egymástól. Az egyik minta nem befolyásolhatja a többi mintát
  3. A minta nagysága nem haladhatja meg a populáció 10% -át, ha a mintavételt pótlás nélkül végzik
  4. A minta méretének kellően nagynak kell lennie. Most hogyan fogjuk kitalálni, hogy mekkora legyen ez a méret? Nos, ez a lakosságtól függ. Ha a populáció ferde vagy aszimmetrikus, akkor a minta nagyságának nagynak kell lennie. Ha a populáció szimmetrikus, akkor kis mintákat is vonhatunk.

Általában a 30-as minta nagysága elegendőnek tekinthető, ha a populáció szimmetrikus.

A minta átlagának átlagát a következővel jelöljük:

µ X̄ = µ

ahol,

  • µ X̄ = A minta átlagának átlaga
  • µ = Népességi átlag

És a minta átlag szórását a következőképpen jelöljük:

σ X̄ = σ / sqrt (n)

ahol,

  • σ X̄ = A minta átlag szórása
  • σ = Népesség szórása
  • n = minta mérete

És ez a központi határtétel mögött álló koncepció. Ideje feltölteni az RStudio-t, és belemerülni a CLT megvalósításába!

A központi határtétel megvalósítása az R-ben

Izgatottan várjuk, hogy miként tudjuk kódolni a központi határtételt R-ben? Akkor ássuk be.

A probléma ismertetése

Egy csőgyártó szervezet különböző típusú csöveket gyárt. Megkapjuk bizonyos típusú csövek falvastagságának havi adatait. Itt töltheti le az adatokat.

A szervezet hipotézisteszteléssel és megbízhatósági intervallumok összeállításával elemezni kívánja az adatokat néhány stratégia megvalósításához a jövőben. A kihívás az, hogy az adatok elosztása nem normális.

Megjegyzés: Ez az elemzés néhány feltételezésen alapul, és az egyik az, hogy az adatokat normálisan kell elosztani.

Megoldás Módszertan

A központi határtétel segít megkerülni ezen adatok problémáját, ahol a populáció nem normális. Ezért az adott adathalmazon a központi határtételt lépésről lépésre fogjuk szimulálni. Tehát kezdjük.

Importálja és érvényesítse a CSV-adatkészletet

Először importálja a CSV-fájlt R-be, majd ellenőrizze az adatok helyességét:

Kimenet:

#Count of Rows and columns9000 1#View top 10 rows of the dataset Wall.Thickness1 12.354872 12.617423 12.369724 13.223355 13.159196 12.675497 12.361318 12.444689 12.6297710 12.90381#View last 10 rows of the dataset Wall.Thickness8991 12.654448992 12.807448993 12.932958994 12.332718995 12.438568996 12.995328997 13.060038998 12.795008999 12.777429000 13.01416

Ezután számítsa ki a populáció átlagát, és ábrázolja az adatok összes megfigyelését:

Kimenet:

#Calculate the population mean 12.80205

Lásd a pirosat függőleges vonal fent? Ez a népesség jelenti. A fenti cselekményből is láthatjuk, hogy a népesség száma nem normális, igaz? Ezért elegendő, különböző méretű mintát kell vonnunk, és ki kell számolni azok átlagát (mint minta átlag). Ezután ábrázoljuk ezeket a mintaeszközöket, hogy normális eloszlást kapjunk.

Példánkban elegendő 10-es mintát veszünk, kiszámoljuk az átlagukat és R-ben ábrázoljuk őket. Tudom, hogy a minimális mintaméret 30-nak kell lennie, de nézzük csak meg, mi történik, ha húzzunk 10-et:

Most, tudjuk, hogy a minta méretének növekedésével nagyon szép harang alakú görbét kapunk. Növeljük most a minta méretét, és nézzük meg, mit kapunk:

Itt kapunk jó harang alakú görbe és a mintavételi eloszlás megközelíti a normális eloszlást, amikor a minta mérete növekszik.Ezért a mintavételi eloszlásokat normálisnak tekinthetjük, és a csőgyártó szervezet ezeket az eloszlásokat felhasználhatja további elemzésekhez.

Játszhatsz úgy is, hogy különböző mintaméreteket veszel, és más mintát rajzolsz. Mondja meg, hogyan működik Önnek!

Végjegyzetek

A központi határtétel a statisztikában és következésképpen az adattudományban is nagyon fontos fogalom. Nem tudom eléggé hangsúlyozni, mennyire kritikus az, hogy a statisztikai ismereteidet tovább fejleszti, mielőtt belekezdenél az adattudományba, vagy akár egy adattudományi interjúra ülnél.

Javaslom az Adatbevezetés kurzus elvégzését – ez egy átfogó áttekintés a statisztikákról az adattudomány bevezetése előtt.

Write a Comment

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük