Bevezetés
Mi az egyik legfontosabb és legfontosabb fogalom statisztikák, amelyek lehetővé teszik számunkra a prediktív modellezést, és mégis gyakran összezavarja a törekvő adatkutatókat? Igen, a központi határtételről beszélek.
Ez egy erőteljes statisztikai koncepció, amelyet minden adatkutatónak ismernie kell. Most miért van ez?
Nos, a központi határtétel (CLT) áll a hipotézisek tesztelésének középpontjában – ez az adattudomány életciklusának kritikus eleme. Így van, az az ötlet, amely lehetővé teszi számunkra a kapott adatok hatalmas lehetőségeinek feltárását, a CLT-től származik. Valójában egyszerű fogalom, hogy megértsük, ennek ellenére a legtöbb tudós az interjúk során erre a kérdésre ront.
Megértjük a koncepciót cikk (CLT) ebben a cikkben. Meglátjuk, miért fontos, hol használják, majd megtanuljuk, hogyan kell alkalmazni az R-ben.
Javasoljuk, hogy olvassa el az alábbi cikket, ha gyors frissítést igényel a terjesztésről és annak különféle típusairól:
- 6 Gyakori valószínűségeloszlás, amelyet minden adattudományi szakembernek tudnia kell
Tartalomjegyzék
- Mi a központi határtétel (CLT) )?
- A központi határtétel jelentősége
- Statisztikai jelentősége
- Gyakorlati alkalmazások
- Feltételezések a Központi korlát tétel
- A központi határ tétel végrehajtása az R
Mi a központi határ tétel (CLT)?
Értsük meg a központi határt tétel egy példa segítségével. Ez segít intuitívan megérteni, hogyan működik a CLT alatta.
Fontolja meg, hogy az egyetem természettudományi tanszékén 15 szekció van, és mindegyik szakasz körülbelül 100 hallgatót fogad. Feladatunk a természettudományi osztály hallgatóinak átlagos súlyának kiszámítása. Egyszerűen hangzik, igaz?
Az a módszer, amelyet a törekvő adatkutatóktól kapok, az, hogy egyszerűen kiszámítja az átlagot:
- Először mérje meg a természettudományi osztály összes hallgatójának súlyát
- Adja hozzá az összes súlyt
- Végül ossza el a súlyok teljes összegét a hallgatók teljes számával, hogy megkapja az átlagot
De mi van, ha az adatok mérete humongous? Van-e értelme ennek a megközelítésnek? Nem igazán – az összes diák súlyának mérése nagyon fárasztó és hosszú folyamat lesz. Tehát mit tehetünk helyette? Nézzünk egy alternatív megközelítést.
- Először rajzoljon véletlenszerűen diákcsoportokat az osztályból. Ezt nevezzük mintának. Több mintát rajzolunk, mindegyik 30 tanulóból áll.
Forrás: http://www.123rf.com
- Számítsa ki a minták átlagát
- Számítsa ki a minták átlagának átlagát
- Ez az érték megadja a természettudományi tanszék hallgatóinak hozzávetőleges átlagsúlyát
- Ezenkívül a minták átlagos diákjainak hisztogramja haranggörbére (vagy normális eloszlásra) hasonlít.
Dióhéjban erről szól a központi határtétel. Ha videókon keresztül veszed a tanulásodat, nézd meg a központi korláttétel alábbi bevezetőjét. Ez része a “Bevezetés az adattudományba” kurzus átfogó statisztikai moduljának:
A központi határtétel formális meghatározása
Tegyünk hivatalos meghatározást a CLT-re:
Adott ismeretlen eloszlású (lehet egységes, binomiális vagy teljesen véletlenszerű) adatkészlet esetén a minta átlagai közelítik a normális eloszlást.
Ezeknek a mintáknak elegendőnek kell lenniük. Az ismételt mintavétel alapján kiszámított minták átlagának megoszlása a normálissá válik, mivel a minták mérete nagyobb lesz.
Forrás: corporatefinanceinstitute.com
A központi limit tétel sok területen sokféle alkalmazással rendelkezik. Nézzük meg őket a következő szakaszban.
A központi határtétel jelentősége
A központi határtételnek mind statisztikai jelentősége, mind gyakorlati alkalmazása van . Nem ez az édes pont, amelyre törekszünk, amikor új koncepciót tanulunk?
Mindkét szempontot megvizsgáljuk, hogy felmérjük, hol használhatjuk őket.
Statisztikai jelentőség a CLT
Forrás: http://srjcstaff.santarosa.edu
- Az adatok elemzése olyan statisztikai módszereket foglal magában, mint a hipotézisek tesztelése és a konfidencia intervallumok felépítése. Ezek a módszerek azt feltételezik, hogy a populáció normális eloszlású.Ismeretlen vagy nem normális eloszlás esetén a mintavételi eloszlást normálnak tekintjük a központi határtétel szerint
- Ha növeljük a populációból vett mintákat, a mintaátlagok szórása csökken. Ez segít sokkal pontosabban megbecsülni a populáció átlagát
- Emellett a minta átlaga felhasználható a konfidencia intervallum néven ismert értéktartomány létrehozására (amely valószínűleg a populáció átlagából áll)
A CLT gyakorlati alkalmazásai
Forrás: projektek .fivethirtyeight.com
- A politikai / választási közvélemény-kutatások a CLT legfontosabb alkalmazásai. Ezek a közvélemény-kutatások becsülik azoknak az embereknek a százalékos arányát, akik támogatják az adott jelöltet. Lehet, hogy látta ezeket az eredményeket a hírcsatornákon, amelyek bizalmi időközönként érkeznek. A központi határtétel segít kiszámítani, hogy
- a CLT alkalmazásával a konfidenciaintervallumot használják egy adott régió átlagos családi jövedelmének kiszámításához.
A központi határtétel számos alkalmazás különböző területeken. Eszedbe jutna további példák? Tudassa velem a cikk alatti megjegyzés rovatban – ide sorolom őket.
Feltételezések a központi határtétel mögött
Mielőtt belevágnánk a központi határtétel megvalósításába, fontos, hogy megértsük a technika mögött álló feltételezéseket:
- Az adatoknak követniük kell a randomizálási feltételt. Véletlenszerűen kell mintát venni
- A mintáknak függetlennek kell lenniük egymástól. Az egyik minta nem befolyásolhatja a többi mintát
- A minta nagysága nem haladhatja meg a populáció 10% -át, ha a mintavételt pótlás nélkül végzik
- A minta méretének kellően nagynak kell lennie. Most hogyan fogjuk kitalálni, hogy mekkora legyen ez a méret? Nos, ez a lakosságtól függ. Ha a populáció ferde vagy aszimmetrikus, akkor a minta nagyságának nagynak kell lennie. Ha a populáció szimmetrikus, akkor kis mintákat is vonhatunk.
Általában a 30-as minta nagysága elegendőnek tekinthető, ha a populáció szimmetrikus.
A minta átlagának átlagát a következővel jelöljük:
µ X̄ = µ
ahol,
- µ X̄ = A minta átlagának átlaga
- µ = Népességi átlag
És a minta átlag szórását a következőképpen jelöljük:
σ X̄ = σ / sqrt (n)
ahol,
- σ X̄ = A minta átlag szórása
- σ = Népesség szórása
- n = minta mérete
És ez a központi határtétel mögött álló koncepció. Ideje feltölteni az RStudio-t, és belemerülni a CLT megvalósításába!
A központi határtétel megvalósítása az R-ben
Izgatottan várjuk, hogy miként tudjuk kódolni a központi határtételt R-ben? Akkor ássuk be.
A probléma ismertetése
Egy csőgyártó szervezet különböző típusú csöveket gyárt. Megkapjuk bizonyos típusú csövek falvastagságának havi adatait. Itt töltheti le az adatokat.
A szervezet hipotézisteszteléssel és megbízhatósági intervallumok összeállításával elemezni kívánja az adatokat néhány stratégia megvalósításához a jövőben. A kihívás az, hogy az adatok elosztása nem normális.
Megjegyzés: Ez az elemzés néhány feltételezésen alapul, és az egyik az, hogy az adatokat normálisan kell elosztani.
Megoldás Módszertan
A központi határtétel segít megkerülni ezen adatok problémáját, ahol a populáció nem normális. Ezért az adott adathalmazon a központi határtételt lépésről lépésre fogjuk szimulálni. Tehát kezdjük.
Importálja és érvényesítse a CSV-adatkészletet
Először importálja a CSV-fájlt R-be, majd ellenőrizze az adatok helyességét:
Kimenet:
#Count of Rows and columns9000 1#View top 10 rows of the dataset Wall.Thickness1 12.354872 12.617423 12.369724 13.223355 13.159196 12.675497 12.361318 12.444689 12.6297710 12.90381#View last 10 rows of the dataset Wall.Thickness8991 12.654448992 12.807448993 12.932958994 12.332718995 12.438568996 12.995328997 13.060038998 12.795008999 12.777429000 13.01416
Ezután számítsa ki a populáció átlagát, és ábrázolja az adatok összes megfigyelését:
Kimenet:
#Calculate the population mean 12.80205
Lásd a pirosat függőleges vonal fent? Ez a népesség jelenti. A fenti cselekményből is láthatjuk, hogy a népesség száma nem normális, igaz? Ezért elegendő, különböző méretű mintát kell vonnunk, és ki kell számolni azok átlagát (mint minta átlag). Ezután ábrázoljuk ezeket a mintaeszközöket, hogy normális eloszlást kapjunk.
Példánkban elegendő 10-es mintát veszünk, kiszámoljuk az átlagukat és R-ben ábrázoljuk őket. Tudom, hogy a minimális mintaméret 30-nak kell lennie, de nézzük csak meg, mi történik, ha húzzunk 10-et:
Most, tudjuk, hogy a minta méretének növekedésével nagyon szép harang alakú görbét kapunk. Növeljük most a minta méretét, és nézzük meg, mit kapunk:
Itt kapunk jó harang alakú görbe és a mintavételi eloszlás megközelíti a normális eloszlást, amikor a minta mérete növekszik.Ezért a mintavételi eloszlásokat normálisnak tekinthetjük, és a csőgyártó szervezet ezeket az eloszlásokat felhasználhatja további elemzésekhez.
Játszhatsz úgy is, hogy különböző mintaméreteket veszel, és más mintát rajzolsz. Mondja meg, hogyan működik Önnek!
Végjegyzetek
A központi határtétel a statisztikában és következésképpen az adattudományban is nagyon fontos fogalom. Nem tudom eléggé hangsúlyozni, mennyire kritikus az, hogy a statisztikai ismereteidet tovább fejleszti, mielőtt belekezdenél az adattudományba, vagy akár egy adattudományi interjúra ülnél.
Javaslom az Adatbevezetés kurzus elvégzését – ez egy átfogó áttekintés a statisztikákról az adattudomány bevezetése előtt.