Hva er den sentrale grense setningen?

Hva er den sentrale grense setningen?
Anonim

Svar:

Den sentrale grense teorem gjør den intuitive ideen om at estimater av gjennomsnittet (estimert fra noen prøve) av noen måling assosiert med noen befolkning, forbedres etter hvert som størrelsen på prøven øker.

Forklaring:

Tenk deg en skog som inneholder 100 trær.

Forestill deg nå at (ganske urealistisk) at målt i meter, en fjerdedel av dem har en høyde på 2, en fjerdedel av dem har en høyde på 3, en fjerdedel av dem har en høyde på 4, og en fjerdedel av dem har en høyde på 5.

Tenk deg å måle høyden til hvert tre i skogen og bruke informasjonen til å bygge et histogram med passende utvalgte binstørrelser (f.eks. 1,5 til 2,5, 2,5 til 3,5, 3,5 til 4,5 og 5,5 til 6,5, jeg skjønner at jeg ikke har spesifisert kassen som grensene tilhører, men det spiller ingen rolle her).

Du kan bruke histogrammet til å estimere sannsynlighetsfordelingen av trærne. Klart, det ville ikke være en vanlig en.Faktisk ville det være en ensartet å gi endepunktene riktig valgt, fordi det ville være like mange trær som tilsvarer en av de angitte høyder i hver bin.

Forestill deg nå å gå inn i skogen og måle høyden på bare to trær; Beregn gjennomsnittlig høyde på disse to trærne og noter det. Gjenta denne operasjonen flere ganger, slik at du vil ha en samling av middelverdiene for prøver av størrelse 2. Hvis du skulle plotte et histogram av estimatene av gjennomsnittet, ville det ikke lenger være ensartet. I stedet er det sannsynlig at det ville være flere målinger (estimater av gjennomsnittet basert på prøver av størrelse 2) nær den totale gjennomsnittlige høyden av alle trærne i skogen (i dette spesielle tilfellet,

#(2 + 3 + 4 + 5)/4 = 3.5# meter).

Som det ville være mer estimater av gjennomsnittet nær sant populasjonsmiddel (som er kjent i dette urealistiske eksempelet), enn langt fra det gjennomsnittlige, ville formen på dette nye histogrammet være nærmere en normal fordeling (med en topp nær gjennomsnittet).

Forestill deg nå å gå inn i skogen og gjenta øvelsen, bortsett fra at du måler høyden på tre trær, beregner gjennomsnittet i hvert tilfelle og noterer det. Histogrammet du ville konstruere ville ha enda flere estimater av gjennomsnittet nær det sanne middelet, med mindre spredning (muligheten til å plukke tre trær i en enkelt prøve slik at de alle kommer fra en av sluttgruppene --- enten veldig høy eller veldig kort --- er mindre enn å velge tre trær med et utvalg av høyder). Formen på ditt histogram som omfatter et estimat av gjennomsnittlig størrelse (hvert middel basert på tre målinger) vil være nærmere det for en normal fordeling, og tilsvarende standardavvik (av estimatene til gjennomsnittet, ikke for foreldrepopulasjonen) ville være mindre.

Gjenta dette for 4, 5, 6, etc, trær per gjennomsnitt, og det histogrammet du vil konstruere, ser mer og mer ut som en normal fordeling (med stadig større utvalgsstørrelser), med gjennomsnittet av distribusjon av de estimater av gjennomsnittet å være nærmere det sanne midlet, og standardavviket i estimatene til middelet blir smalere og smalere.

Hvis du gjentar øvelsen for det (degenererte) tilfellet der alle trærne måles (ved flere anledninger, noter meg gjennomsnittet i alle tilfeller), vil histogrammet ha estimater av gjennomsnittet bare i en av hyllene (den som tilsvarer det sanne gjennomsnittet), uten noen variasjon slik at standardavviket fra (sannsynlighetsfordelingen estimert fra) at "histogrammet" ville være null.

Så det sentrale grense teorem bemerker at gjennomsnittet av noen estimat av gjennomsnittet av noen befolkning nærmer seg den sanne middelverdien, og standardavviket i estimatet av gjennomsnittet (i stedet for standardavviket for fordeling av foreldrepopulasjonen) blir gradvis mindre for større utvalgsstørrelser.