- MATH.APP.210
- 4. Todennäköisyysjakaumia
- 4.1 Empiirisen otoksen kuvailua
Empiirisen otoksen kuvailua¶
Tavallisesti satunnaiskokeeseen liittyvän satunnaismuuttujan \(X\) todennäköisyysjakauman mallintaminen aloitetaan toistamalla koe useita kertoja, tai havainnoimalla satunnaismuuttujan saamia arvoja muulla tavoin. Näin saadut satunnaismuuttujan havaintoarvot muodostavat empiirisen otoksen (sample), jonka perusteella tehdään johtopäätöksiä kyseisestä satunnaismuuttujasta. Seuraavassa kuvataan lyhyesti otosta havainnollistavia tunnuslukuja ja graafisia kuvioita.
Käsitellään otosta, jossa on \(n\) alkiota ja jonka oletetaan olevan peräisin satunnaismuuttujasta \(X\). Empiiriseen otokseen liittyvässä frekvenssijakaumassa (frequency distribution) otos järjestetään taulukkomuotoon, jossa järjestetään erilliset realisoituneet arvot tai arvoluokat \(x_1, x_2, \ldots, x_k\) ja niiden esiintymislukumäärät eli frekvenssit (frequency) \(f_1, f_2, \ldots, f_k\). Eri havaintoarvoja tai arvoluokkia vastaavien frekvenssien summa on havaintoarvojen kokonaislukumäärä otoksessa. Usein on tarkoituksenmukaista käyttää frekvenssien sijasta suhteellisia frekvenssejä (relative frequency) \(p_i = \frac{f_i}{n}\), \(i = 1, 2, \ldots, k\). Frekvenssijakaumaa voidaan havainnollistaa graafisesti esimerkiksi histogrammilla (histogram), joka voi toimia myös arviona varsinaisen todennäköisyysjakauman muodosta.
Kun lasketaan frekvenssien tai suhteellisten frekvenssien kumulatiivisia summia (cumulative sum) realisoituneiden arvojen kasvavassa järjestyksessä, saadaan summafrekvenssit \(F_1, F_2, \ldots, F_k\) ja suhteelliset summafrekvenssit \(\frac{F_i}{n}\), \(i = 1, 2, \ldots, k\). Nämä kaavoilla
laskettavat arvot ilmaisevat kuinka moni tai kuinka suuri osa koetuloksista on korkeintaan havaintoarvon \(x_i\) suuruisia.
Otoksen keskikohtaa tai siinä esiintyvien havaintoarvojen vaihtelua voidaan kuvailla esimerkiksi seuraavilla tärkeillä tunnusluvuilla.
Määritelmä 4.1.1
Satunnaismuuttujan \(X\) otoksen \(x_1, x_2, \ldots, x_n\) otoskeskiarvo (sample mean) \(\overline{x}\), otosvarianssi (sample variance) \(s^2\) ja otoskeskihajonta (sample standard deviation) \(s\) ovat
Otoskeskiarvo kuvaa otoksen keskikohdan sijaintia ja otoskeskihajonta mittaa havaintoarvojen tyypillistä etäisyyttä otoskeskiarvosta sen molemmin puolin. Mitä suurempi keskihajonta \(s\) on, sitä enemmän havaintoarvot keskimäärin poikkeavat otoskeskiarvosta \(\overline{x}\). Nämä luvut eivät vielä kerro paljonkaan otoksen vinoudesta, eli siitä miten tasaisesti havaintoarvot jakautuvat otoskeskiarvon eri puolille.
Nämä tunnusluvut voidaan laskea myös otoksen frekvenssijakauman avulla. Jos erilliset havaintoarvot ovat \(x_1, x_2, \ldots, x_k\) ja niiden frekvenssit \(f_1, f_2, \ldots, f_k\), niin
Mikäli havaintoarvot on luokiteltu reaalilukuväleille frekvenssien laskemista varten, niin luokkaa edustavana havaintoarvona käytetään sen keskipistettä, eli luokkakeskusta.
Esimerkki 4.1.2
Oletetaan, että elektronisen komponentin käyttöaika (vuosia) on satunnaismuuttuja. On tutkittu \(100\) komponentin käyttöaikaa ja saatu seuraavat mittaustulokset.
0.24, 0.62, 0.66, 4.2, 0.54, 6.4, 5.4, 1.6, 2.2, 1.6, 0.30, 1.2, 0.80, 1.9, 0.60, 2.4, 5.4, 0.02, 0.96, 6.4, 1.5, 0.80, 0.02, 0.96, 3.6, 2.4, 0.50, 1.6, 2.8, 2.2, 2.2, 1.8, 2.6, 0.17, 0.54, 0.30, 0.52, 6.4, 3.2, 2.6, 0.98, 1.2, 0.02, 0.92, 1.4, 0.44, 0.80, 2.6, 1.2, 6.0, 0.66, 0.26, 7.8, 1.3, 3.8, 6.0, 1.8, 1.1, 0.19, 1.6, 2.6, 4.8, 2.8, 1.4, 0.34, 1.8, 4.2, 1.2, 3.6, 0.34, 1.1, 4.4, 0.24, 0.74, 2.6, 0.34, 2.8, 3.0, 0.28, 1.2, 0.12, 4.0, 2.4, 2.6, 2.6, 1.3, 1.1, 4.0, 4.4, 2.0, 0.66, 0.12, 0.44, 0.62, 0.66, 3.6, 0.80, 2.8, 0.08, 5.4
Kun data luokitellaan reaalilukuväleille \([0, 1), [1, 2), \ldots, [6, 7), [7, 8]\), saadaan seuraava frekvenssitaulukko.
Matlab-komennot, joilla taulukon arvot voidaan selvittää, ovat seuraavanlaisia.
x = [ ... ]; % kopioi data tähän
rajat = 0:8;
frekv = histcounts(x, 'BinEdges', rajat);
suhtfrekv = frekv / length(x);
summafrekv = cumsum(frekv);
suhtsummafrekv = summafrekv / length(x);
Otoskeskiarvo \(\overline{x} = 1{,}99\), otosvarianssi \(s^2 = 3{,}18\) ja otoskeskihajonta \(s=1{,}78\). Otoskeskiarvon ja -varianssin laskemiseen voidaan käyttää esimerkiksi Matlab- ja R-ohjelmien komentoja mean(x)
ja var(x)
, sekä otoshajonnan laskemiseen komentoja std(x)
(Matlab) tai sd(x)
(R), kun x
on havaintoarvoista koostuva vektori. Alla oleva frekvenssihistogrammi muistuttaa muodoltaan satunnaismuuttujan \(X\) todennäköisyysjakaumaa.