- MATH.APP.210
- 5. Otosjakaumat ja estimointi
- 5.1 Otos ja otoskeskiarvo
Otos ja otoskeskiarvo¶
Tilastollisessa tutkimuksessa tutkimuskohteena on jokin perusjoukko eli populaatio (population). Usein on työlästä jopa mahdotonta tutkia koko populaatiota, jolloin tutkimusaineistoksi valitaan populaation osajoukko otos (sample). Menettelyä, jolla otos valitaan, kutsutaan otannaksi (sampling). Kun tavoitteena on otoksen perusteella tehdä koko populaatiota koskevia johtopäätöksiä, käytetään satunnaisotantaa ja saadaan satunnaisotos (probability sample). Tällöin voidaan myös arvioida otannasta aiheutuvaa virhettä. Subjektiiviseen valintaan perustuvaa otosta sanotaan näytteeksi (non-probability sample), jonka käyttö tilastollisessa tutkimuksessa on epäluotettavaa.
On olemassa erilaisia otantamenetelmiä otoksen muodostamiseksi. Yksinkertaisin menetelmä on ns. yksinkertainen satunnaisotanta (simple random sampling), jossa jokaisella populaation alkiolla on sama todennäköisyys tulla valituksi otokseen. Tämä onnistuu, jos populaation alkiot tiedetään ja niistä on saatavilla lista, ns. otoskehikko (sampling frame), josta valinta tehdään. Otantamenetelmänä voi olla myös ositettu otanta, jossa populaatio jaetaan ryhmiin, joissa tehdään yksinkertainen satunnaisotanta. Tämä takaa eri ryhmien mukanaolon otoksessa. Satunnaisotoksen on tarkoitus olla populaatio pienoiskoossa ja otannassa pyritään välttämään valikoitumisharhaa (selection bias), jossa jokin populaation joukko olisi yli/aliedustettuna.
Otos satunnaismuuttujana¶
Edellä satunnaisotos ymmärrettiin havaintoaineiston muuttujan arvojen osajoukoksi. Otos voidaan tulkita myös satunnaismuuttujiksi (satunnaisvektoriksi).
Tarkastellaan \(n\)-toistokoetta, jossa satunnaismuuttujalle \(X\) realisoituu jokin arvo, ja merkitään toistossa \(i\) realisoituvaa satunnaismuuttujaa \(X_i\). Koetoistojen satunnaismuuttujien \(X_1,X_2,\ldots,X_n\) sanotaan olevan otos satunnaismuuttujasta \(X\), jolloin muuttujat \(X_i\) ovat riippumattomia ja noudattavat samaa jakaumaa kuin \(X\). Erityisesti \(\rE(X_i)=\rE(X)\) ja \(\Var(X_i)=\Var(X)\). Satunnaisvektorille \((X_1, X_2, \ldots, X_n)\) realisoituvia arvoja \((x_1, x_2, \ldots, x_n)\) kutsutaan myös otokseksi, mutta tässä otoksella tarkoitetaan nimenomaan kokoelmaa satunnaismuuttujia.
Esimerkki 5.1.1
Tutkitaan Suomessa rekisteröityjen henkilöautojen ikää. Olkoon satunnaismuuttuja \(X=\)‘Rekisteröidyn suomalaisen auton ikä’ ja muodostetaan 100 auton otos
\((X_1, X_2, \cdots X_{100})\). Satunnaismuuttuja \(X_i\) on \(i:\)nnen auton ikä otoksessa ja jokaisella satunnaismuuttujalla \(X_i\) on sama jakauma kuin \(X\):llä. Kun otanta suoritetaan, saa jokainen satunnaismuuttuja \(X_i\) arvon \(x_i\), ja nämä arvot muodostavat empiirisen otoksen \((x_1, x_2, \ldots, x_{100})\). \(X_i\):n satunnaisuus tulee ilmi siinä, että kun otanta suoritetaan useasti, saa \(X_i\) joka kerralla eri arvon. Näiden arvojen empiirinen jakauma lähestyy \(X:\)n todennäköisyysjakaumaa, kun otanta toistetaan hyvin monta kertaa.
Otoksesta \(X_1,X_2,\ldots,X_n\) muodostetut funktiot ovat myös satunnaismuuttujia, joilla on omat jakaumansa.. Tällaisia funktioita kutsutaan otossuureiksi tai tunnusluvuiksi (statistics). Otossuureita käytetään usein satunnaismuuttujan \(X\) jakauman tuntemattomien parametrien, kuten odotusarvon ja varianssin arviointiin, sekä parametreihin kohdistuvien väitteiden testaamiseen. Parametriin \(\theta\) liittyvää otossuuretta \(\hat{\theta}\) kutsutaan parametrin estimaattoriksi (estimator), ja sille realisoituvaa arvoa estimaatiksi (estimate) tai piste-estimaatiksi (point-estimate). Huomaa, että parametri \(\theta\) on kiinteä, usein tuntematon reaaliluku ja sen estimaattori \(\hat{\theta}\) on satunnaismuuttuja, joka saa eri otantakerroilla eri arvon.
Estimaattorin hyvyyttä voidaan arvioida monella tavalla. Yksi toivottava ominaisuus on, että estimaattori keskimäärin antaa vastaukseksi estimoitavan parametrin. Satunnaismuuttujan \(X\) otoksesta \(X_1, X_2, \ldots, X_n\) lasketun otossuureen \(\hat{\theta}\) (satunnaismuuttuja) sanotaan olevan tietyn muuttujan \(X\) jakauman parametrin \(\theta\) harhaton estimaattori (unbiased estimator), jos \(\rE(\hat{\theta}) = \theta\). Otossuureelle realisoitunut arvo antaa tälle parametrille harhattoman estimaatin (unbiased estimate).
Estimaattorin hyvä ominaisuus on, että se on tarkentuva (consistent). Tämä tarkoittaa, että otoskoon kasvaessa kohti ääretöntä estimaattorin arvo poikkeaa parametrin todellisesta arvosta todennäköisyydellä 0. Jos parametrilla on monia estimaattoreita, niin usein parhaana pidetään sitä, jolla on pienin keskineliövirhe (mean-squared error)
Jos estimaattori on harhaton, niin keskineliövirhe on sama kuin estimaattorin varianssi.
Otoskeskiarvo¶
Satunnaismuuttujan \(X\) sijaintia kuvaava tärkein otossuure on otoskeskiarvo.
Määritelmä 5.1.2
Olkoon \(X_1,X_2,\ldots,X_n\) otos satunnaismuuttujasta \(X\), sekä luvut \(x_1, x_2, \ldots, x_n\) otosmuuttujien realisoituneet arvot. Satunnaismuuttujan \(X\) otoskeskiarvo (sample mean) on satunnaismuuttuja
ja sen realisoitunut arvo (reaaliluku)
Satunnaismuuttujan \(X\) otoskeskiarvon \(\overline{X}\) jakauman odotusarvo ja varianssi voidaan päätellä suoraan muuttujan \(X\) vastaavista parametreistä. Odotusarvon lineaarisuuden nojalla
ja jos satunnaismuuttujat \(X_i\) ovat riippumattomia (otosmuuttujina ne ovat), niin
lauseen 3.2.8 nojalla. Koska tässä muuttujat \(X_1,X_2,\ldots,X_n\) muodostavat otoksen satunnaismuuttujasta \(X\), niin \(\rE(X_i)=\rE(X)\) ja \(\Var(X_i)=\Var(X)\), \(i = 1, 2, \ldots, n\). Näin otoskeskiarvon odotusarvolle ja varianssille saadaan seuraava tulos.
Lause 5.1.3
Olkoon \(X_1,X_2,\ldots,X_n\) otos satunnaismuuttujasta \(X\). Tällöin muuttujan \(X\) otoskeskiarvon \(\overline{X}\) odotusarvo
ja varianssi
kun \(\rE(X) = \mu\) ja \(\Var(X) = \sigma^2\).
Edellisen lauseen mukaan otoskeskiarvo \(\overline{X}\) odotusarvon \(\rE(X) = \mu\) harhaton estimaatti. Lisäksi voidaan osoittaa, että otoskeskiarvo on odotusarvon tarkentuva estimaattori. Tämä tarkentuvuusominaisuus voidaan esittää myös ns. Suurten lukujen lakina:
Lause 5.1.4
Suurten lukujen laki. Olkoon \(X_i, \ i=1,2,3,\ldots , n\) riippumattomia satunnaismuuttujia, joilla on sama odotusarvo \(\rE(X_i)=\mu\). Tällöin otoskeskiarvo
suppenee suurella todennäköisyydellä kohti odotusarvoa \(\overline{X_n}\to \mu\), kun \(n\to\infty\).
Otoskeskiarvon keskihajontaa
kutsutaan keskiarvon keskivirheeksi (the standard error of the mean). Otoksesta arvioitu satunnaismuuttujan \(X\) odotusarvo ja sen virhearvio voidaan ilmaista muodossa \(\mu \pm \sigma/\sqrt{n}\). Tätä karkeaa arviota luotettavampi tapa on muodostaa odotusarvolle \(\mu\) luottamusväli, joka suurella todennäköisyydellä sisältää varsinaisen odotusarvon.
Jos muuttuja \(X\) noudattaa normaalijakaumaa, niin lauseen 4.4.6 nojalla myös otoskeskiarvo \(\overline{X}\) noudattaa normaalijakaumaa.
Seuraus 5.1.5
Jos \(X_1,X_2,\ldots,X_n\) on otos muuttujasta \(X\sim\rN(\mu,\sigma^2)\), niin otoskeskiarvo
Aina ei voida olettaa, että satunnaismuuttujan \(X\) jakauma olisi normaalinen tai edes tunnettu. Seuraavaksi käsiteltävän keskeisen raja-arvolauseen mukaan suurilla otoksilla otoskeskiarvo noudattaa likimain normaalijakaumaa riippumatta satunnaismuuttujan \(X\) jakaumasta.