- MATH.APP.210
- 5. Otosjakaumat ja estimointi
- 5.1 Riippumattomien satunnaismuuttujien summa ja keskiarvo
Riippumattomien satunnaismuuttujien summa ja keskiarvo¶
Jatkon kannalta erityisen tärkeä satunnaismuuttujien tyyppi on riippumattomien satunnaismuuttujien \(X_1,X_2,\ldots,X_n\) summa \(Y=X_1+X_2+\ldots+X_n\). Ensimmäinen tähän satunnaismuuttujaan liittyvä kiinnostava ongelma on selvittää sen jakauma. Usein voidaan olettaa, että muuttujat \(X_i\), \(i = 1, 2, \ldots, n\) noudattavat samaa, tunnettua jakaumaa. Asiaa tutkitaan tyypillisesti seuraavan momentit generoivan funktion ominaisuuden ja induktioperiaatteen avulla.
Lause 5.1.1
Riippumattomien satunnaismuuttujien \(X_1\) ja \(X_2\) summan \(Y=X_1+X_2\) momentit generoiva funktio
kun \(M_{X_1}(t)\) ja \(M_{X_2}(t)\) ovat muuttujien \(X_1\) ja \(X_2\) momentit generoivat funktiot.
Koska \(X_1\) ja \(X_2\) ovat riippumattomia, niin lauseen 2.6.8 mukaan myös niiden funktiot \(e^{tX_1}\) ja \(e^{tX_2}\), missä \(t \in \R\), ovat riippumattomia. Täten riippumattomien satunnaismuuttujien tulon odotusarvona
Esimerkki 5.1.2
Oletetaan, että \(X\sim\Bin(n,p)\) ja \(Y\sim\Bin(m,p)\), ja että muuttujat \(X\) ja \(Y\) ovat riippumattomia. Tällöin
eli \(M_{X+Y}(t)\) on jakauman \(\Bin(n+m, p)\) momenttifunktio. Täten momentit generoivan funktion yksikäsitteisyysominaisuuden nojalla \(X + Y \sim \Bin(n + m, p)\).
Tärkeänä tuloksena voidaan todistaa, että riippumattomien normaalijakautuneiden satunnaismuuttujien lineaarikombinaatio on normaalijakautunut.
Lause 5.1.3
Jos satunnaismuuttujat \(X_i \sim \rN(\mu_i, \sigma_i^2)\), \(i = 1, 2, \ldots, n\) ovat riippumattomia ja kertoimet \(a_1, a_2, \ldots, a_n \in \R\), niin muuttujien lineaarikombinaatio
missä
Käytetään induktiota.
Alkuaskel \(n = 2\). Lauseen 4.4.3 mukaan \(a_iX_i \sim \rN(a_i\mu_i, a_i^2\sigma_i^2)\), missä \(i = 1\) tai \(i = 2\). Täten hyödyntämällä normaalijakauman momenttifunktiota ja lausetta 5.1.1 saadaan satunnaismuuttujan \(Y\) momentit generoivaksi funktioksi
\[\begin{split}\begin{aligned} M_Y(t) &= M_{a_1X_1}(t)M_{a_2X_2}(t) = e^{a_1\mu_1t + \frac{1}{2}a_1^2\sigma_1^2t^2}e^{a_2\mu_2t + \frac{1}{2}a_2^2\sigma_2^2t^2} \\ &= e^{(a_1\mu_1 + a_2\mu_2)t + \frac{1}{2}(a_1^2\sigma_1^2 + a_2^2\sigma_2^2)t^2}, \end{aligned}\end{split}\]joka on myös jakauman \(\rN(a_1\mu_1 + a_2\mu_2, a_1^2\sigma_1^2 + a_2^2\sigma_2^2)\) momenttifunktion lauseke. Siis momentit generoivan funktion yksikäsitteisyysominaisuuden nojalla \(Y\) noudattaa tätä normaalijakaumaa, kuten väitettiinkin.
Induktioaskel. Oletetaan sitten, että
\[Y = a_1X_1 + a_2X_2 + \cdots + a_kX_k \sim \rN(\mu_Y, \sigma_Y^2),\]missä \(k\) on luonnollinen luku. Nyt lisäksi \(X_{k + 1} \sim \rN(\mu_{k + 1}, \sigma_{k + 1}^2)\), ja koska muuttujat \(X_1, X_2, \ldots, X_{k + 1}\) ovat riippumattomia, myös \(a_1X_1 + a_2X_2 + \cdots + a_kX_k\) ja \(a_{k + 1}X_{k + 1}\) ovat riippumattomia. Voidaan siis todistaa samaan tapaan kuin alkuaskeleessa, että
\[Y + a_{k + 1}X_{k + 1} \sim \rN(\mu_Y + a_{k + 1}\mu_{k + 1}, \sigma_Y^2 + a_{k + 1}^2\sigma_{k + 1}^2),\]kuten väitettiinkin.
Induktioperiaatteen nojalla väite on voimassa aina, kun \(n \in \N\).
Tarkastellaan sitten \(n\)-toistokoetta, jossa satunnaismuuttujalle \(X\) realisoituu jokin arvo, ja merkitään toistossa \(i\) realisoituvaa satunnaismuuttujaa \(X_i\). Koetoistojen satunnaismuuttujien \(X_1,X_2,\ldots,X_n\) sanotaan olevan otos satunnaismuuttujasta \(X\), jolloin muuttujat \(X_i\) ovat riippumattomia ja noudattavat samaa jakaumaa kuin \(X\). Erityisesti \(\rE(X_i)=\rE(X)\) ja \(\Var(X_i)=\Var(X)\). Satunnaisvektorille \((X_1, X_2, \ldots, X_n)\) realisoituvia arvoja \((x_1, x_2, \ldots, x_n)\) kutsutaan toisinaan myös otokseksi, mutta tässä otoksella tarkoitetaan nimenomaan kokoelmaa satunnaismuuttujia.
Otoksesta \(X_1,X_2,\ldots,X_n\) riippuvia otossuureita (statistics) \(\Theta\) käytetään usein satunnaismuuttujan \(X\) jakauman tuntemattomien parametrien \(\theta\), kuten odotusarvon ja varianssin arviointiin, sekä parametreihin kohdistuvien väitteiden testaamiseen. Otossuureet muodostuvat otosmuuttujien \(X_i\) funktioina, ja ovat täten nekin satunnaismuuttujia, joilla on omat jakaumansa. Parametriin \(\theta\) liittyvää otossuuretta \(\Theta\) kutsutaan myös parametrin estimaattoriksi, ja sille realisoituvaa arvoa estimaatiksi tai piste-estimaatiksi. Satunnaismuuttujan \(X\) sijaintia kuvaava tärkein otossuure on otoskeskiarvo.
Määritelmä 5.1.4
Olkoon \(X_1,X_2,\ldots,X_n\) otos satunnaismuuttujasta \(X\), sekä luvut \(x_1, x_2, \ldots, x_n\) otosmuuttujien realisoituneet arvot. Satunnaismuuttujan \(X\) otoskeskiarvo (sample mean) on satunnaismuuttuja
ja sen realisoitunut arvo (reaaliluku)
Satunnaismuuttujan \(X\) otoskeskiarvon \(\overline{X}\) jakauman odotusarvo ja varianssi voidaan päätellä suoraan muuttujan \(X\) vastaavista parametreistä. Odotusarvon lineaarisuuden nojalla
ja jos satunnaismuuttujat \(X_i\) ovat riippumattomia (otosmuuttujina ne ovat), niin
lauseen 3.4.8 nojalla. Koska tässä muuttujat \(X_1,X_2,\ldots,X_n\) muodostavat otoksen satunnaismuuttujasta \(X\), niin \(\rE(X_i)=\rE(X)\) ja \(\Var(X_i)=\Var(X)\), \(i = 1, 2, \ldots, n\). Näin otoskeskiarvon odotusarvolle ja varianssille saadaan seuraava tulos.
Lause 5.1.5
Olkoon \(X_1,X_2,\ldots,X_n\) otos satunnaismuuttujasta \(X\). Tällöin muuttujan \(X\) otoskeskiarvon \(\overline{X}\) odotusarvo
ja varianssi
kun \(\rE(X) = \mu\) ja \(\Var(X) = \sigma^2\).
Satunnaismuuttujan \(X\) otoksesta \(X_1, X_2, \ldots, X_n\) lasketun otossuureen \(\Theta\) (satunnaismuuttuja) sanotaan olevan tietyn muuttujan \(X\) jakauman parametrin \(\theta\) harhaton estimaattori (unbiased estimator), jos \(\rE(\Theta) = \theta\). Otossuureelle realisoitunut arvo antaa tälle parametrille harhattoman estimaatin (unbiased estimate). Edellisen lauseen mukaan otoskeskiarvo \(\overline{X}\) odotusarvon \(\rE(X) = \mu\) harhaton estimaatti.
Otoskeskiarvon keskihajontaa
kutsutaan keskiarvon keskivirheeksi (the standard error of the mean). Otoksesta arvioitu satunnaismuuttujan \(X\) odotusarvo ja sen virhearvio voidaan ilmaista muodossa \(\mu \pm \sigma/\sqrt{n}\). Tätä karkeaa arviota luotettavampi tapa on muodostaa odotusarvolle \(\mu\) luottamusväli, joka suurella todennäköisyydellä sisältää varsinaisen odotusarvon.
Jos muuttuja \(X\) noudattaa normaalijakaumaa, niin lauseen 5.1.3 nojalla myös otoskeskiarvo \(\overline{X}\) noudattaa normaalijakaumaa.
Seuraus 5.1.6
Jos \(X_1,X_2,\ldots,X_n\) on otos muuttujasta \(X\sim\rN(\mu,\sigma^2)\), niin otoskeskiarvo
Aina ei voida olettaa, että satunnaismuuttujan \(X\) jakauma olisi normaalinen tai edes tunnettu. Seuraavaksi käsiteltävän keskeisen raja-arvolauseen mukaan suurilla otoksilla otoskeskiarvo noudattaa onneksi likimain normaalijakaumaa riippumatta satunnaismuuttujan \(X\) jakaumasta.