- MATH.APP.210
- 4. Todennäköisyysjakaumia
- 4.4 Normaalijakauma
Normaalijakauma¶
Jatkuvista jakaumista tärkein on tilastomatematiikan ytimessä oleva normaalijakauma, eli Gaussin jakauma (normal distribution, Gaussian distribution).
Määritelmä 4.4.1
Jatkuva satunnaismuuttuja \(X\), jonka otosavaruus \(\Omega = \R\), on normaalijakautunut reaaliparametrein \(\mu\) ja \(\sigma^2 > 0\), \(X \sim \rN(\mu,\sigma^2)\), jos sen tiheysfunktio on
Käyttämällä hyväksi epäoleellisten tasointegraalien teoriaa voidaan osoittaa, että todellakin
Tiheysfunktion \(n\) kuvaaja on symmetrinen suoran \(x = \mu\) suhteen.
Normaalijakaumaa \(\rN(0, 1)\) kutsutaan standardinormaalijakaumaksi, ja sillä on erityisen tärkeä asema normaalijakaumiin liittyvissä laskuissa. Muuttuja \(Z\sim\rN(0,1)\) on standardoidusti normaalijakautunut. Sen tiheysfunktio
ja kertymäfunktio
Tiheysfunktio \(\phi\) on symmetrinen suoran \(x = 0\) suhteen, ja tämän perusteella
Lause 4.4.2
Jos satunnaismuuttuja \(X\sim\rN(\mu,\sigma^2)\), niin momentit generoiva funktio \(M(t)=e^{\mu t+\frac{1}{2}\sigma^2t^2}\), odotusarvo
ja varianssi
Tehdään momentit generoivan funktion määrittelevässä integraalissa sijoitus \(y = \frac{x - \mu}{\sigma} - t\sigma\), jolloin \(\rd x = \sigma\rd y\) ja rajat pysyvät muuttumattomina. Täten
Momenttifunktion kaksi ensimmäistä derivaattaa ovat
joten \(\rE(X) = M'(0) = 1 \cdot \mu = \mu\) ja \(\Var(X) = M''(0) - M'(0)^2 = \mu^2 + 1 \cdot \sigma^2 - \mu^2 = \sigma^2\).
Hyödyntämällä satunnaismuuttujan \(X\) lineaariselle funktiolle \(Y = aX + b\) johdettua momentit generoivan funktion lauseketta saadaan seuraava keskeinen tulos ja sen välittömät seuraukset.
Lause 4.4.3
Jos \(X \sim \rN(\mu, \sigma^2)\), niin \(Y = aX + b \sim \rN(a\mu + b, a^2\sigma^2)\).
Satunnaismuuttujan \(X\) momentit generoiva funktio on \(M_X(t) = e^{\mu t + \frac{1}{2}t^2\sigma^2}\). Lauseen 3.6.7 nojalla muuttujan \(Y\) momentit generoiva funktio on siis
Kyseessä on jakaumaan \(\rN(a\mu + b, a^2\sigma^2)\) liittyvä momenttifunktio, joten yksikäsitteisyysominaisuuden nojalla \(Y \sim \rN(a\mu + b, a^2\sigma^2)\).
Seuraus 4.4.4
Jos \(X \sim \rN(\mu, \sigma^2)\), niin \(Z = \dfrac{X - \mu}{\sigma} \sim \rN(0,1)\).
Seuraus 4.4.5
Jos \(X \sim \rN(\mu, \sigma^2)\), niin sen kertymäfunktio \(F(x) = \Phi\left(\dfrac{x - \mu}{\sigma}\right)\).
Normaalijakauman kertymäfunktion arvoja ei voi laskea suljetussa muodossa, vaan integraaleja on tyydyttävä arvioimaan numeerisesti. Valmisohjelmat, kuten Matlab ja R sallivat mielivaltaisen normaalijakautuneen satunnaismuuttujan kertymäfunktion ja sen käänteisfunktion arvojen laskemisen. Ennen tietokonelaskentaa hyödynnettiin viimeistä seurausta, jonka avulla minkä tahansa normaalijakautuneen muuttujan \(X \sim \rN(\mu, \sigma^2)\) kertymäfunktio voidaan palauttaa standardinormaalijakauman kertymäfunktioon \(\Phi\). Funktion \(\Phi\) arvoja taulukoitiin, ja tämän avulla arvioitiin standardoidusti normaalijakautuneen muuttujan \(Z = \frac{X - \mu}{\sigma}\) arvoihin \(z\) liittyviä todennäköisyyksiä \(P(Z \leq z) = \Phi(z)\). Reaalilukuväliin \([a, b]\) liittyvän tapahtuman todennäköisyydeksi voidaan täten kirjoittaa
Esimerkki 4.4.6
Tutkimuksissa on selvitetty, että suomalaisten täysikasvuisten naisten pituus \(X\) senttimetreissä noudattaa jakaumaa \(\rN(165, 6{,}5^2)\). Laske todennäköisyys sille, että satunnaisesti valitun naisen pituus on
- tasan \(165\) senttimetrin tarkkuudella mitattuna,
- välillä \((150, 170)\) senttimetrin tarkkuudella mitattuna.
- Mikä on se pituus \(c\), jota pidempiä on \(1~\%\) suomalaisista naisista?
Standardoitu muuttuja \(Z = \frac{X - 165}{6{,}5} \sim \rN(0, 1)\).
Mittaustulos \(x\) on senttimetrin tarkkuudella \(165\) silloin, kun \(164{,}5 \leq x < 165{,}5\). Kysytty todennäköisyys on siis
\[\begin{split}\begin{aligned} P(164{,}5 \leq X < 165{,}5) &= P(164{,}5 \leq X \leq 165{,}5) \\ &= P\left(\frac{164{,}5 - 165}{6{,}5} \leq Z \leq \frac{165{,}5 - 165}{6{,}5}\right) \\ &\approx P(-0{,}0769 \leq Z \leq 0{,}0769) = \Phi(0{,}0769) - \Phi(-0{,}0769). \end{aligned}\end{split}\]Koska normaalijakauma on symmetrinen, \(\Phi(-z) = 1 - \Phi(z)\) kaikille reaaliluvuille \(z\), ja täten taulukosta luetun arvon \(\Phi(0{,}0769) \approx \Phi(0{,}08) \approx 0{,}5319\) avulla saadaan
\[\Phi(0{,}0769) - \Phi(-0{,}0769) = \Phi(0{,}0769) - (1 - \Phi(0{,}0769)) = 2\Phi(0{,}0769) - 1 \approx 0{,}0638.\]Matlab tarjoaa tähän tarkoitukseen funktion
normcdf
, joka ottaa argumentteinaan järjestyksessä pisteen, jossa kertymäfunktion arvoa ollaan laskemassa, jakauman odotusarvon ja sen keskihajonnan. Sama tehtävä voitaisiin siis ratkaista Matlabilla komennoinprobs = normcdf([164.5 165.5], 165, 6.5); probs(2) - probs(1)
ja saada tarkemmaksi ratkaisuksi \(0{,}0613\). Vastaava R-funktio on
pnorm
, ja sama ratkaisu saataisiin komennollapnorm(165.5, 165, 6.5) - pnorm(164.5, 165, 6.5)
Tarkkuuden huomioon ottava todennäköisyys lasketaan kuten edellä. Kysytty todennäköisyys on
\[\begin{split}\begin{aligned} P(149{,}5 \leq X < 170{,}5) &= P\left(\frac{149{,}5 - 165}{6{,}5} \leq Z \leq \frac{170{,}5 - 165}{6{,}5}\right) \\ &\approx P(-2{,}385 \leq Z \leq 0{,}8462) \\ &\approx \Phi(0{,}85) - \Phi(-2{,}39) = \Phi(0{,}85) + \Phi(2{,}39) - 1 \\ &\approx 0{,}8023 + 0{,}9916 - 1 = 0{,}7939. \end{aligned}\end{split}\]Matlabilla komentojen
probs = normcdf([149.5 170.5], 165, 6.5); probs(2) - probs(1)
avulla todennäköisyyden likiarvoksi saadaan \(0{,}7927\), ja samaan tulokseen päädytään R-komennolla
pnorm(170.5, 165, 6.5) - pnorm(149.5, 165, 6.5)
Etsitään siis sitä vakion \(c\) arvoa, jolla \(P(X > c) = 0{,}01\), eli \(P(X \leq c) = 0{,}99\). Tällöin standardoitu normaalimuuttuja \(Z\) toteuttaa ehdon
\[P\left(Z \leq \frac{c - 165}{6{,}5}\right) = 0{,}99 \approx \Phi(2{,}33),\]missä yhteys \(\Phi(2{,}33) \approx 0{,}99\) on päätelty etsimällä standardinormaalijakauman taulukosta lähimmäksi todennäköisyyttä \(0{,}99\) vievä muuttujan arvo. Koska kertymäfunktio \(\Phi\) on aidosti kasvava, on oltava
\[\frac{c - 165}{6{,}5} \approx 2{,}33,\]eli \(c \approx 165 + 2{,}33 \cdot 6{,}5 = 180{,}145 \approx 180\). Siis \(1~\%\) suomalaisista täysikasvuisista naisista on pidempiä kuin \(180\)cm.
Tehtävä voidaan ratkaista myös tarkemmin Matlabin funktion
norminv
avulla. Funktiolle on annettava todennäköisyys \(P(X \leq c)\), sekä jakauman odotusarvo ja keskihajonta. Näin kysytyksi pituudeksi ratkaistaan komennollanorminv(1 - 0.01, 165, 6.5)
likimain \(180{,}1213 \approx 180\) senttimetriä. R-ohjelmiston vastinetta
qnorm
käytetään samaan tapaan:qnorm(1 - 0.01, 165, 6.5)
antaa saman tuloksen.
Huomautus 4.4.7
Normaalijakauman tärkeyttä on vaikea korostaa liikaa. Siihen palataan vielä keskeisen raja-arvolauseen yhteydessä, joka on tilastollisen hypoteesin testauksen perusta. Käy ilmi, että monen satunnaismuuttujan summa noudattaa likimain jotakin normaalijakaumaa riippumatta muuttujien omista jakaumista. Tämä sallii paitsi päätelmien tekemisen kyseisestä summasta, myös erilaisten todennäköisyysjakaumien approksimoimisen normaalijakaumalla.