- MATH.APP.210
- 4. Todennäköisyysjakaumia
- 4.4 Normaalijakauma
Normaalijakauma¶
Jatkuvista jakaumista tärkein on tilastomatematiikan ytimessä oleva normaalijakauma, eli Gaussin jakauma (normal distribution, Gaussian distribution).
Määritelmä 4.4.1
Jatkuva satunnaismuuttuja \(X\), jonka otosavaruus \(\Omega = \R\), on normaalijakautunut parametrein \(\mu\) ja \(\sigma^2 > 0\), \(X \sim \rN(\mu,\sigma^2)\), jos sen tiheysfunktio on
Tiheysfunktion \(n\) kuvaaja on symmetrinen suoran \(x = \mu\) suhteen.
Normaalijakaumaa \(\rN(0, 1)\) kutsutaan standardinormaalijakaumaksi, ja sillä on erityisen tärkeä asema normaalijakaumiin liittyvissä laskuissa. Muuttuja \(Z\sim\rN(0,1)\) on standardoidusti normaalijakautunut. Sen tiheysfunktio
ja kertymäfunktio
Tiheysfunktio \(\phi\) on symmetrinen suoran \(x = 0\) suhteen, ja tämän perusteella
Lause 4.4.2
Jos satunnaismuuttuja \(X\sim\rN(\mu,\sigma^2)\), niin odotusarvo
ja varianssi
Todistus sivuutetaan. Odotusarvot \(\rE(X)\) ja \(\rE(X^2)\) voidaan määrittää odotusarvon määritelmän avulla käyttäen sijoitusta ja osittaisintegrointia.
Satunnaismuuttujan \(X\) lineaariselle funktiolle \(Y = aX + b\) tiedetään tulokset
Normaalijakaumalle saadaan seuraava keskeinen tulos, jossa edellisen lisäksi myös jakauma säilyy normaalijakaumana.
Lause 4.4.3
Jos \(X \sim \rN(\mu, \sigma^2)\), niin \(Y = aX + b \sim \rN(a\mu + b, a^2\sigma^2)\).
Todistus sivuutetaan.
Seuraus 4.4.4
Jos \(X \sim \rN(\mu, \sigma^2)\), niin
ja sen kertymäfunktio
missä \(\Phi(z)\) on standardinormaalijakauman \(\rN(0,1)\) kertymäfunktio.
Normaalijakauman kertymäfunktion arvoja ei voi laskea suljetussa muodossa, vaan integraaleja on tyydyttävä arvioimaan numeerisesti. Matlab ja R laskevat mielivaltaisen normaalijakautuneen satunnaismuuttujan kertymäfunktion ja sen käänteisfunktion arvoja. Ilman ohjelmia lasketteaessa hyödynnetään viimeistä seurausta, jonka avulla minkä tahansa normaalijakautuneen muuttujan \(X \sim \rN(\mu, \sigma^2)\) kertymäfunktio voidaan palauttaa standardinormaalijakauman kertymäfunktioon \(\Phi\) ja käytetään funktion \(\Phi\) taulukoituja arvoja (liitteenä). Reaalilukuväliin \([a, b]\) liittyvän tapahtuman todennäköisyydeksi voidaan täten kirjoittaa
Esimerkki 4.4.5
Tutkimuksissa on selvitetty, että suomalaisten täysikasvuisten naisten pituus \(X\) senttimetreissä noudattaa jakaumaa \(\rN(165, 6.5^2)\). Laske todennäköisyys sille, että satunnaisesti valitun naisen pituus on
- tasan \(165\) senttimetrin tarkkuudella mitattuna,
- välillä \((150, 170)\) senttimetrin tarkkuudella mitattuna.
- Mikä on se pituus \(c\), jota pidempiä on \(1~\%\) suomalaisista naisista?
Standardoitu muuttuja \(Z = \frac{X - 165}{6.5} \sim \rN(0, 1)\).
Mittaustulos \(x\) on senttimetrin tarkkuudella \(165\) silloin, kun \(164.5 \leq x < 165.5\). Kysytty todennäköisyys on siis
\[\begin{split}\begin{aligned} P(164.5 \leq X < 165.5) &= P(164.5 \leq X \leq 165.5) \\ &= P\left(\frac{164.5 - 165}{6.5} \leq Z \leq \frac{165.5 - 165}{6.5}\right) \\ &\approx P(-0.077 \leq Z \leq 0.077) \\ &= \Phi(0.077) - \Phi(-0.077). \end{aligned}\end{split}\]Koska normaalijakauma on symmetrinen, \(\Phi(-z) = 1 - \Phi(z)\) kaikille reaaliluvuille \(z\), ja täten taulukosta luetun arvon \(\Phi(0.077) \approx \Phi(0.08) \approx 0.5319\) avulla saadaan
\[\Phi(0.077) - \Phi(-0.077) = \Phi(0.077) - (1 - \Phi(0.077)) = 2\Phi(0.077) - 1 \approx 0.0638.\]Kurssimateriaalissa käytetään normaalijakauman parametreina odotusarvoa ja varianssia. Toinen käytetty normaalijakauman merkitsemistapa on käyttää varianssin \(\sigma^2\) sijaan keskihajontaa \(\sigma\). Mm. Matlab ja R käyttävät parametrina keskihajontaa. Matlabissa normaalijakauman kertymäfunktio on
normcdf
ja tehtävä voitaisiin siis ratkaistanormcdf(165.5, 165, 6.5) - normcdf(164.5, 165, 6.5)
ja saada tarkemmaksi ratkaisuksi \(0.0613\). Vastaava R-funktio on
pnorm
, ja sama ratkaisu saataisiin komennollapnorm(165.5, 165, 6.5) - pnorm(164.5, 165, 6.5)
Tarkkuuden huomioon ottava todennäköisyys lasketaan kuten edellä. Kysytty todennäköisyys on
\[\begin{split}\begin{aligned} P(149.5 \leq X < 170.5) &= P\left(\frac{149.5 - 165}{6.5} \leq Z \leq \frac{170.5 - 165}{6.5}\right) \\ &\approx P(-2.385 \leq Z \leq 0.846) \\ &\approx \Phi(0.85) - \Phi(-2.39) = \Phi(0.85) + \Phi(2.39) - 1 \\ &\approx 0.8023 + 0.9916 - 1 = 0.7939. \end{aligned}\end{split}\]Matlabilla ja R:llä saadaan tulokseksi \(0.7927\):
normcdf(170.5, 165, 6.5) - normcdf(149.5, 165, 6.5) % Matlab pnorm(170.5, 165, 6.5) - pnorm(149.5, 165, 6.5) # R
Etsitään siis sitä vakion \(c\) arvoa, jolla \(P(X > c) = 0.01\), eli \(P(X \leq c) = 0.99\). Tällöin standardoitu normaalimuuttuja \(Z\) toteuttaa ehdon
\[P\left(Z \leq \frac{c - 165}{6.5}\right) = \Phi\left(\frac{c - 165}{6.5}\right)= 0.99 \approx \Phi(2.33),\]missä \(\Phi(2.33) \approx 0.99\) on päätelty etsimällä standardinormaalijakauman taulukosta lähimpänä todennäköisyyttä \(0.99\) oleva muuttujan arvo. Koska kertymäfunktio \(\Phi\) on aidosti kasvava, on oltava
\[\frac{c - 165}{6.5} \approx 2.33,\]eli \(c \approx 165 + 2.33 \cdot 6.5 = 180.145 \approx 180\). Siis \(1~\%\) suomalaisista täysikasvuisista naisista on pidempiä kuin \(180\)cm.
Matlabilla tehtävä ratkaistaan kertymäfunktion käänteisfunktion
norminv
avulla. Funktiolle on annettava todennäköisyys \(P(X \leq c)\), sekä jakauman odotusarvo ja keskihajonta. Näin kysytyksi pituudeksi ratkaistaan komennollanorminv(1 - 0.01, 165, 6.5)
likimain \(180.1213 \approx 180\) senttimetriä. R-ohjelmiston vastinetta
qnorm
käytettäessä saadaan sama tulos:qnorm(1 - 0.01, 165, 6.5)
Normaalijakauman lineaarimuunnos on siis myös normaalijakautunut. Lisäksi riippumattomien normaalijakautuneiden satunnaismuuttujien summa on normaalijakautunut. Todistamatta esitetään seuraava tulos.
Lause 4.4.6
Jos satunnaismuuttujat \(X_i \sim \rN(\mu_i, \sigma_i^2)\), \(i = 1, 2, \ldots, n\) ovat riippumattomia ja kertoimet \(a_1, a_2, \ldots, a_n \in \R\), niin muuttujien lineaarikombinaatio
missä
Esimerkki 4.4.7
a) Pakkauksen painoksi on ilmoitettu 100 g. Punnituksissa on painon \(X\) jakaumaksi todettu \(\mathrm{N} (102,\ 1)\). Alle 100 g:n painoiset pakkaukset hylätään jo tuotannossa. Kuinka monta prosenttia pakkauksista hylätään?
b) Hävikin pienentämiseksi kaksi a)-kohdan pakkausta yhdistetään tuplapakkaukseksi, jonka painoksi ilmoitetaan 200 g. Kuinka monta prosenttia tuplapakkauksista hylätään eli mikä osuus näistä pakkauksista on alle 200 g painoisia? Eri pakkausten painot oletetaan riippumattomiksi.
a) Kysytty todennäköisyys on
Matlabilla ja R:llä saadaan sama tulos saadaan komennoilla
normcdf(100, 102, 1 ) % Matlab pnorm(100, 102, 1) # R
b) Merkitään pakkauksen 1 painoa \(X_1\):llä ja pakkauksen 2 painoa \(X_2\):lla. Tuplapakkauksen paino on \(X=X_1+X_2\) ja \(X\) noudattaa normaalijakaumaa. Odotusarvo ja riippumattomien satunnaismuuttujien varianssi lasketaan kaavoilla
Näin
eli
Nyt
Matlabilla ja R:llä sama tulos saadaan komennoilla
nnormcdf(200, 204, sqrt(2) ) % Matlab pnorm(200, 204, sqrt(2) ) # R
Tuplapakkausten hävikki on vain 10% yksittäispakkausten hävikistä.
Huomautus 4.4.8
Normaalijakauman tärkeyttä on vaikea korostaa liikaa. Siihen palataan vielä keskeisen raja-arvolauseen yhteydessä, joka on usean tilastollisen hypoteesin testauksen perusta. Käy ilmi, että monen satunnaismuuttujan summa noudattaa likimain jotakin normaalijakaumaa riippumatta muuttujien omista jakaumista. Tämä sallii paitsi päätelmien tekemisen kyseisestä summasta, myös erilaisten todennäköisyysjakaumien approksimoimisen normaalijakaumalla.