\[\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \newcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bff}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\nv}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\pv}{\overline} \newcommand{\iu}{\mathrm{i}} \newcommand{\ju}{\mathrm{j}} \newcommand{\im}{\mathrm{i}} \newcommand{\e}{\mathrm{e}} \newcommand{\real}{\operatorname{Re}} \newcommand{\imag}{\operatorname{Im}} \newcommand{\Arg}{\operatorname{Arg}} \newcommand{\Ln}{\operatorname{Ln}} \DeclareMathOperator*{\res}{res} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\sgn}{\operatorname{sgn}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \newcommand{\vir}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\norm}[1]{\lVert #1 \rVert} \newcommand{\tp}[1]{#1^{\top}} \renewcommand{\d}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-15mu}#1}^{\,#2}} \newcommand{\abs}[1]{\lvert#1\rvert} \newcommand{\pysty}[1]{\left[\begin{array}{@{}r@{}}#1\end{array}\right]} \newcommand{\piste}{\cdot} \newcommand{\qedhere}{} \newcommand{\taumatrix}[1]{\left[\!\!#1\!\!\right]} \newenvironment{augmatrix}[1]{\left[\begin{array}{#1}}{\end{array}\right]} \newenvironment{vaugmatrix}[1]{\left|\begin{array}{#1}}{\end{array}\right|} \newcommand{\trans}{\mathrm{T}} \newcommand{\EUR}{\text{\unicode{0x20AC}}} \newcommand{\SI}[3][]{#2\,\mathrm{#3}} \newcommand{\si}[2][]{\mathrm{#2}} \newcommand{\num}[2][]{#2} \newcommand{\ang}[2][]{#2^{\circ}} \newcommand{\meter}{m} \newcommand{\metre}{\meter} \newcommand{\kilo}{k} \newcommand{\kilogram}{kg} \newcommand{\gram}{g} \newcommand{\squared}{^2} \newcommand{\cubed}{^3} \newcommand{\minute}{min} \newcommand{\hour}{h} \newcommand{\second}{s} \newcommand{\degreeCelsius}{^{\circ}C} \newcommand{\per}{/} \newcommand{\centi}{c} \newcommand{\milli}{m} \newcommand{\deci}{d} \newcommand{\percent}{\%} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}}\]

Normaalijakauma

Jatkuvista jakaumista tärkein on tilastomatematiikan ytimessä oleva normaalijakauma, eli Gaussin jakauma (normal distribution, Gaussian distribution).

Määritelmä 4.4.1

Jatkuva satunnaismuuttuja \(X\), jonka otosavaruus \(\Omega = \R\), on normaalijakautunut parametrein \(\mu\) ja \(\sigma^2 > 0\), \(X \sim \rN(\mu,\sigma^2)\), jos sen tiheysfunktio on

\[f(x) = n(x; \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x - \mu}{\sigma}\right)^2}.\]

Tiheysfunktion \(n\) kuvaaja on symmetrinen suoran \(x = \mu\) suhteen.

../_images/kuva211normaalit.svg

Normaalijakaumaa \(\rN(0, 1)\) kutsutaan standardinormaalijakaumaksi, ja sillä on erityisen tärkeä asema normaalijakaumiin liittyvissä laskuissa. Muuttuja \(Z\sim\rN(0,1)\) on standardoidusti normaalijakautunut. Sen tiheysfunktio

\[\phi(z)=n(z; 0, 1)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2}\]

ja kertymäfunktio

\[\Phi(z)=P(Z\leq z)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^z e^{-\frac{1}{2}t^2}\,\rd t.\]

Tiheysfunktio \(\phi\) on symmetrinen suoran \(x = 0\) suhteen, ja tämän perusteella

\[\Phi(-z)= P(Z\leq -z) = P(Z\geq z) = 1-P(Z\leq z) = 1-\Phi(z).\]

Lause 4.4.2

Jos satunnaismuuttuja \(X\sim\rN(\mu,\sigma^2)\), niin odotusarvo

\[\rE(X)=\mu\]

ja varianssi

\[\Var(X) = \sigma^2.\]

Todistus sivuutetaan. Odotusarvot \(\rE(X)\) ja \(\rE(X^2)\) voidaan määrittää odotusarvon määritelmän avulla käyttäen sijoitusta ja osittaisintegrointia.

Tarkastellaan seuraavassa normaalijakaumaa \(\rN(\mu, \sigma^2)\).

Mitkä seuraavista ilmiöistä havaitaan, kun jakauman odotusarvo \(\mu\) ja varianssi \(\sigma^2\) kasvavat?

Satunnaismuuttujan \(X\) lineaariselle funktiolle \(Y = aX + b\) tiedetään tulokset

\[\rE(aX + b)=a\rE(X) + b\ \ \textrm{ ja }\ \ \Var(aX+b)=a^2\Var(X)\]

Normaalijakaumalle saadaan seuraava keskeinen tulos, jossa edellisen lisäksi myös jakauma säilyy normaalijakaumana.

Lause 4.4.3

Jos \(X \sim \rN(\mu, \sigma^2)\), niin \(Y = aX + b \sim \rN(a\mu + b, a^2\sigma^2)\).

Todistus sivuutetaan.

Seuraus 4.4.4

Jos \(X \sim \rN(\mu, \sigma^2)\), niin

\[Z = \dfrac{X - \mu}{\sigma} \sim \rN(0,1)\]

ja sen kertymäfunktio

\[F(x) = \Phi\left(\dfrac{x - \mu}{\sigma}\right)\]

missä \(\Phi(z)\) on standardinormaalijakauman \(\rN(0,1)\) kertymäfunktio.

Normaalijakauman kertymäfunktion arvoja ei voi laskea suljetussa muodossa, vaan integraaleja on tyydyttävä arvioimaan numeerisesti. Matlab ja R laskevat mielivaltaisen normaalijakautuneen satunnaismuuttujan kertymäfunktion ja sen käänteisfunktion arvoja. Ilman ohjelmia lasketteaessa hyödynnetään viimeistä seurausta, jonka avulla minkä tahansa normaalijakautuneen muuttujan \(X \sim \rN(\mu, \sigma^2)\) kertymäfunktio voidaan palauttaa standardinormaalijakauman kertymäfunktioon \(\Phi\) ja käytetään funktion \(\Phi\) taulukoituja arvoja (liitteenä). Reaalilukuväliin \([a, b]\) liittyvän tapahtuman todennäköisyydeksi voidaan täten kirjoittaa

\[P(a\leq X\leq b)= F(b)-F(a)=\Phi\left(\frac{b-\mu}{\sigma}\right)-\Phi\left(\frac{a-\mu}{\sigma}\right).\]

Esimerkki 4.4.5

Tutkimuksissa on selvitetty, että suomalaisten täysikasvuisten naisten pituus \(X\) senttimetreissä noudattaa jakaumaa \(\rN(165, 6.5^2)\). Laske todennäköisyys sille, että satunnaisesti valitun naisen pituus on

  1. tasan \(165\) senttimetrin tarkkuudella mitattuna,
  2. välillä \((150, 170)\) senttimetrin tarkkuudella mitattuna.
  3. Mikä on se pituus \(c\), jota pidempiä on \(1~\%\) suomalaisista naisista?

Standardoitu muuttuja \(Z = \frac{X - 165}{6.5} \sim \rN(0, 1)\).

  1. Mittaustulos \(x\) on senttimetrin tarkkuudella \(165\) silloin, kun \(164.5 \leq x < 165.5\). Kysytty todennäköisyys on siis

    \[\begin{split}\begin{aligned} P(164.5 \leq X < 165.5) &= P(164.5 \leq X \leq 165.5) \\ &= P\left(\frac{164.5 - 165}{6.5} \leq Z \leq \frac{165.5 - 165}{6.5}\right) \\ &\approx P(-0.077 \leq Z \leq 0.077) \\ &= \Phi(0.077) - \Phi(-0.077). \end{aligned}\end{split}\]

    Koska normaalijakauma on symmetrinen, \(\Phi(-z) = 1 - \Phi(z)\) kaikille reaaliluvuille \(z\), ja täten taulukosta luetun arvon \(\Phi(0.077) \approx \Phi(0.08) \approx 0.5319\) avulla saadaan

    \[\Phi(0.077) - \Phi(-0.077) = \Phi(0.077) - (1 - \Phi(0.077)) = 2\Phi(0.077) - 1 \approx 0.0638.\]

    Kurssimateriaalissa käytetään normaalijakauman parametreina odotusarvoa ja varianssia. Toinen käytetty normaalijakauman merkitsemistapa on käyttää varianssin \(\sigma^2\) sijaan keskihajontaa \(\sigma\). Mm. Matlab ja R käyttävät parametrina keskihajontaa. Matlabissa normaalijakauman kertymäfunktio on normcdf ja tehtävä voitaisiin siis ratkaista

       normcdf(165.5, 165, 6.5) - normcdf(164.5, 165, 6.5)

    ja saada tarkemmaksi ratkaisuksi \(0.0613\). Vastaava R-funktio on pnorm, ja sama ratkaisu saataisiin komennolla

       pnorm(165.5, 165, 6.5) - pnorm(164.5, 165, 6.5)
  2. Tarkkuuden huomioon ottava todennäköisyys lasketaan kuten edellä. Kysytty todennäköisyys on

    \[\begin{split}\begin{aligned} P(149.5 \leq X < 170.5) &= P\left(\frac{149.5 - 165}{6.5} \leq Z \leq \frac{170.5 - 165}{6.5}\right) \\ &\approx P(-2.385 \leq Z \leq 0.846) \\ &\approx \Phi(0.85) - \Phi(-2.39) = \Phi(0.85) + \Phi(2.39) - 1 \\ &\approx 0.8023 + 0.9916 - 1 = 0.7939. \end{aligned}\end{split}\]

    Matlabilla ja R:llä saadaan tulokseksi \(0.7927\):

       normcdf(170.5, 165, 6.5) - normcdf(149.5, 165, 6.5) % Matlab
       pnorm(170.5, 165, 6.5) - pnorm(149.5, 165, 6.5) # R
  3. Etsitään siis sitä vakion \(c\) arvoa, jolla \(P(X > c) = 0.01\), eli \(P(X \leq c) = 0.99\). Tällöin standardoitu normaalimuuttuja \(Z\) toteuttaa ehdon

    \[P\left(Z \leq \frac{c - 165}{6.5}\right) = \Phi\left(\frac{c - 165}{6.5}\right)= 0.99 \approx \Phi(2.33),\]

    missä \(\Phi(2.33) \approx 0.99\) on päätelty etsimällä standardinormaalijakauman taulukosta lähimpänä todennäköisyyttä \(0.99\) oleva muuttujan arvo. Koska kertymäfunktio \(\Phi\) on aidosti kasvava, on oltava

    \[\frac{c - 165}{6.5} \approx 2.33,\]

    eli \(c \approx 165 + 2.33 \cdot 6.5 = 180.145 \approx 180\). Siis \(1~\%\) suomalaisista täysikasvuisista naisista on pidempiä kuin \(180\)cm.

    Matlabilla tehtävä ratkaistaan kertymäfunktion käänteisfunktion norminv avulla. Funktiolle on annettava todennäköisyys \(P(X \leq c)\), sekä jakauman odotusarvo ja keskihajonta. Näin kysytyksi pituudeksi ratkaistaan komennolla

       norminv(1 - 0.01, 165, 6.5)

    likimain \(180.1213 \approx 180\) senttimetriä. R-ohjelmiston vastinetta qnorm käytettäessä saadaan sama tulos:

       qnorm(1 - 0.01, 165, 6.5)

Normaalijakauman lineaarimuunnos on siis myös normaalijakautunut. Lisäksi riippumattomien normaalijakautuneiden satunnaismuuttujien summa on normaalijakautunut. Todistamatta esitetään seuraava tulos.

Lause 4.4.6

Jos satunnaismuuttujat \(X_i \sim \rN(\mu_i, \sigma_i^2)\), \(i = 1, 2, \ldots, n\) ovat riippumattomia ja kertoimet \(a_1, a_2, \ldots, a_n \in \R\), niin muuttujien lineaarikombinaatio

\[Y=a_1X_1+a_2X_2+\cdots+a_nX_n \sim \rN(\mu_Y,\sigma_Y^2),\]

missä

\[\mu_Y = a_1\mu_1+a_2\mu_2+\cdots+a_n\mu_n \qquad\text{ja}\qquad \sigma_Y^2 = a_1^2\sigma_1^2+a_2^2\sigma_2^2+\cdots+a_n^2\sigma_n^2.\]

Esimerkki 4.4.7

a) Pakkauksen painoksi on ilmoitettu 100 g. Punnituksissa on painon \(X\) jakaumaksi todettu \(\mathrm{N} (102,\ 1)\). Alle 100 g:n painoiset pakkaukset hylätään jo tuotannossa. Kuinka monta prosenttia pakkauksista hylätään?

b) Hävikin pienentämiseksi kaksi a)-kohdan pakkausta yhdistetään tuplapakkaukseksi, jonka painoksi ilmoitetaan 200 g. Kuinka monta prosenttia tuplapakkauksista hylätään eli mikä osuus näistä pakkauksista on alle 200 g painoisia? Eri pakkausten painot oletetaan riippumattomiksi.

a) Kysytty todennäköisyys on

\[\begin{split}\begin{aligned} P(X<100) &= P\left(\frac{X-102}{1}<\frac{100-102}{1}\right) = \Phi(-2.00) \\ &= 1-\Phi(2.00) = 1-0.9772 = 0.0228 = 2.3 \% \end{aligned}\end{split}\]

Matlabilla ja R:llä saadaan sama tulos saadaan komennoilla

   normcdf(100, 102, 1 ) % Matlab
   pnorm(100, 102, 1)  # R

b) Merkitään pakkauksen 1 painoa \(X_1\):llä ja pakkauksen 2 painoa \(X_2\):lla. Tuplapakkauksen paino on \(X=X_1+X_2\) ja \(X\) noudattaa normaalijakaumaa. Odotusarvo ja riippumattomien satunnaismuuttujien varianssi lasketaan kaavoilla

\[E(X_1+X_2)=E(X_1)+ E(X_2),\quad \mathrm{Var}(a X_1+ b X_2)=a^2\mathrm{Var}(X_1)+b^2\mathrm{Var}(X_2)\]

Näin

\[\rE(X)=\rE(X_1)+\rE(X_2)=102+102=204\]
\[\Var(X)=1^2\Var(X_1)+1^2\Var(X_2)=1+1=2\]

eli

\[X\sim\mathrm{N} (204,\ 2)\]

Nyt

\[\begin{split}\begin{aligned} P(X<200) & = P\left(\frac{X-204}{\sqrt{2}}<\frac{200-204}{\sqrt{2}}\right) = \Phi(-2.83) \\ &= 1-\Phi(2.83) = 1-0.9977 = 0.0023 = 0.23 \% \end{aligned}\end{split}\]

Matlabilla ja R:llä sama tulos saadaan komennoilla

   nnormcdf(200, 204, sqrt(2) ) % Matlab
   pnorm(200, 204, sqrt(2) )  # R

Tuplapakkausten hävikki on vain 10% yksittäispakkausten hävikistä.

Huomautus 4.4.8

Normaalijakauman tärkeyttä on vaikea korostaa liikaa. Siihen palataan vielä keskeisen raja-arvolauseen yhteydessä, joka on usean tilastollisen hypoteesin testauksen perusta. Käy ilmi, että monen satunnaismuuttujan summa noudattaa likimain jotakin normaalijakaumaa riippumatta muuttujien omista jakaumista. Tämä sallii paitsi päätelmien tekemisen kyseisestä summasta, myös erilaisten todennäköisyysjakaumien approksimoimisen normaalijakaumalla.

Alla olevaan taulukkoon on kerätty tietoja tähän asti käsitellyistä todennäköisyysjakaumista ja niitä noudattavista satunnaismuuttujista, sekä niiden tiheysfunktioista.

../_images/jakaumia-yhdistystaulukkov2.svg

Täytä kukin taulukon riveistä seuraavista vaihtoehdoista. Anna kunkin rivin vastaus samannumeroiseen kysymykseen yhden tai kahden merkin pituisena merkkijonona, jossa merkit edustavat valitsemiesi vaihtoehtojen symboleita järjestyksessä vasemmalta oikealle.

  • a: jatkuva tasajakauma, \(\Tas(a, b)\)
  • b: \(f : \{0, 1\} \rightarrow \R\), \(f(0) = 0{,}12\), \(f(1) = 0{,}88\)
  • c: onnistumiseen tarvittavien riippumattomien toistojen lukumäärä
  • d: diskreetti tasajakauma, \(\Tasd(a, b)\)
  • e: normaalijakauma, \(\rN(\mu, \sigma^2)\)
  • f: \(f : [0, \infty) \rightarrow \R\), \(f(x) = 3e^{-3x}\)
  • g: hypergeometrinen jakauma, \(\Hyperg(N, m, n)\)
  • h: satunnaiskokeen tulos, kun tulosvaihtoehtoja on kaksi
  • i: satunnaiskokeen tulos, kun kyseessä voi olla mikä tahansa arvo tunnetulla välillä
  • j: satunnaiskokeen tulos, kun kaikki tulosvaihtoehdot ovat yhtä todennäköisiä
  • k: vakiotahdilla suhteellisen harvoin ilmenevän tapahtuman realisoitumismäärä
  • l: binomijakauma, \(\Bin(n, p)\)
  • m: \(f : \{2, 3, 4, 5, 6\} \rightarrow \R\), \(f(x) = \frac{\binom{9}{x}\binom{4}{6 - x}}{\binom{13}{6}}\)
  • n: \(f : [0, 17] \cap \Z \rightarrow \R\), \(f(x) = \binom{17}{x} \cdot 0{,}49^{x} \cdot 0{,}51^{17 - x}\)
  • o: Poissonin jakauma, \(\Poi(\lambda)\)

Jos esimerkiksi olet sitä mieltä, että onnistumisten lukumäärä toistokokeessa liittyy jatkuvaan tasajakaumaan ja että esimerkki tämän tiheysfunktiosta on \(f : \{0, 1\} \rightarrow \R\), \(f(0) = 0{,}12\), \(f(1) = 0{,}88\), niin vastaa ensimmäiseen laatikkoon ab.

Syötä tähän rivin 1 vastaus.
Syötä tähän rivin 2 vastaus.
Syötä tähän rivin 3 vastaus.
Syötä tähän rivin 4 vastaus.
Syötä tähän rivin 5 vastaus.
Syötä tähän rivin 6 vastaus.
Syötä tähän rivin 7 vastaus.
Syötä tähän rivin 8 vastaus.
Syötä tähän rivin 9 vastaus.
Palautusta lähetetään...