\[\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \newcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bff}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\nv}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\pv}{\overline} \newcommand{\iu}{\mathrm{i}} \newcommand{\ju}{\mathrm{j}} \newcommand{\im}{\mathrm{i}} \newcommand{\e}{\mathrm{e}} \newcommand{\real}{\operatorname{Re}} \newcommand{\imag}{\operatorname{Im}} \newcommand{\Arg}{\operatorname{Arg}} \newcommand{\Ln}{\operatorname{Ln}} \DeclareMathOperator*{\res}{res} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\sgn}{\operatorname{sgn}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \newcommand{\vir}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\norm}[1]{\lVert #1 \rVert} \newcommand{\tp}[1]{#1^{\top}} \renewcommand{\d}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-15mu}#1}^{\,#2}} \newcommand{\abs}[1]{\lvert#1\rvert} \newcommand{\pysty}[1]{\left[\begin{array}{@{}r@{}}#1\end{array}\right]} \newcommand{\piste}{\cdot} \newcommand{\qedhere}{} \newcommand{\taumatrix}[1]{\left[\!\!#1\!\!\right]} \newenvironment{augmatrix}[1]{\left[\begin{array}{#1}}{\end{array}\right]} \newenvironment{vaugmatrix}[1]{\left|\begin{array}{#1}}{\end{array}\right|} \newcommand{\trans}{\mathrm{T}} \newcommand{\EUR}{\text{\unicode{0x20AC}}} \newcommand{\SI}[3][]{#2\,\mathrm{#3}} \newcommand{\si}[2][]{\mathrm{#2}} \newcommand{\num}[2][]{#2} \newcommand{\ang}[2][]{#2^{\circ}} \newcommand{\meter}{m} \newcommand{\metre}{\meter} \newcommand{\kilo}{k} \newcommand{\kilogram}{kg} \newcommand{\gram}{g} \newcommand{\squared}{^2} \newcommand{\cubed}{^3} \newcommand{\minute}{min} \newcommand{\hour}{h} \newcommand{\second}{s} \newcommand{\degreeCelsius}{^{\circ}C} \newcommand{\per}{/} \newcommand{\centi}{c} \newcommand{\milli}{m} \newcommand{\deci}{d} \newcommand{\percent}{\%} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}}\]

Poissonin jakauma

Toinen sovellusten kannalta erittäin tärkeä diskreetti todennäköisyysjakauma käsittelee suhteellisen harvinaisten, mutta keskimäärin vakiotahdilla riippumattomasti toistuvia tapahtumia. Annetaan aluksi jakauman määritelmä, ja palataan myöhemmin sen tulkintaan sovelluksissa.

Määritelmä 4.3.1

Diskreetti satunnaismuuttuja \(X\), jonka otosavaruus \(\Omega=\{0,1,2,3,\ldots\}\), noudattaa Poissonin jakaumaa (Poisson distribution) parametrinaan \(\lambda>0\), \(X\sim\Poi(\lambda)\), jos sen tiheysfunktio

\[f(x)=p(x; \lambda) = \frac{\lambda^x}{x!}e^{-\lambda}, \qquad\text{kun }x\in\Omega.\]

Voidaan osoittaa, että määritelmässä annettu funktio on tiheysfunktio. Sen arvot ovat ei-negatiivisia ja laskettaessa tiheysfunktioiden arvojen summa, saadaan sarjan summaksi \(= 1\).

../_images/kuva210poi1ja2.svg

Lause 4.3.2

Jos satunnaismuuttuja \(X\sim\Poi(\lambda)\), niin sen odotusarvo ja varianssi ovat

\[\rE(X) = \Var(X) = \lambda.\]
Piilota/näytä todistus

Kun \(X\sim\Poi(\lambda)\)

\[f(x)=p(x; \lambda) = \frac{\lambda^x}{x!}e^{-\lambda}, \qquad\text{kun }x\in\Omega=\{0,1,2,3,\ldots\}.\]

Nyt odotusarvo

\[\begin{split}\begin{aligned} \rE(X)&=\sum_{x=0}^\infty x\cdot \frac{\lambda^x}{x!}e^{-\lambda}&\qquad\qquad\qquad&(1)\\ &=\sum_{x=1}^\infty x\cdot \frac{\lambda^x}{x!}e^{-\lambda}&&(2)\\ &=\lambda \sum_{x=1}^\infty \frac{\lambda^{x-1}}{(x-1)!}e^{-\lambda}&&(3)\\ &=\lambda \sum_{x=0}^\infty \frac{\lambda^{x}}{x!}e^{-\lambda}&&(4)\\ &=\lambda &&(5) \end{aligned}\end{split}\]

missä eri vaiheiden perusteluna ovat

  1. Diskreetin satunnaismuuttujan odotusarvon määritelmä
  2. Summan ensimmäinen termi \(=0\), kun \(x=0\). Siksi summan arvo ei muutu, vaikka indeksointi aloitetaan arvosta \(x=1\).
  3. Supistetaan luvulla \(x\) ja otetaan yksi \(\lambda\) vakiona summan eteen.
  4. Korvataan \(x-1 \to x\) ja aloitetaan summaus arvosta \(x=0\). Summa ei muutu.
  5. Summa on koko otosavaruuden todennäköisyys \(P(\Omega)=1\)

Varianssia varten määritetään \(\rE(X^2)\). Toimitaan vastaavalla tavalla.

\[\begin{split}\begin{aligned} \rE(X^2)&=\sum_{x=0}^\infty x^2\cdot \frac{\lambda^x}{x!}e^{-\lambda}&\qquad\qquad\qquad&(1)\\ &=\sum_{x=1}^\infty x^2\cdot \frac{\lambda^x}{x!}e^{-\lambda}&&(2)\\ &=\lambda \sum_{x=1}^\infty x\frac{\lambda^{x-1}}{(x-1)!}e^{-\lambda}&&(3)\\ &=\lambda \sum_{x=0}^\infty (x+1)\frac{\lambda^{x}}{x!}e^{-\lambda}&&(4)\\ &=\lambda \sum_{x=0}^\infty x\frac{\lambda^{x}}{x!}e^{-\lambda} + \lambda \sum_{x=0}^\infty \frac{\lambda^{x}}{x!}e^{-\lambda}&&(5)\\ &= \lambda^2+\lambda &&(6) \end{aligned}\end{split}\]

missä eri vaiheiden perusteluna ovat

  1. Diskreetin satunnaismuuttujan funktion odotusarvon määritelmä
  2. Summan ensimmäinen termi \(=0\), kun \(x=0\). Siksi summan arvo ei muutu, vaikka indeksointi aloitetaan arvosta \(x=1\).
  3. Supistetaan luvulla \(x\) ja otetaan yksi \(\lambda\) vakiona summan eteen.
  4. Korvataan \(x-1 \to x\), \(x\to x+1\) ja aloitetaan summaus arvosta \(x=0\). Summa ei muutu.
  5. Jaetaan summa kahdeksi summaksi.
  6. Ensimmäinen osa on odotusarvo = \(\lambda\) ja toinen osa on koko otosavaruuden todennäköisyys \(P(\Omega)=1\).

Näin

\[\Var(X)=\rE(X^2)-\rE(X)^2= \lambda^2+\lambda -\lambda^2 =\lambda\]

Poissonin jakauman odotusarvo ja varianssi ovat siis yhtä suuret. Tämän jakauman tärkeä sovellus on sen käyttö stokastisten prosessien käsittelyssä silloin, kun ollaan kiinnostuneita tietyn tapahtuman \(A\) realisoitumisten lukumäärästä tietyllä aikavälillä. Oletetaan prosessille seuraavat ominaisuudet.

  1. Jos \(I_1,I_2,\ldots,I_n\) ovat pistevieraita (erillisiä) aikavälejä, niin tapahtuman \(A\) esiintymisten lukumäärät eri aikaväleillä ovat riippumattomia.
  2. Tapahtuman \(A\) esiintymisten keskimääräistä lukumäärää aikayksikössä voidaan pitää vakiona \(q\).
  3. Todennäköisyys sille, että \(A\) realisoituu hyvin lyhyellä aikavälillä \(\Delta t\) useammin kuin kerran, on likimain nolla.

Jos stokastinen prosessi toteuttaa oletukset 1–3 ja satunnaismuuttuja \(X\) kuvaa tapahtuman \(A\) esiintymisten lukumäärää aikavälillä \((t_1, t_2)\), niin voidaan osoittaa että

\[X\sim\Poi(q(t_2 - t_1)),\]

eli \(X\) noudattaa Poissonin jakaumaa parametrinaan \(\lambda = q(t_2 - t_1)\).

Tehdas tuottaa kuviopainettuja pöytäliinoja kahdessa mitassa: \(2{,}00\) ja \(4{,}00\) metriä. Painatuksesta vastaa kone, joka tuottaa pitkän rullan valmista kangasta, ja tästä leikataan sopivan mittaiset valmiit tuotteet. Painokone ei toimi täysin virheettömästi, vaan tekee tasaisesti keskimäärin \(2{,}12\) virhettä metriä kohti.

Tarkastellaan kolmea peräkkäin leikattua pöytäliinaa, joista kaksi on lyhyempiä ja yksi pidempi. Satunnaismuuttujat \(X\) ja \(Y\) kuvaavat kumpikin yhden lyhyen liinan virheiden lukumäärää ja satunnaismuuttuja \(Z\) pitkän liinan virheiden lukumäärää. Valitse seuraavista varmasti oikeat väitteet.

Esimerkki 4.3.3

Yksi gramma radiumin isotooppia lähettää keskimäärin \(3.57 \cdot 10^{10}\) \(\alpha\)-hiukkasta sekunnissa. Laske todennäköisyys sille, että yhden nanosekunnin (\(10^{-9}\)s) aikana se lähettää

  1. täsmälleen \(35\) \(\alpha\)-hiukkasta,
  2. \(27\), \(28\) tai \(29\) \(\alpha\)-hiukkasta.
Piilota/näytä ratkaisu

Radioaktiivinen hajoaminen toteuttaa varsin hyvin edellä esitellyt Poissonin prosessin oletukset. Olkoon \(X\) radium-näytteen lähettämien \(\alpha\)-hiukkasten lukumäärä nanosekunnissa, jolloin \(X \sim \Poi(\lambda)\), missä

\[\lambda = 3.57 \cdot 10^{10} \cdot 10^{-9} = 35.7\]
  1. Todennäköisyys sille, että nanosekunnissa vapautuu täsmälleen \(35\) \(\alpha\)-hiukkasta on

    \[P(X = 35) = p(35; 35.7) = \frac{35.7^{35}}{35!}e^{-35.7} \approx 0.0668.\]

    Matlabin Poissonin jakaumaan liittyvät tiheys- ja kertymäfunktiot ovat poisspdf ja poisscdf. R:n vastaavat funktiot ovat dpois ja ppois. Sama tulos saataisiin siis Matlab- ja R-komennoilla

      poisspdf(35, 35.7) % Matlab
      dpois(35, 35.7) # R
  2. Todennäköisyys sille, että nanosekunnissa vapautuu \(27\), \(28\) tai \(29\) \(\alpha\)-hiukkasta on

    \[\begin{split}\begin{aligned} P(27 \leq X \leq 29) &= \sum_{x = 27}^{29}p(x; 35.7) = \sum_{x = 27}^{29}\frac{35.7^x}{x!}e^{-35.7} \\ &= e^{-35.7}\left(\frac{35.7^{27}}{27!} + \frac{35.7^{28}}{28!} + \frac{35.7^{29}}{29!}\right) \approx 0.0924. \end{aligned}\end{split}\]

    Matlab- ja R-komennot

       poisscdf(29, 35.7) - poisscdf(26, 35.7) % Matlab
       ppois(29, 35.7) - ppois(26, 35.7) # R

    antavat saman tuloksen. Huomaa, että tapahtuman \(27 \leq X \leq 29\) todennäköisyys lasketaan kertymäfunktion \(F\) avulla erotuksena \(F(29) - F(26)\).

Huomautus 4.3.4

Poissonin jakaumaa voidaan soveltaa myös satunnaiskokeisiin, joissa ollaan kiinnostuneita tapahtuman \(A\) realisoitumien lukumäärästä tietyllä pituuden, pinta-alan tai tilavuuden osalla. Satunnaiskokeen tulee toteuttaa oletuksia 1–3 vastaavat oletukset, joissa aika korvataan sopivasti muilla käsitteillä.

Tietyissä tilanteissa Poissonin jakaumaa voidaan käyttää myös binomijakauman approksimoimiseen. Oletetaan, että satunnaismuuttuja \(X\sim\Bin(n, p)\), ja että \(np = \lambda\) on vakio. Jos nyt \(n\to\infty\), niin \(p = \frac{\lambda}{n} \to 0\). Tällöin

\[\lim_{n\to\infty}b\left(x; n, \frac{\lambda}{n}\right)=p(x; \lambda)\]

aina, kun \(x \in \N = \{0, 1, 2, \ldots\}\), sillä

\[\begin{split}\begin{aligned} \binom{n}{x}\left(\frac{\lambda}{n}\right)^x\left(1-\frac{\lambda}{n}\right)^{n-x} &= \frac{n(n-1)\cdots(n-x+1)}{x!}\frac{\lambda^x}{n^x}\left(1-\frac{\lambda}{n}\right)^n\left(1-\frac{\lambda}{n}\right)^{-x}\\ &= \frac{\lambda^x}{x!}\frac{n}{n}\frac{n - 1}{n}\cdots\frac{n - x + 1}{n}\left(1 - \frac{\lambda}{n}\right)^n\left(1 - \frac{\lambda}{n}\right)^{-x} \\ &= \frac{\lambda^x}{x!}\left(1-\frac{1}{n}\right)\cdots\left(1-\frac{x-1}{n}\right)\left(1-\frac{\lambda}{n}\right)^n\left(1-\frac{\lambda}{n}\right)^{-x}\\ &\to\frac{\lambda^x}{x!}e^{-\lambda}, \end{aligned}\end{split}\]

kun \(n \to \infty\), sillä

\[\lim_{n \to \infty}\left(1 - \frac{1}{n}\right) = \cdots = \lim_{n \to \infty}\left(1 - \frac{x - 1}{n}\right) = \lim_{n\to\infty}\left(1 - \frac{\lambda}{n}\right)^{-x} = 1\]

ja eksponenttifunktion raja-arvomääritelmän mukaan raja-arvo

\[\lim_{n \to \infty}\left(1 - \frac{\lambda}{n}\right)^n = e^{-\lambda}.\]

Kyseisen lukujonon suppeneminen tapahtuu nopeasti silloin, kun \(\lambda \ll n\).

Lause 4.3.5

Jos \(n\)-toistokokeessa \(n\) on suuri, onnistumisen todennäköisyys on pieni \(p\) ja \(\lambda \ll n\), eli kyseessä on harvinainen tapahtuma hyvin monen toiston sarjassa, niin binomijakauma

\[\Bin(n, p) \approx \Poi(np).\]

Huomautus 4.3.6

Milloin ehdot \(n\) on suuri ja \(p\) on pieni riittävän hyvin täyttyvät? Yksi päätössääntö on, että Poissonjakaumaa voidaan käyttää binomijakauman approksimoimiseen, kun \(n\geq 100\) ja \(np\leq 10\). Tämän approksimaation merkitys laskennassa on vähäinen, kun todennäköisyydet voi Matlabilla/Rllä laskea myös suoraan alkuperäisellä binomijakaumalla.

Esimerkki 4.3.7

Tiedetään, että sadasta signaalista keskimäärin yksi välittyy virheellisesti. Lähetetään \(200\) toisistaan riippumatonta signaalia ja lasketaan todennäköisyys sille, että ainakin kolme signaalia välittyy virheellisesti. Olkoon satunnaismuuttuja \(X\) virhesignaalien lukumäärä, jolloin \(X\sim\Bin(200, 0.01)\). Tarkka todennäköisyys

\[\begin{split}\begin{aligned} P(X \geq 3) &= 1 - P(X < 3) \\ &= 1 - \left(\binom{200}{0}0.01^0 \cdot 0.99^{200} + \binom{200}{1}0.01^1 \cdot 0.99^{199} + \binom{200}{2}0.01^2 \cdot 0.99^{198}\right)\\ &\approx 1 - (0.1340 + 0.2707 + 0.2720) \\ &= 0.3233. \end{aligned}\end{split}\]

Kun approksimoidaan \(\Bin(200, 0.01) \approx \Poi(2)\), todennäköisyydeksi saadaan \(4\) desimaalin tarkkuudella sama tulos:

\[P(X \geq 3) \approx 1 - e^{-2}\left(\frac{2^0}{0!}+\frac{2^1}{1!}+\frac{2^2}{2!}\right) = 1 - e^{-2}(1+2+2) \approx 0.3233.\]

Matlabilla laskut saa komennoilla

   1- binocdf(2, 200, 0.01)  % Matlab, Binomijakauma
   1- poisscdf(2, 2)  % Matlab, Poisson jakauma

Vastaavat R-komennot ovat

   1- pbinom(2, 200, 0.01)  # R, Binomijakauma
   1- ppois(2, 2)  # R, Poisson jakauma

Erään diskreetin satunnaismuuttujan \(X\) empiiriseksi frekvenssijakaumaksi on saatu seuraavan kuvan mukainen.

../_images/jakaumia-frekvenssit.png
Mitä jakaumatyyppiä muuttujan \(X\) voitaisiin olettaa noudattavan?

Poissonin jakaumalla ja eksponenttijakaumalla on seuraavanlainen yhteys.

Esimerkki 4.3.8

Oletetaan, että satunnaisen tapahtuman esiintymiskertojen lukumäärä \(X\) tietyllä aikavälillä \([0, t]\) noudattaa Poissonin jakaumaa. Jos tapahtumien keskimääräistä lukumäärää aikayksikössä merkitään luvulla \(\lambda>0\), niin aikavälille \([0, t]\) osuu \(\lambda t\) tapahtumaa ja \(X \sim \Poi(\lambda t)\) tiheysfunktiolla

\[f(x)=\frac{(\lambda t)^x}{x!}e^{-\lambda t}.\]

Olkoon ensimmäisen tapahtuman realisoitumisaika satunnaismuuttuja \(T\). Jos aikavälillä \([0,t]\) ei satu yhtään tapahtumaa, on \(T>t\). Tämän todennäköisyys

\[P(T>t)=P(X=0)=e^{-\lambda t},\]

joten komplementtitapahtuman todennäköisyys on

\[P(T\leq t)=1-e^{{-\lambda t}}\]

Näin on saatu satunnaismuuttujan \(T\) kertymäfunktio ja tiheysfunktio saadaan derivoimalla

\[f(t)=\frac{\rd}{\rd t}P(T \leq t)=\lambda e^{-\lambda t}.\]

Tämä jakauma on eksponenttijakauma. Tapahtumien aikavälit Poissonin prosessissa noudattavat siis eksponenttijakaumaa \(\Exp(\lambda)\), missä \(\lambda\) on tapahtumien keskimääräinen määrä aikayksikössä.

Palautusta lähetetään...