\[\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \newcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bff}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\nv}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\pv}{\overline} \newcommand{\iu}{\mathrm{i}} \newcommand{\ju}{\mathrm{j}} \newcommand{\im}{\mathrm{i}} \newcommand{\e}{\mathrm{e}} \newcommand{\real}{\operatorname{Re}} \newcommand{\imag}{\operatorname{Im}} \newcommand{\Arg}{\operatorname{Arg}} \newcommand{\Ln}{\operatorname{Ln}} \DeclareMathOperator*{\res}{res} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\sgn}{\operatorname{sgn}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \newcommand{\vir}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\norm}[1]{\lVert #1 \rVert} \newcommand{\tp}[1]{#1^{\top}} \renewcommand{\d}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-15mu}#1}^{\,#2}} \newcommand{\abs}[1]{\lvert#1\rvert} \newcommand{\pysty}[1]{\left[\begin{array}{@{}r@{}}#1\end{array}\right]} \newcommand{\piste}{\cdot} \newcommand{\qedhere}{} \newcommand{\taumatrix}[1]{\left[\!\!#1\!\!\right]} \newenvironment{augmatrix}[1]{\left[\begin{array}{#1}}{\end{array}\right]} \newenvironment{vaugmatrix}[1]{\left|\begin{array}{#1}}{\end{array}\right|} \newcommand{\trans}{\mathrm{T}} \newcommand{\EUR}{\text{\unicode{0x20AC}}} \newcommand{\SI}[3][]{#2\,\mathrm{#3}} \newcommand{\si}[2][]{\mathrm{#2}} \newcommand{\num}[2][]{#2} \newcommand{\ang}[2][]{#2^{\circ}} \newcommand{\meter}{m} \newcommand{\metre}{\meter} \newcommand{\kilo}{k} \newcommand{\kilogram}{kg} \newcommand{\gram}{g} \newcommand{\squared}{^2} \newcommand{\cubed}{^3} \newcommand{\minute}{min} \newcommand{\hour}{h} \newcommand{\second}{s} \newcommand{\degreeCelsius}{^{\circ}C} \newcommand{\per}{/} \newcommand{\centi}{c} \newcommand{\milli}{m} \newcommand{\deci}{d} \newcommand{\percent}{\%} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}}\]

Binomijakauma

Palataan sitten tutkimaan tärkeimpiä diskreettejä ja jatkuvia todennäköisyysjakaumia. Niistä ensimmäinen muodostuu seuraavan Bernoullin kokeen toistona. Oletetaan, että satunnaiskokeen tulosvaihtoehdot (koodattuna) ovat \(0\) ja \(1\), eli tarkastelun kohteena oleva tapahtuma joko ei realisoidu tai realisoituu. Ensimmäistä vaihtoehtoa kutsutaan myös epäonnistumiseksi ja jälkimmäistä onnistumiseksi. Kiinnitetään onnistumisen todennäköisyydeksi \(p\), jolloin epäonnistumisen todennäköisyys on \(1 - p\).

Määritelmä 4.2.1

Diskreetti satunnaismuuttuja \(X\) noudattaa Bernoullin jakaumaa (Bernoulli distribution) parametrilla \(p\), \(X \sim \Ber(p)\), jos sen otosavaruus \(\Omega = \{0, 1\}\) ja tiheysfunktio

\[\begin{split}f(x) = \begin{cases} p, & \text{kun } x = 1 \\ 1 - p, & \text{kun } x = 0. \end{cases}\end{split}\]

Bernoullin jakauman kuvaama satunnaiskoe voidaan yleistää toistamalla sitä \(n\) kertaa siten, että jokainen toisto on toisista riippumaton. Onnistumisien lukumäärä tässä \(n\)-toistokokeessa on uusi diskreetti satunnaismuuttuja \(X\), jonka mahdolliset arvot ovat kokonaislukuja \(0,1,\ldots,n\). Siihen liittyvät alkeistapaukset ovat nollista ja ykkösistä koostuvia jonoja, joissa on \(x\) kappaletta onnistumisia ja \(n - x\) kappaletta epäonnistumisia jossakin järjestyksessä. Koska onnistumisen todennäköisyys on \(p\) ja toistot ovat riippumattomia toisistaan, yksittäinen alkeistapaus realisoituu todennäköisyydellä \(p^{x}(1 - p)^{n - x}\). Vaihtoehtoja alkeistapahtumiksi, joihin liittyy \(x\) onnistumista, on \(\binom{n}{x}\) erilaista, joten

\[P(X=x)=\binom{n}{x}p^x(1-p)^{n-x}.\]

Määritelmä 4.2.2

Diskreetti satunnaismuuttuja \(X\) noudattaa binomijakaumaa (binomial distribution) parametrein \(n\) ja \(p\), \(X\sim\Bin(n,p)\), jos sen otosavaruus

\[\Omega=\{0,1,\ldots,n\}\]

ja tiheysfunktio

\[f(x)=b(x; n, p)=\binom{n}{x}p^x(1-p)^{n-x},\qquad\text{kun }x \in \Omega.\]
../_images/kuva29bin1ja2.svg
Mitä seuraavista satunnaismuuttujista voitaisiin kuvata luotettavimmin binomijakaumalla?

Binomijakauman tiheysfunktion \(f\) arvoja \(f(x) = b(x; n, p)\) otosavaruuden pisteissä sanotaan binomitodennäköisyyksiksi.

Lause 4.2.3

Jos satunnaismuuttuja \(X\sim\Bin(n,p)\), niin sen odotusarvo ja varianssi ovat

\[\rE(X)=np \qquad\text{ja}\qquad \Var(X)=np(1-p).\]
Piilota/näytä todistus

Olkoon \(X_i \sim \Ber(p)\), \(i\in\{1,2,3,\ldots n\}\) riippumattomia Bernoullijakautuneita satunnaismuuttujia. Niiden otosavaruus \(\Omega = \{0, 1\}\) ja tiheysfunktio

\[\begin{split}f(x) = \begin{cases} p, & \text{kun } x = 1 \\ 1 - p, & \text{kun } x = 0. \end{cases}\end{split}\]

Nyt odotusarvon määritelmän mukaan

\[\rE(X_i)=\sum_{x=0}^1 xf(x) = 0\cdot(1-p) + 1\cdot p = p\]

Varianssia varten lasketaan ensin

\[E(X_i^2)=\sum_{x=0}^1 x^2f(x) = 0^2\cdot(1-p) + 1^2\cdot p = p\]

ja

\[\Var(X_i)=E(X_i^2)- E(X_i)^2 = p-p^2=p(1-p)\]

Kun nämä riippumattomat satunnaismuuttujat lasketaan yhteen saadaan

\[X_1+X_2+\cdots +X_n = X\sim\Bin(n,p)\]

ja satunnaismuuttujien summan odotusarvon tuloksen mukaan

\[\rE(X)=\rE(X_1+X_2+\cdots +X_n)=\rE(X_1)+\rE(X_2)+\cdots +\rE(X_n)=np\]

ja riippumattomien satunnaismuuttujien summan varianssin tuloksen mukaan

\[\Var(X)=\Var(X_1+X_2+\cdots +X_n)=\Var(X_1)+\Var(X_2)+\cdots +\Var(X_n)=np(1-p)\]

Esimerkki 4.2.4

Isossa määrässä arpoja joka \(5.\) arpa voittaa. Millä todennäköisyydellä 10 arpaa ostava saa vähintään 2 voittoarpaa?

Arpojen ostaminen on esimerkki otannasta palauttamatta. Koska arpoja on rajallinen määrä, jokaisen oston jälkeen voittoarvan saamisen todennäköisyys muuttuu. Tässä tilanteessa, jossa arpojen kokonaismäärää ei tiedetä, ei ole kuitenkaan mahdollisuutta arvoida todennäköisyyden muutosta. Kun sanotaan, että arpoja on paljon, todennäköisyyden muutos on niin pieni, että tilannetta voi arvioida binomijakaumalla käyttäen kiinteää todennäköisyyttä \(p=0.2\).

Voittoarpojen lukumäärä 10 ostetun arvan joukossa on satunnaismuuttuja

\(X \sim \Bin(10, 0.2)\) tiheysfunktiona

\[f(x)=\binom{10}{x}0.2^x(1-0.2)^{10-x}=\binom{10}{x}0.2^x(0.8)^{10-x},\ \Omega=\{0,1,2,\ldots, 10\}\]

Nyt \(\rE(X)=np=10\cdot 0.2 = 2\). Keskimäärin 10 arvan joukossa on 2 voittoarpaa. Todennäköisyys saada vähintään 2 voittoarpaa on

\[\begin{split}\begin{array}{rcl} P(X\geq 2)&=&1-P(X<2)=1-P(X=0)-P(X=1)\\ &=&1-\displaystyle\binom{10}{0}0.2^0(0.8)^{10}-\displaystyle\binom{10}{1}0.2^1(0.8)^{9}\\ &=&0.6242 \end{array}\end{split}\]

Matlabin komennot binopdf ja binocdf laskevat binomijakauman tiheys- ja kertymäfunktioiden arvoja. Vastauksen voi laskea Matlabilla pistetodennäköisyyksien summana

 1- sum(binopdf([0 1], 10, 0.2))

tai kertymäfunktion avulla. Huomaa, että kertymäfunktiota käytettäessä pisteen \(X=2\) todennäköisyys sisältyy kertymäfunktion arvoon \(F(2)\) ja siksi lasketaankin

\(1-P(X< 2)= 1-P(X\leq 1)=1-F(1)\)

   1- binocdf(1, 10, 0.2)

R:n vastaavat komennot tiheys- ja kertymäfunktioille ovat dbinom ja pbinom ja ratkaisu saadaan

   1 - dbinom(0, 10, 0.2) - dbinom(1, 10, 0.2)
   1 - pbinom(1, 10, 0.2)

Esimerkki 4.2.5

Erään tuottajan transistoreista \(5~\%\) on viallisia. Asiakas ostaa \(6\) transistoria ja kuvaa viallisten laitteiden lukumäärää otoksessaan satunnaismuuttujalla \(X\). Laske todennäköisyys sille, että asiakas saa

a) yksi tai kaksi viallista transistoria

b) vähintään yhden viallisen transistorin.

Kyseessä on \(6\)-toistokoe, jossa onnistumisen, eli viallisen transistorin saamisen todennäköisyys yksittäisellä toistolla on \(0.05\). Täten satunnaismuuttuja \(X\sim\Bin(6, 0.05)\) tiheysfunktionaan

\[f(x)=\binom{6}{x}0.05^x\cdot 0.95^{6-x},\qquad\text{kun }x\in\{0,1,\ldots,6\}.\]

Satunnaismuuttujan odotusarvo on \(\rE(X)=np=6\cdot0.05=0.3\) ja varianssi

\(\Var(X)=np(1-p)=6\cdot0.05\cdot 0.95=0.285\).

a) Todennäköisyys sille, että asiakas saa yhden tai kaksi viallista transistoria on

\[P(1 \leq X \leq 2) = \binom{6}{1}\cdot0.05\cdot0.95^5+\binom{6}{2}\cdot0.05^2\cdot0.95^4\approx0.2627.\]

Matlabilla edellinen tulos voitaisiin laskea pistetodennäköisyyksien summana

   sum(binopdf([1 2], 6, 0.05))

tai kertymäfunktion avulla. Kertymäfunktiota käytettäessä pisteen \(X=1\) todennäköisyys sisältyy kertymäfunktion arvoon \(F(1)\) ja siksi käytetään muotoa

\(P(1\leq X\leq 2)= P(0< X\leq 2)\)

   binocdf(2, 6, 0.05) - binocdf(0, 6, 0.05)

R:n vastaavat komennot olisivat

   dbinom(1, 6, 0.05) + dbinom(2, 6, 0.05)
   pbinom(2, 6, 0.05) - pbinom(0, 6, 0.05)

b) Todennäköisyys sille, että asiakas saa vähintään yhden viallisen transistorin on

\[P(X\geq1)=1-P(X<1)=1-P(X=0)=1-0.95^6\approx0.2649.\]

Matlab- ja R-komennot ovat

   1 - binopdf(0, 6, 0.05) % Matlab
   1 - dbinom(0, 6, 0.05) # R 

Tarkastellaan seuraavassa binomijakaumaa \(\Bin(n, p)\).

Mitkä seuraavista väitteistä ovat oikein?

  1. Kun \(p = 0{,}5\), jakauma on symmetrinen luvun \(np\) ympärillä.
  2. Kun \(p < 0{,}5\), suurin osa todennäköisyydestä keskittyy keskikohdan \(n/2\) oikealle puolelle.
  3. Kun \(p < 0{,}5\), suurin osa todennäköisyydestä keskittyy keskikohdan \(n/2\) vasemmalle puolelle.
Palautusta lähetetään...