\[\newcommand{\N}{\mathbb N}
\newcommand{\Z}{\mathbb Z}
\newcommand{\Q}{\mathbb Q}
\newcommand{\R}{\mathbb R}
\newcommand{\C}{\mathbb C}
\newcommand{\ba}{\mathbf{a}}
\newcommand{\bb}{\mathbf{b}}
\newcommand{\bc}{\mathbf{c}}
\newcommand{\bd}{\mathbf{d}}
\newcommand{\be}{\mathbf{e}}
\newcommand{\bff}{\mathbf{f}}
\newcommand{\bh}{\mathbf{h}}
\newcommand{\bi}{\mathbf{i}}
\newcommand{\bj}{\mathbf{j}}
\newcommand{\bk}{\mathbf{k}}
\newcommand{\bN}{\mathbf{N}}
\newcommand{\bn}{\mathbf{n}}
\newcommand{\bo}{\mathbf{0}}
\newcommand{\bp}{\mathbf{p}}
\newcommand{\bq}{\mathbf{q}}
\newcommand{\br}{\mathbf{r}}
\newcommand{\bs}{\mathbf{s}}
\newcommand{\bT}{\mathbf{T}}
\newcommand{\bu}{\mathbf{u}}
\newcommand{\bv}{\mathbf{v}}
\newcommand{\bw}{\mathbf{w}}
\newcommand{\bx}{\mathbf{x}}
\newcommand{\by}{\mathbf{y}}
\newcommand{\bz}{\mathbf{z}}
\newcommand{\bzero}{\mathbf{0}}
\newcommand{\nv}{\mathbf{0}}
\newcommand{\cA}{\mathcal{A}}
\newcommand{\cB}{\mathcal{B}}
\newcommand{\cC}{\mathcal{C}}
\newcommand{\cD}{\mathcal{D}}
\newcommand{\cE}{\mathcal{E}}
\newcommand{\cF}{\mathcal{F}}
\newcommand{\cG}{\mathcal{G}}
\newcommand{\cH}{\mathcal{H}}
\newcommand{\cI}{\mathcal{I}}
\newcommand{\cJ}{\mathcal{J}}
\newcommand{\cK}{\mathcal{K}}
\newcommand{\cL}{\mathcal{L}}
\newcommand{\cM}{\mathcal{M}}
\newcommand{\cN}{\mathcal{N}}
\newcommand{\cO}{\mathcal{O}}
\newcommand{\cP}{\mathcal{P}}
\newcommand{\cQ}{\mathcal{Q}}
\newcommand{\cR}{\mathcal{R}}
\newcommand{\cS}{\mathcal{S}}
\newcommand{\cT}{\mathcal{T}}
\newcommand{\cU}{\mathcal{U}}
\newcommand{\cV}{\mathcal{V}}
\newcommand{\cW}{\mathcal{W}}
\newcommand{\cX}{\mathcal{X}}
\newcommand{\cY}{\mathcal{Y}}
\newcommand{\cZ}{\mathcal{Z}}
\newcommand{\rA}{\mathrm{A}}
\newcommand{\rB}{\mathrm{B}}
\newcommand{\rC}{\mathrm{C}}
\newcommand{\rD}{\mathrm{D}}
\newcommand{\rE}{\mathrm{E}}
\newcommand{\rF}{\mathrm{F}}
\newcommand{\rG}{\mathrm{G}}
\newcommand{\rH}{\mathrm{H}}
\newcommand{\rI}{\mathrm{I}}
\newcommand{\rJ}{\mathrm{J}}
\newcommand{\rK}{\mathrm{K}}
\newcommand{\rL}{\mathrm{L}}
\newcommand{\rM}{\mathrm{M}}
\newcommand{\rN}{\mathrm{N}}
\newcommand{\rO}{\mathrm{O}}
\newcommand{\rP}{\mathrm{P}}
\newcommand{\rQ}{\mathrm{Q}}
\newcommand{\rR}{\mathrm{R}}
\newcommand{\rS}{\mathrm{S}}
\newcommand{\rT}{\mathrm{T}}
\newcommand{\rU}{\mathrm{U}}
\newcommand{\rV}{\mathrm{V}}
\newcommand{\rW}{\mathrm{W}}
\newcommand{\rX}{\mathrm{X}}
\newcommand{\rY}{\mathrm{Y}}
\newcommand{\rZ}{\mathrm{Z}}
\newcommand{\pv}{\overline}
\newcommand{\iu}{\mathrm{i}}
\newcommand{\ju}{\mathrm{j}}
\newcommand{\im}{\mathrm{i}}
\newcommand{\e}{\mathrm{e}}
\newcommand{\real}{\operatorname{Re}}
\newcommand{\imag}{\operatorname{Im}}
\newcommand{\Arg}{\operatorname{Arg}}
\newcommand{\Ln}{\operatorname{Ln}}
\DeclareMathOperator*{\res}{res}
\newcommand{\re}{\operatorname{Re}}
\newcommand{\im}{\operatorname{Im}}
\newcommand{\arsinh}{\operatorname{ar\,sinh}}
\newcommand{\arcosh}{\operatorname{ar\,cosh}}
\newcommand{\artanh}{\operatorname{ar\,tanh}}
\newcommand{\sgn}{\operatorname{sgn}}
\newcommand{\diag}{\operatorname{diag}}
\newcommand{\proj}{\operatorname{proj}}
\newcommand{\rref}{\operatorname{rref}}
\newcommand{\rank}{\operatorname{rank}}
\newcommand{\Span}{\operatorname{span}}
\newcommand{\vir}{\operatorname{span}}
\renewcommand{\dim}{\operatorname{dim}}
\newcommand{\alg}{\operatorname{alg}}
\newcommand{\geom}{\operatorname{geom}}
\newcommand{\id}{\operatorname{id}}
\newcommand{\norm}[1]{\lVert #1 \rVert}
\newcommand{\tp}[1]{#1^{\top}}
\renewcommand{\d}{\mathrm{d}}
\newcommand{\sij}[2]{\bigg/_{\mspace{-15mu}#1}^{\,#2}}
\newcommand{\abs}[1]{\lvert#1\rvert}
\newcommand{\pysty}[1]{\left[\begin{array}{@{}r@{}}#1\end{array}\right]}
\newcommand{\piste}{\cdot}
\newcommand{\qedhere}{}
\newcommand{\taumatrix}[1]{\left[\!\!#1\!\!\right]}
\newenvironment{augmatrix}[1]{\left[\begin{array}{#1}}{\end{array}\right]}
\newenvironment{vaugmatrix}[1]{\left|\begin{array}{#1}}{\end{array}\right|}
\newcommand{\trans}{\mathrm{T}}
\newcommand{\EUR}{\text{\unicode{0x20AC}}}
\newcommand{\SI}[3][]{#2\,\mathrm{#3}}
\newcommand{\si}[2][]{\mathrm{#2}}
\newcommand{\num}[2][]{#2}
\newcommand{\ang}[2][]{#2^{\circ}}
\newcommand{\meter}{m}
\newcommand{\metre}{\meter}
\newcommand{\kilo}{k}
\newcommand{\kilogram}{kg}
\newcommand{\gram}{g}
\newcommand{\squared}{^2}
\newcommand{\cubed}{^3}
\newcommand{\minute}{min}
\newcommand{\hour}{h}
\newcommand{\second}{s}
\newcommand{\degreeCelsius}{^{\circ}C}
\newcommand{\per}{/}
\newcommand{\centi}{c}
\newcommand{\milli}{m}
\newcommand{\deci}{d}
\newcommand{\percent}{\%}
\newcommand{\Var}{\operatorname{Var}}
\newcommand{\Cov}{\operatorname{Cov}}
\newcommand{\Corr}{\operatorname{Corr}}
\newcommand{\Tasd}{\operatorname{Tasd}}
\newcommand{\Ber}{\operatorname{Ber}}
\newcommand{\Bin}{\operatorname{Bin}}
\newcommand{\Geom}{\operatorname{Geom}}
\newcommand{\Poi}{\operatorname{Poi}}
\newcommand{\Hyperg}{\operatorname{Hyperg}}
\newcommand{\Tas}{\operatorname{Tas}}
\newcommand{\Exp}{\operatorname{Exp}}
\newcommand{\tdist}{\operatorname{t}}
\newcommand{\rd}{\mathrm{d}}\]
Binomijakauma
Palataan sitten tutkimaan tärkeimpiä diskreettejä ja jatkuvia todennäköisyysjakaumia. Niistä ensimmäinen muodostuu seuraavan Bernoullin kokeen toistona. Oletetaan, että satunnaiskokeen tulosvaihtoehdot (koodattuna) ovat \(0\) ja \(1\), eli tarkastelun kohteena oleva tapahtuma joko ei realisoidu tai realisoituu. Ensimmäistä vaihtoehtoa kutsutaan myös epäonnistumiseksi ja jälkimmäistä onnistumiseksi. Kiinnitetään onnistumisen todennäköisyydeksi \(p\), jolloin epäonnistumisen todennäköisyys on \(1 - p\).
Bernoullin jakauman kuvaama satunnaiskoe voidaan yleistää toistamalla sitä \(n\) kertaa siten, että jokainen toisto on toisista riippumaton. Onnistumisien lukumäärä tässä \(n\)-toistokokeessa on uusi diskreetti satunnaismuuttuja \(X\), jonka mahdolliset arvot ovat kokonaislukuja \(0,1,\ldots,n\). Siihen liittyvät alkeistapaukset ovat nollista ja ykkösistä koostuvia jonoja, joissa on \(x\) kappaletta onnistumisia ja \(n - x\) kappaletta epäonnistumisia jossakin järjestyksessä. Koska onnistumisen todennäköisyys on \(p\) ja toistot ovat riippumattomia toisistaan, yksittäinen alkeistapaus realisoituu todennäköisyydellä \(p^{x}(1 - p)^{n - x}\). Vaihtoehtoja alkeistapahtumiksi, joihin liittyy \(x\) onnistumista, on \(\binom{n}{x}\) erilaista, joten
\[P(X=x)=\binom{n}{x}p^x(1-p)^{n-x}.\]
Binomijakauman tiheysfunktion \(f\) arvoja \(f(x) = b(x; n, p)\) otosavaruuden pisteissä sanotaan binomitodennäköisyyksiksi.
Lause 4.2.3
Jos satunnaismuuttuja \(X\sim\Bin(n,p)\),
niin sen odotusarvo ja varianssi ovat
\[\rE(X)=np \qquad\text{ja}\qquad \Var(X)=np(1-p).\]
Piilota/näytä todistus
Olkoon \(X_i \sim \Ber(p)\), \(i\in\{1,2,3,\ldots n\}\) riippumattomia Bernoullijakautuneita satunnaismuuttujia. Niiden otosavaruus \(\Omega = \{0, 1\}\) ja tiheysfunktio
\[\begin{split}f(x) =
\begin{cases}
p, & \text{kun } x = 1 \\ 1 - p, & \text{kun } x = 0.
\end{cases}\end{split}\]
Nyt odotusarvon määritelmän mukaan
\[\rE(X_i)=\sum_{x=0}^1 xf(x) = 0\cdot(1-p) + 1\cdot p = p\]
Varianssia varten lasketaan ensin
\[E(X_i^2)=\sum_{x=0}^1 x^2f(x) = 0^2\cdot(1-p) + 1^2\cdot p = p\]
ja
\[\Var(X_i)=E(X_i^2)- E(X_i)^2 = p-p^2=p(1-p)\]
Kun nämä riippumattomat satunnaismuuttujat lasketaan yhteen saadaan
\[X_1+X_2+\cdots +X_n = X\sim\Bin(n,p)\]
ja satunnaismuuttujien summan odotusarvon tuloksen mukaan
\[\rE(X)=\rE(X_1+X_2+\cdots +X_n)=\rE(X_1)+\rE(X_2)+\cdots +\rE(X_n)=np\]
ja riippumattomien satunnaismuuttujien summan varianssin tuloksen mukaan
\[\Var(X)=\Var(X_1+X_2+\cdots +X_n)=\Var(X_1)+\Var(X_2)+\cdots +\Var(X_n)=np(1-p)\]
Esimerkki 4.2.4
Isossa määrässä arpoja joka \(5.\) arpa voittaa. Millä todennäköisyydellä 10 arpaa ostava saa vähintään 2 voittoarpaa?
Arpojen ostaminen on esimerkki otannasta palauttamatta. Koska arpoja on rajallinen määrä, jokaisen oston jälkeen voittoarvan saamisen todennäköisyys muuttuu. Tässä tilanteessa, jossa arpojen kokonaismäärää ei tiedetä, ei ole kuitenkaan mahdollisuutta arvoida todennäköisyyden muutosta. Kun sanotaan, että arpoja on paljon, todennäköisyyden muutos on niin pieni, että tilannetta voi arvioida binomijakaumalla käyttäen kiinteää todennäköisyyttä \(p=0.2\).
Voittoarpojen lukumäärä 10 ostetun arvan joukossa on satunnaismuuttuja
\(X \sim \Bin(10, 0.2)\) tiheysfunktiona
\[f(x)=\binom{10}{x}0.2^x(1-0.2)^{10-x}=\binom{10}{x}0.2^x(0.8)^{10-x},\ \Omega=\{0,1,2,\ldots, 10\}\]
Nyt \(\rE(X)=np=10\cdot 0.2 = 2\). Keskimäärin 10 arvan joukossa on 2 voittoarpaa. Todennäköisyys saada vähintään 2 voittoarpaa on
\[\begin{split}\begin{array}{rcl}
P(X\geq 2)&=&1-P(X<2)=1-P(X=0)-P(X=1)\\
&=&1-\displaystyle\binom{10}{0}0.2^0(0.8)^{10}-\displaystyle\binom{10}{1}0.2^1(0.8)^{9}\\
&=&0.6242
\end{array}\end{split}\]
Matlabin komennot binopdf
ja binocdf
laskevat binomijakauman tiheys- ja kertymäfunktioiden arvoja. Vastauksen voi laskea Matlabilla
pistetodennäköisyyksien summana
1- sum(binopdf([0 1], 10, 0.2))
tai kertymäfunktion avulla. Huomaa, että kertymäfunktiota käytettäessä pisteen \(X=2\) todennäköisyys sisältyy kertymäfunktion arvoon \(F(2)\) ja siksi lasketaankin
\(1-P(X< 2)= 1-P(X\leq 1)=1-F(1)\)
1- binocdf(1, 10, 0.2)
R:n vastaavat komennot tiheys- ja kertymäfunktioille ovat dbinom
ja pbinom
ja ratkaisu saadaan
1 - dbinom(0, 10, 0.2) - dbinom(1, 10, 0.2)
1 - pbinom(1, 10, 0.2)
Esimerkki 4.2.5
Erään tuottajan transistoreista \(5~\%\) on viallisia. Asiakas ostaa \(6\) transistoria ja kuvaa viallisten laitteiden lukumäärää otoksessaan satunnaismuuttujalla \(X\). Laske todennäköisyys sille, että asiakas saa
a) yksi tai kaksi viallista transistoria
b) vähintään yhden viallisen transistorin.
Kyseessä on \(6\)-toistokoe, jossa onnistumisen, eli viallisen transistorin saamisen todennäköisyys yksittäisellä toistolla on \(0.05\). Täten satunnaismuuttuja \(X\sim\Bin(6, 0.05)\) tiheysfunktionaan
\[f(x)=\binom{6}{x}0.05^x\cdot 0.95^{6-x},\qquad\text{kun }x\in\{0,1,\ldots,6\}.\]
Satunnaismuuttujan odotusarvo on \(\rE(X)=np=6\cdot0.05=0.3\) ja varianssi
\(\Var(X)=np(1-p)=6\cdot0.05\cdot 0.95=0.285\).
a) Todennäköisyys sille, että asiakas saa yhden tai kaksi viallista transistoria on
\[P(1 \leq X \leq 2) = \binom{6}{1}\cdot0.05\cdot0.95^5+\binom{6}{2}\cdot0.05^2\cdot0.95^4\approx0.2627.\]
Matlabilla edellinen tulos voitaisiin laskea pistetodennäköisyyksien summana
sum(binopdf([1 2], 6, 0.05))
tai kertymäfunktion avulla. Kertymäfunktiota käytettäessä pisteen \(X=1\) todennäköisyys sisältyy kertymäfunktion arvoon \(F(1)\) ja siksi käytetään muotoa
\(P(1\leq X\leq 2)= P(0< X\leq 2)\)
binocdf(2, 6, 0.05) - binocdf(0, 6, 0.05)
R:n vastaavat komennot olisivat
dbinom(1, 6, 0.05) + dbinom(2, 6, 0.05)
pbinom(2, 6, 0.05) - pbinom(0, 6, 0.05)
b) Todennäköisyys sille, että asiakas saa vähintään yhden viallisen transistorin on
\[P(X\geq1)=1-P(X<1)=1-P(X=0)=1-0.95^6\approx0.2649.\]
Matlab- ja R-komennot ovat
1 - binopdf(0, 6, 0.05) % Matlab
1 - dbinom(0, 6, 0.05) # R