ari23の研究ノート

メーカ勤務エンジニアの技術ブログです

確率統計|確率分布とは(具体例付き)

今回は確率統計の確率分布をまとめます🐜

離散型確率変数では二項分布ポアソン分布幾何分布を扱い、連続型確率変数では一様分布指数分布正規分布を扱います。また、それぞれがどんな確率変数であるときに現れるのか、できるだけ具体例をあげて整理します。

二項分布

定義

 X を(離散型)確率変数、 n を自然数、 0 \lt p \lt 1 とする。このとき、確率関数が次式で定まる確率分布を二項分布 B(n, p) という。

 \displaystyle
P(X=k) = {}_n \mathrm{C} {}_k p^k (1-p)^{n-k} \qquad (k=0, 1, 2, ..., n)

とくに n=1 のとき、ベルヌーイ分布 B(1, p) と呼ぶ。

平均と分散

確率変数 X が二項分布 B(n, p) に従うとき、平均 E[X] と分散 V[X] は次式となる。

 \displaystyle
\begin{align}
E[X]&= np \\
V[X]&= np(1-p)
\end{align}

確率変数 X が二項分布 B(n, p) に従う具体例は以下の通り。

  1. 試行を独立に繰り返すとき、ある事象が起こる回数

    • サイコロを無作為に n 回ふるとき、「1」の目が出る回数
    • 的に当たる確率が一定のとき、 n 回独立にダーツを投げて的に当たる回数
    • ミスしない確率が一定のとき、5回独立に演奏してミスしない回数
  2. ランダムサンプルの中で、ある特性をもつ個体数

    • 無作為に選んだ n 人のうちの、現内閣支持者数
    • 無作為に選んだ n 世帯のうちの、ある番組をみた世帯数
    • 無作為に選んだ n 個の製品のうちの、不良品数

ポアソン分布

定義

 X を(離散型)確率変数、 \lambda \gt 1 とする。このとき、確率関数が次式で定まる確率分布をポアソン分布 P_{o}(\lambda) という。

 \displaystyle
P(X=k) = e^{-\lambda} \frac{\lambda^{k}}{k!} \qquad (k=0, 1, 2, ...)

平均と分散

確率変数 X がポアソン分布 P_{o}(\lambda) に従うとき、平均 E[X] と分散 V[X] は次式となる。

 \displaystyle
\begin{align}
E[X]&= \lambda \\
V[X]&= \lambda
\end{align}

確率変数 X がポアソン分布に従う具体例は以下の通り。

  1. ある条件下で大量観測地にまれな現象(事象)が起こる回数
    (ある条件とは「1回の観測で現象が起こる確率が一定で、各観測時の現象の生起が独立であること」である)

    • 5ページあたりのミスプリント箇所数
    • チケットのキャンセル者数
    • ある売り場での宝くじの高額当選者数
  2. ある条件下で時間経過や空間の広がりにより、特定の現象が起こる回数
    (ある条件とは「時間または空間を細かく等分割したとき、各分割区間(領域)で現象が起こる回数は1か0であり、現象が起こる分割区間(領域)が二項分布に従うこと」である)

    • 一定時間内に、ある番号にかかってくる電話の本数
    • 一定時間内に、ある窓口に訪れる来客者数
    • あるエリアに生えている野草の数
  3. 二項分布のポアソン近似
    確率変数 X が二項分布 B(n, p) に従い、 n \gg 1  np が大きくないとき、 X は近似的にポアソン分布 P_{o}(\lambda) に従う。
     np が大きくない目安は、 np \leq 5 とする。
     n \gg 1  np が大きくない」条件は、「 n \gg 1,\ 0 \lt p \ll 1 」でもよい。

幾何分布

定義

 X を(離散型)確率変数、 0 \lt p \lt 1 とする。このとき、確率関数が次式で定まる確率分布を幾何分布 G_{e}(p) という。

 \displaystyle
P(X=k) = p(1-p)^{k-1} \qquad (k=1, 2, 3, ...)

平均と分散

確率変数 X が幾何分布 G_{e}(p) に従うとき、平均 E[X] と分散 V[X] は次式となる。

 \displaystyle
\begin{align}
E[X]&= \frac{1}{p} \\
V[X]&= \frac{1-p}{p^{2}}
\end{align}

確率変数 X が幾何分布に従う具体例は以下の通り。

  1. 試行を独立に繰り返すとき、ある事象が初めて起こるまでにかかる回数
    • サイコロを無作為にふるとき、初めて「1」の目が出るのが X 回目
    • 射的の成功率が p のとき、的に当てて景品をもらえるまでの回数

一様分布

定義

 X を(連続型)確率変数、実数 a, b  a \lt b とする。このとき、確率密度関数が次式で定まる確率分布を一様分布 U(a, b) という。

 \displaystyle
f(x) =
\begin{cases}
\frac{1}{b-a} & (a \leq x \leq b) \\
0 & (x \lt a,\ b \lt x)
\end{cases}

ただし、連続型確率変数では区間の端点の有無は確率に影響しないことに注意すること。

平均と分散

確率変数 X が一様分布 U(a, b) に従うとき、平均 E[X] と分散 V[X] は次式となる。

 \displaystyle
\begin{align}
E[X]&= \frac{b + a}{2} \\
V[X]&= \frac{(b-a)^{2}}{12}
\end{align}

確率変数 X が一様分布に従う具体例は以下の通り。

  1.  X がある区間の値をとり、一様の起こりやすさがあるとき
    • 10分おきに発車する地下鉄に、無作為に到着したときの待ち時間
    • 無作為に与えられた数値の、四捨五入(丸めこみ)の誤差

指数分布

定義

 X を(連続型)確率変数、 \lambda \gt 0 とする。このとき、確率密度関数が次式で定まる確率分布を指数分布 E_{x}(\lambda) という。

 \displaystyle
f(x) =
\begin{cases}
\lambda e^{-\lambda x} & (x \gt 0) \\
0 & (x \leq 0)
\end{cases}

ただし、連続型確率変数では区間の端点の有無は確率に影響しないことに注意すること。

平均と分散

確率変数 X が指数分布 E_{x}(\lambda) に従うとき、平均 E[X] と分散 V[X] は次式となる。

 \displaystyle
\begin{align}
E[X]&= \frac{1}{\lambda} \\
V[X]&= \frac{1}{\lambda^{2}}
\end{align}

確率変数 X が指数分布に従う具体例は以下の通り。

  1. ある条件下で時間経過により特定の現象が起こる時間間隔
    (ある条件とは「過去の結果に影響されない」こと、「ある時間何に起こる確率が、その時間区間の幅に比例する」ことである)
    • ある時間帯に客がくる時間間隔
    • ある時間帯に路上でタクシーを待つ時間
    • 製品の故障間隔(修理により同じ状況が保てる場合)

正規分布

定義

 X を(連続型)確率変数、 m を実数、 \sigma \gt 0 とする。このとき、確率密度関数が次式で定まる確率分布を正規分布 N(m, \sigma^{2}) という。

 \displaystyle
f(x) = \frac{1}{\sqrt{2\pi \sigma^{2}}} \exp \biggl( -\frac{(x-m)^{2}}{2 \sigma^{2}} \biggr) \qquad (x \in \mathbb{R})

とくに m = 0,\ \sigma = 1 のとき、標準正規分布 N(0, 1) という。

 \displaystyle
f(x) = \frac{1}{\sqrt{2\pi}} \exp \biggl( -\frac{x^{2}}{2} \biggr) \qquad (x \in \mathbb{R})

平均と分散

確率変数 X が正規分布 N(m, \sigma^{2}) に従うとき、平均 E[X] と分散 V[X] は次式となる。

 \displaystyle
\begin{align}
E[X]&= m \\
V[X]&= \sigma^2
\end{align}

確率変数 X が正規分布に従う具体例は以下の通り。

  1. 二項分布の正規近似
     X  B(n, p) に従うとき、 n \gg 1 ならば X は近似的に N(np, np(1-p)) に従う

  2. 大標本での標本平均、標本比率

  3. 経験上(過去のデータから)正規分布に従うとみなされる確率変数
    たとえば、試験の点数、身長、実験の測定誤差/観測誤差など

おわりに

機械学習の本を読んでると、なんでもかんでも正規分布にしてしまうような気がしていたので、今回分布ごとにその分布が従う例を整理しました。個人的にはすごくすっきりしてよかったです。

参考になれば幸いです(^^)

以下では、確率統計の基本レベルを整理していますので、よろしければご覧ください。

Probability statistics カテゴリーの記事一覧 - ari23の研究ノート

参考文献

参考文献は以下の通りです。