ari23の研究ノート

メーカ勤務エンジニアの技術ブログです

確率統計|平均と分散とは

今回は統計の続きとして、平均と、分散または標準偏差をまとめます🐜 なお、前回の記事は以下から見てみてください。

ari23.hatenablog.com

平均

平均とは、ある集合におけるもっともよく使われる代表値1の1つである。
平均を求める際は、必ず確率という重みを考慮する必要がある。

以降では、確率変数がデータ、離散型、連続型の3つの場合に分けて整理する。

データ

確率変数 X がデータ値 {x_1, x_2, ..., x_n} であるとき、 X の平均 m または E[X] は次式で定義する。

 \displaystyle
m = E[X]= \frac{1}{n} \sum_{k=1}^{n} x_k

離散型

確率変数 X が離散型で、確率関数を P(X=x) = p_k (k=1, 2, ...) とするとき、 X の平均 m または E[X] は次式で定義する。

 \displaystyle
m = E[X]= \sum_{k}^{} x_k p_k

上式において、 k  k=1, 2, ..., n で、すべての k について p_k = 1/n であるとき、確率変数 X データであるときの平均と同じになることに注意すること。

連続型

確率変数 X が連続型で、確率密度関数 f(x) とするとき、 X の平均 m または E[X] は次式で定義する。

 \displaystyle
m = E[X]= \int_{-\infty}^{\infty} x f(x) dx

分散・標準偏差

分散とは、ある集合におけるばらつきを示す指標の1つであり、平均を使って定義できる。

確率変数 X に対し、平均 m または E[X] とするとき、分散 \sigma^{2} または V[X] は次式で定義する。

 \displaystyle
\sigma^2 = V[X]= E[(X-m)^2]

また、 \sigma を確率変数 X の標準偏差という。

 \displaystyle
\sigma = \sqrt{V[X]} = \sqrt{E[(X-m)^2]}

平均と同様に、以降では確率変数がデータ、離散型、連続型の3つの場合に分けて整理する。

データ

確率変数 X がデータ値 {x_1, x_2, ..., x_n} であるとき、 X の分散 \sigma^{2} または V[X] は次式で定義する。

 \displaystyle
\sigma^2 = V[X]= \frac{1}{n} \sum_{k=1}^{n} (x_k - m)^2

離散型

確率変数 X が離散型で、確率関数を P(X=x) = p_k (k=1, 2, ...) とするとき、 X の分散 \sigma^{2} または V[X] は次式で定義する。

 \displaystyle
\sigma^2 = V[X]= \sum_{k}^{} (x_k - m)^2 p_k

連続型

確率変数 X が連続型で、確率密度関数 f(x) とするとき、 X の分散 \sigma^{2} または V[X] は次式で定義する。

 \displaystyle
\sigma^2 = V[X]= \int_{-\infty}^{\infty} (x - m)^2 f(x) dx

まとめ

上記をまとめると、以下の通り。

確率変数 平均 m 分散 \sigma^{2}
データ  \displaystyle \frac{1}{n} \sum_{k=1}^{n} x_k  \displaystyle \frac{1}{n} \sum_{k=1}^{n} (x_k - m)^{2}
離散型  \displaystyle \sum_{k}^{} x_k p_k  \displaystyle \sum_{k}^{} (x_k - m)^{2} p_k
連続型  \displaystyle \int_{-\infty}^{\infty} x f(x) dx  \displaystyle \int_{-\infty}^{\infty} (x - m)^{2} f(x) dx

おわりに

参考文献で紹介した技術書をもとに整理しました。

参考になれば幸いです(^^)

以下では、確率統計の基本レベルを整理していますので、よろしければご覧ください。

Probability statistics カテゴリーの記事一覧 - ari23の研究ノート

参考文献

参考文献は以下の通りです。



  1. なんでもかんでも平均値を使って議論する人は好きでないです。せめて分散も含めてほしい。