ari23の研究ノート

メーカ勤務エンジニアの技術ブログです

特徴尺度

統計学・機械学習において、抽出する特徴尺度または尺度について整理します🐜

特徴尺度の分類

特徴尺度は定性的特徴をもつ非数値データと、定量的特徴をもつ数値データに大別される。さらに非数値には名義尺度と順序尺度、数値データには間隔尺度と比例尺度があり、尺度としては4種ある。尺度の定義は以下の通り。

データ 尺度 定義
非数値 名義尺度 単なる名前。クラスラベル。 名前、住所、電話番号、単語など
非数値 順序尺度 順序の関係。比較は可能だが、足したり引いたりはできない。 アンケート調査の5段階評価「とても良い、良い、普通、悪い、とても悪い」や、成績評価「A+, A, B, C, D」など
数値 間隔尺度 等間隔性をもつ。原点が無ではない。加減算できる。 テストの点数、温度、時刻など
数値 比例尺度 いわゆる物差し。原点(0)が無を意味する。算減算に加えて乗除算できる。 身長、体重、年齢など

補足

いくつか補足します。

順序尺度は定義上、加減算できないため平均値を算出することはできません。しかし、比較はできるので中央値は出せます。

間隔尺度と比例尺度の大きな違いは2つあります。1つは原点が「無」であるかどうかです。例えば、間隔尺度であるテストの点数が0点だったとしても、学力が無いことを示しません。一方、比例尺度である身長が0cmであれば、それは無です。

もう1つは掛け算割り算をして意味があるかどうかです。例えば、間隔尺度の温度において、昨日と今日を比べて暑い寒いと評価することはできますが、〇倍暑いとは言いません。一方、比例尺度の体重において、20kgの子供と60kgの大人を比べて3倍重いと評価することはできます。

リッカート尺度

上述では、順序尺度は加減算できないと書きましたが、例外としてリッカート尺度があります。これは、例えばある文章に対して、「1:そう思う、2:少しそう思う、3:どちらでもない、4:あまりそうは思わない、5:そう思わない」の中から1つ選択してもらい、回答者の反応を測定する手法です。

当然、人の主観はバラバラで等間隔性を有しないのですが、その利便性から間隔尺度として扱うことが珍しくありません。今でも議論されているようですが、間隔尺度として分析しても実用上大きな問題に発展しないことが経験上わかっているため、慣習としてそのまま分析されてるみたいです。

具体例

もう少し理解を深めるために、ここでは陸上競技を考えてみます。

陸上競技には100m走200m走があり、道具を使うものであればやり投げ砲丸投げなどがあります。これらは単なる名前であるため、名義尺度です。以降では、陸上競技の1つであるマラソンに注目します。

マラソンでは、同じ場所で同時に走り始めて、目的地までに着いた順に1位、2位、3位...と順位を決めます。これはまさに順序の関係であるため、順序尺度です。

この順位は、目的地に到着した時刻でも評価することはできます。もちろんこれは等間隔性をもつので、間隔尺度です。

さらに出発時刻と到着時刻から目的地までにかかった時間や、距離も使えば速度が計算できます。これらは原点が無を意味し、剰余算できる単位なので、比例尺度です。

おわりに

尺度の分類についてまとめました。

わかっているつもりでも時折「あれ?」と混乱することもあったので、今回改めて整理しました。

参考になれば幸いです(^^)

参考文献

  • 「第1章はじめに」に尺度の説明があります。

  • 第2章1次元データに尺度の説明があります。私は辞書的な使い方をしてます。

  • 質問紙(リッカート尺度)のデータってふつうに分析して大丈夫なのか StatsBeginner: 初学者の統計学習ノート
    リッカート尺度の実際について論文付きで説明がありました。

  • リッカート尺度をTJOさんに質問した Mond
    きっとよく使われているであるTJOさんにも質問してみたところ、とても丁寧に回答いただきました。ありがとうございました。