投資のためのデータサイエンス

個人の投資活動に役立つデータ分析にまつわる話題を綴ります。

身近な統計(その1)平均値と中央値

身近な統計(その1):平均値と中央値

本日より、統計データ解析についての話をいたします。まずは、「身近な統計」シリーズです。不定期で他の話題を書くこともあります。

今回は、統計データを要約する手段としての「平均値」と「中央値」について考える。

平均値とはご存知の通り、データの総和をサンプル数で割った値である。一方、中央値は、データを大きさの順に並べた時、順位が真ん中のデータの値(データ個数が偶数の場合は真ん中2つのデータを足して2で割った値)である。

いま、ある中学校の柔道部員と水泳部員がそれぞれ10名ずついて、その生徒たちの身長を計測した結果、以下のデータが得られたとする。

柔道部(cm):160,156,155,158,161,159,160,162,154,184

水泳部(cm):155,164,162,159,163,158,156,157,163,160

両部員の身長の平均値と中央値は以下のようになる。

柔道部:平均値 160.9cm, 中央値 159.5cm

水泳部:平均値 159.7cm, 中央値 159.5cm

「平均値」では柔道部が1.2センチ高いが、「中央値」は同じである。

上のデータから、平均値のみを見て「柔道部の方が背が高い」というのはどこか不自然である。これは、柔道部には身長184cmという「飛び抜けて高い生徒」が一人いるために、平均値がその値に引っ張られて高くなっているためである。一方、中央値は同じである。この場合、「両部員の身長の差はみられない」と見るのが妥当であろう。

より専門的に言えば、平均値はデータが正規分布に従う場合のデータの位置を示す最も良い推定量であるが、上記の場合のような「外れ値」があると、データの位置を表す指標として必ずしも適切とはいえない。それに対して、中央値はデータが正規分布の場合に最も良い推定量ではないが、外れ値がある場合にその影響を受けにくい推定量である。これはよりロバスト(頑健)な推定量であると言われる。

尚、エクセルの統計計算機能を用いる場合、平均値の計算には=average()関数、中央値の計算には=median()関数を用いる。