ヒストグラムは、縦軸に度数、横軸に階級を
とった統計グラフの一種で、データの分布
状況を視覚的に認識するために主に統計学
や数学、画像処理等で用いられる。
以下の使い方ができる。
1.データの分布の視覚化
データセットの分布を視覚的に示し、データ
がどの範囲に多く存在するか、または少ない
かを視覚的に理解するのに役立つ
2.分布の形でデータの状態を把握
5つの代表的な形がある
①左右対称型
②二山型(多峰型)
③歪み型(裾が長い型)
④離れ小島型(外れ値が存在)
⑤鋸の歯型(データの範囲設定ミス)
①左右対称型
データが基本的に中央に集まっていて、
バランスよく分布している形
②二山型(多峰型)
データが2つのグループに分かれている時
などに発生しやすい分布
データを中央値などで区切って2つの左右
対称型ヒストグラムを作る操作を行い、
分析を簡単にする。
③歪み型(裾が長い型)
一方向に長く伸びた形(裾が長い形)を
していて平均値と中央値の差が大きく、
歪んだ形
④離れ小島型(外れ値が存在)
外れ値のようなデータが存在する時になる
分布
これにより平均値が本当のデータの真ん中
の値より大きくなったり、小さくなる。
⑤鋸の歯型(データの範囲設定ミス)
データの範囲を細かく設定しすぎて個数
が一定の分布に従っていない可能性がある。
データの範囲を正しくすれば正しい分布
となる。
このようにヒストグラムの形からデータの
分布を理解することができる。