ヒストグラム(英語: histogram[1])とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱状図、柱状グラフ、度数分布図ともいう[1]。
工業分野では、パレート図、チェックシート、管理図、特性要因図、層別法、散布図と並んで、品質管理のためのQC七つ道具として知られている。 histogram (ヒストグラム)の語源は、定かではないが、古代ギリシャ語で「なにかを直立にする」(帆船のマスト、織機のバー、ヒストグラムの縦棒など)という意味の ?στ?? (istos、イストス)と、「描いたり、記録したり、書いたりすること」という意味の γρ?μμα (gramma、グラマ)を合わせた用語だといわれている。この用語は、イギリスの統計学者カール・ピアソンが1891年に historical diagram から創案したともいわれている[2]。 日本工業規格 JIS Z 8101-1:2015 (国際規格 ISO 3534-1:2006 と同等)の「1.61 ヒストグラム」では、次のとおりに規定している[3]。 底辺の長さが級の幅(1.58)に等しく,その面積が級の度数に比例する近接する長方形からなる度数分布(1.60)のグラフ表現。 注記 1 級の幅が不均一な場合には,注意が必要である。級の幅が不均一な場合には,級の面積を級の度数に比例させるとよい。 注記 2 全ての級の幅を等しくし,長方形の高さを級の度数に比例させるのが一般的である。同じデータから作られた一般的なヒストグラム(左)と累積度数図。このデータは平均 0、標準偏差 1 の正規分布から無作為に選んだ 10,000 点のサンプルを示している。 ヒストグラムは、各々が互いに素である区間・階級(カテゴリ、これをビン (bins) という。ヒストグラムのグラフの柱(棒)のこと)に分類できる、観察結果の数を図にしたもの。計算する関数 mi である。ヒストグラムの図は、階級を一つ決めた時のヒストグラムを表現する方法である。階級の幅は一つの階級のデータ数が全データ数の平方根程度がよいとう見解をはじめ何種類か推奨がある(後述)[4]。基準点も0を含む場合には0を基準点にすることがある。それ以外の場合には、最小値、最大値を含む切りのよい値にする方法と、切りのよい数を中央値とする方法がある。すべての観察結果の数 n とすべての階級の数 k、ヒストグラム mi を与えて、これらには以下の式の関係が成り立つ。 n = ∑ i = 1 k m i . {\displaystyle n=\sum _{i=1}^{k}{m_{i}}.} 累積度数図(英: cumulative histogram)は、特定の階級までのすべての階級に含む観察結果の累積数を記入する。累積度数関数と Mi はヒストグラム関数 mj を用いて以下の式のように定義できる。 M i = ∑ j = 1 i m j . {\displaystyle M_{i}=\sum _{j=1}^{i}{m_{j}}.} なお、累積度数(cumulative frequency)を日本工業規格では、「ある値以下の観測値の度数または相対度数」と定義している[5]。 ウィキペディア日本語版の記事「ヒストグラム」(当記事)の2013年1月の閲覧回数を具体例として、ヒストグラムの作成を考える。2013年1月の各日に閲覧された回数は以下の通りである[6]。 日閲覧回数日閲覧回数 [表の見方] 11 の欄が 478 となっているのは、2013年1月11日の記事「ヒストグラム」の閲覧回数が 478 回であったことを意味する。図1.ウィキペディア日本語版の記事「ヒストグラム」の2013年1月における閲覧回数から作成されたヒストグラム これを集計すると、次のようになる。上述の通り、階級の数と幅の設定には諸説あるが、ここでは階級の数を 8、幅を 100 とした。 閲覧回数その回数を記録した日数 [表の見方] 400 - 499 の欄が 4 となっているのは、1 日の記事「ヒストグラム」の閲覧回数が 400 回から 499 回であった日が2013年1月に 4 日あったことを意味する。 したがって、これをヒストグラムにすると、図1のようになる。 階級の個数についての最良の値はなく、階級の大きさが異なれば異なったデータの特徴を示す可能性がある。幾人かの理論家は最適な階級の個数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先として、さまざまな階級幅が適切である可能性があり、通常は実験のたびに適切な幅を決定する必要がある。しかし、さまざまな有用な指針や経験的に得られた方法がある[7]。 階級の幅 h は、直接的に与えられるか、下で示される階級の個数 k から次式で与えられる。 h = ⌈ max x − min x k ⌉ . {\displaystyle h=\left\lceil {\frac {\max x-\min x}{k}}\right\rceil .} 上式の大括弧は天井関数を示す。
語源
定義
ヒストグラム
累積度数図
具体例
17816625
212617606
315618483
423119377
521520370
630421587
748422667
854423643
956624756
1054525505
1147826436
1225827399
1322528611
1437329679
1562030575
31565
0 - 991
100 - 1992
200 - 2994
300 - 3995
400 - 4994
500 - 5997
600 - 6997
700 - 7991
階級の個数と幅
平方根選択(英: Square-root choice)
k = n , {\displaystyle k={\sqrt {n}},\,} 標本中のデータ数の平方根をとるものである[8]。
スタージェスの公式(英: Sturges' formula)[9]
k = ⌈ log 2 n + 1 ⌉ , {\displaystyle k=\lceil \log _{2}n+1\rceil ,\,} この式は階級の大きさに暗黙の仮定を置いている。そのため、n < 30 (階級数が7未満)の場合、この式の使用は不適切である。また、標本が一般的な分布と大きく異なる場合も、この式が適さないことがある。
スコットの選択(英: Scott's choice)[10]
h = 3.5 σ n 1 / 3 , {\displaystyle h={\frac {3.5\,\sigma }{n^{1/3}}},} ここで σ は標本の標準偏差である。
フリードマン・ダイアコニスの選択(英: Freedman?Diaconis' choice)[11]
h = 2 IQR ( x ) n 1 / 3 , {\displaystyle h=2\,{\frac {\operatorname {IQR} (x)}{n^{1/3}}},} IQR で示される四分位範囲に基づく。
L2 危険関数推定の最小化に基づく選択[12]
a r g m i n h 2 m ¯ − v h 2 {\displaystyle {\underset {h}{\operatorname {arg\,min} }}{\frac {2\,{\bar {m}}-v}{h^{2}}}} ここで m と v は、階級の幅が h であるヒストグラムの平均値および標本分散である。つまり、m = .mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num,.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0 0.1em}.mw-parser-output .sfrac .den{border-top:1px solid}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}1/k ∑k
Size:46 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)』
担当:undef