要約統計(ようやくとうけい、英: summary statistic)あるいは、記述統計(英: descriptive statistic)とは、標本の分布の特徴を定量的に記述し要約する統計学上の値であり、統計量の一種である。基本統計(英: basic statistic)または代表値(英: representative value)とも呼ばれることもある[1][2]。 記述統計学(英: descriptive statistics)は、こうした統計量を用いて分析する学問領域である。記述統計学は、データを用いてデータの標本が表すと考えられる母集団について知るのではなく、標本を要約することを目的としている点で、推計統計学(英: inferential statistics, or inductive statistics)と区別される[3]。つまり、記述統計は推計統計と異なり、確率論に基づいて発展したものではなく、ノンパラメトリック手法であることが多い[4]。 データ分析においては、推計統計を用いて主要な結論を出す場合でも、一般的には記述統計も提示される[3]。たとえば、ヒト被験者について報告する論文では、通常、全体の標本数
概要
データセットを記述するために一般的に使用される指標には、中心傾向(英語版)の指標と、変動性またはばらつきの指標がある。中心傾向の指標には平均値、中央値、最頻値があり、変動性の指標には標準偏差(または分散)、変数の最小値と最大値、尖度、歪度がある[5]。 記述統計は、標本や行われた観察についての簡単な要約を提供する.このような要約は、要約統計量
統計分析での利用
たとえば、バスケットボールのシュート決定率は、選手やチームの成績を要約する記述統計量である。この数値は、ゴールしたシュート数を放ったシュート数で割ったものである。たとえば、シュート率33%の選手は、3回に1回の割合でシュートを決めている。パーセンテージは、複数の離散事象を要約または説明する。学生の成績評価も考えてみよう。この単一の数値は、ある学生のコース経験の範囲全体にわたる一般的な成績を記述するものである[6]。
記述統計と要約統計の使用には幅広い歴史があり、実際、人口や経済データの単純な集計は、統計学というトピックが最初に登場した手法であった。最近では、探索的データ解析という見出しの下に要約手法のコレクションが作成されている。そのような手法の例として、箱ひげ図がある。ビジネスの世界では、記述統計は多くの種類のデータに対する有用な要約を提供する。たとえば、投資家やブローカーは、将来のより良い投資決定を行うために、投資に関する実証的分析および解析的分析を行うことによって、リターン動向の歴史的根拠を活用することができる。 単変量解析
単変量解析
正規分布の場合は、平均と、分散または標準偏差で分布を記述できる。正規分布からのずれを知るためには、尖度や歪度などの高次モーメントから求められる統計量を用いる。
正規分布から著しく外れた場合には、より頑健な中央値、四分位点、最大値・最小値や最頻値が用いられる。「頑健」とは分布の非対称性や外れ値などの影響を受けにくいことを意味する統計用語である。例えば、労働者一人あたりの年収を例に採れば、最も収入が少なくても0未満にはならないのに対し、収入が多いほうでは数十億円という年収を稼ぐ少数者があり得る。この場合の分布は、少数者が上側にいることによって、上側に極端に尾を引いた非対称な分布となる。