データサイエンス

記述統計学

読み方：きじゅつとうけいがく

記述統計学とは

記述統計学（Descriptive Statistics）は、手元にあるデータの特徴を平均値、中央値、分散、標準偏差などの指標で整理・要約する統計学の分野です。データの全体像を把握するための最初のステップとして、あらゆるデータ分析の出発点になります。

推測統計学との違い

記述統計学が目の前のデータを「ありのまま」にまとめる作業であるのに対し、推測統計学は一部のサンプルデータから全体の性質を推測する学問です。機械学習のプロジェクトでは、まず記述統計でデータの分布や傾向を確認し、外れ値や欠損値の存在をチェックしてからモデル構築に進むのが基本的なワークフローです。

データ品質の担保とAIプロジェクトの羅針盤

どれほど高価なAI基盤（LLMや分析システム）を導入しても、企業内に眠る対象データの「平均値はいくつか」「極端に偏った異常値（外れ値・不具合記録）が混じっていないか」といった現状把握（記述統計の可視化）手順が抜けていると、AIは歪んだデータを真実と錯覚して間違った学習を起こし、現場で大事故に繋がります。「AIに高度な予測をさせる」以前に、自社ビジネスの健康診断書である記述統計を精緻にとり、データクレンジングの方針を固める地道なプロセスこそが、AI投資による数千万規模のサンクコスト化（使い物にならないシステムの量産）を防ぐための最も確実な羅針盤となります。