データサイエンス

データ前処理

読み方：でーたぜんしょり

データ前処理とは

データ前処理（Data Preprocessing）は、収集した生のデータを機械学習モデルが学習しやすい形に整える工程です。欠損値の補完、外れ値の除去、データ形式の統一、正規化、カテゴリ変数の数値変換などが含まれます。

AI開発の要

実務ではAI開発の全工程のうち70〜80%がデータ前処理に費やされるとも言われます。Pandas や NumPy がこの工程の主役ツールであり、前処理の品質がモデルの精度を大きく左右します。「Garbage In, Garbage Out（ゴミを入れればゴミが出る）」という格言が示すとおり、どれだけ優れたアルゴリズムもデータの質が悪ければ意味をなしません。

AIプロジェクトの死命を制するリソース配分とROI

実務において「導入したAIが現場の精度要求（99%以上など）を満たさない」原因の9割は、モデルの選定ミスではなく「データ前処理の甘さ」に起因します。現場の表記ゆれや欠損値を放置したまま高価なGPUで学習を回すことは、計算費用（クラウド代）を完全にドブに捨てる（ROIの崩壊）行為に他なりません。2026年においては、この泥臭い前処理工程自体を別の大規模言語モデル（LLMエージェント）に自動でクレンジングさせるアーキテクチャが発展したことで、データサイエンティストのリードタイムと人件費が劇的に下がり、企業におけるAI投資の採算性を大きく引き上げています。