ディープラーニング

事前学習

読み方：じぜんがくしゅう

事前学習とは

事前学習（Pretraining）は、機械学習開発においてAIモデルに対してまず最初にインターネット上の事実上無限・途方もなく膨大なテキストや画像生データを計算学習させ、言語の文法構造ルール、あらゆる基礎知識、数学的常識などの「基底となる基礎的な推論能力」を獲得させる重く大規模な初期の学習算出フェーズです。人間でいえば、将来専門職に就く前に公教育の学校教育や大量の読書による基礎教養課程にあたる段階で、専門の特定のタスク処理を与える前の極めて大切な「網羅的な基礎体力・賢さの土台づくり」になります。

現代の二段階システム開発（ファインチューニングとの関係）

事前学習で膨大な汎用的な概念知識ネットワークをパラメータとして獲得し終えた学習済みモデルに対し、今度は企業が自社で「特定の専門タスク向け（法務の契約書チェックなど）に整理された少数の正解データセット」を追加で読ませて追加学習・微調整するファインチューニングを行うのが、現代のシステムAI開発における最も標準的で主流なシステム開発ワークフローです。GPT や BERT などの高度な巨大基盤 LLM （大規模言語モデル群）は、この一番最初の事前学習のプロセス突破だけでも、数千・数万台の GPU サーバークラスタを並行稼働させて数ヶ月間の膨張な計算期間を要するという、信じられないほどの大規模なインフラ投資工程・資本力を経てシステム構築されています。

基盤モデル開発の資本寡占化と事業企業におけるインフラ投資ROI・生存戦略

2026年現在、この「独自の大規模モデルのゼロからの【自社独自システム基盤の事前学習開発】」工程プロジェクトは、「数千台・数万台の全世界最先端レベルのクラウドGPU 設備インフラ群の長期間・数ヶ月の連続占有稼働」と「天文学的な電気代・インフラサーバー維持管理費用（数百億円〜数千億円規模のキャッシュと電力投資）」が前提として必要になるため、一部の「選ばれたごく一部の超巨大な米国のテック企業・システム基盤ベンダー層（Google、OpenAI等）か、国家資本バックアップ機関」にしか物理的・経済的に絶対に実行不可能な、完全な資本ハードモード開発領域へ突入してしまっています（＝超巨大インフラ資本強者による、世界のAIモデル生成エコシステムのAPI独占パラダイムの完了）。

そのため、一般的な自社事業を展開する非IT企業・スタートアップ各社の現場エンジニアやシステム構成アーキテクトにとって、「自分たちで基盤AIの最も基礎的で複雑な事前学習学習システムをゼロから自作開発し、途方もないインフラ投資を行う」ということは、事業実務のインフラ要件設計上で完全に不条理な選択肢となり消滅しています。

現代のAIビジネスインフラ戦略の基本構成・たった一つの正解生存ルートは、前述の超巨大開発ベンダーが何百億円もかけてインフラ事前学習開発を完了して世にバラ撒いて繋いでくれた圧倒的【学習済み基盤モデル能力群（Foundation Model）やその推論API】の波に乗り、自社の業務システムにいかに安価に従量課金で組み込み、その巨大な波の上でわずかな計算システムコストの投資だけで「自社独自のビジネスエッジを乗せるRAG基盤構築システムや、極めて軽量なAPI経由でのファインチューニング」部分だけに、自社の貴重なシステム事業予算と社内データ資産を一点突破で投資・経営集中させるかにかかっています。この「他社の巨大なAPIシステムエコシステムへの賢い全乗っかり（ただ乗り）」と「自社の固有サービス事業側のROIスループットを最速で最大化回収させるか（Time to Marketの限界突破）」という、自社のインフラ上層戦略・アプリ層レイヤー開発での陣取り戦い・最速リリース競争に、世界のAIシステム事業の全てが激しくシフトし移行しています。

事前学習とは

現代の二段階システム開発（ファインチューニングとの関係）

基盤モデル開発の資本寡占化と事業企業におけるインフラ投資ROI・生存戦略

あなたのAI活用スキルはLv.何？

同じ「ディープラーニング」の関連用語

BERT

LoRA

人工ニューラルネットワーク

VGG