コンテンツにスキップ

「大規模モデルのデータ エンジニアリング: アーキテクチャ、アルゴリズム、およびプロジェクトの実践」


本の概要

  • パート 1: インフラストラクチャとコア概念 (データ基盤の構築)
  • パート 2: テキストの事前トレーニング データ エンジニアリング (クリーニングとノイズ除去)
  • パート 3: マルチモーダル データ エンジニアリング (画像、テキスト、ビデオ、オーディオ)
  • パート 4: アライメントと合成データ エンジニアリング (手順と品質)
  • パート 5: アプリケーション レベルのデータ エンジニアリング (RAG およびエージェント)
  • パート 6: Capstone プロジェクト (エンドツーエンドのコード実装)

詳細概要

パート 1: インフラストラクチャとコア概念

目標: データ中心の AI の考え方を確立し、高性能のデータ処理環境をセットアップします。

第 1 章: LLM 時代のデータ革命

  • 1_1 スケーリングの法則からの洞察: データの品質 > 量 — 「ビッグ データ」から「高品質データ」へのパラダイム シフト。
  • 1_2 LLM データ ライフサイクル: 事前トレーニング \(\rightarrow\) SFT \(\rightarrow\) RLHF \(\rightarrow\) RAG。
  • 1_3 課題と機会: 異種マルチモダリティ、著作権コンプライアンス、およびコンピューティング コストの相互作用。

第 2 章: データ インフラストラクチャの選択

  • 2_1 最新のデータスタック:
  • ストレージ: オブジェクト ストレージ (S3/MinIO) とデータ レイク (Iceberg/Hudi)。
  • コンピューティング: Spark (従来の強力な企業) 対 Ray Data (AI ネイティブのコンピューティング フレームワーク)。
  • 2_2 データ形式と I/O の最適化:
  • Parquet 対 JSONL 対 WebDataset (マルチモーダル シナリオ)。
  • 圧縮アルゴリズムと読み取りパフォーマンスの最適化。
  • 2_3 データ バージョン コントロール (DataOps): DVC と LakeFS を使用した PB スケールのデータセットの管理。

パート 2: テキストの事前トレーニング データ エンジニアリング

目標: 大量の非構造化テキストを処理して、モデルの言語認識基盤を構築します。

第 3 章: データの取得

  • 3_1 オープンソース データセットの分解: Common Crawl、C4、RefinedWeb、および The Pile の詳細な分析。
  • 3_2 高性能 Web クローリング: Trafilatura 解析ライブラリと分散クローラ アーキテクチャ設計のアプリケーション。
  • 3_3 特殊なデータ取得: コード (GitHub)、論文 (ArXiv/S2ORC)、および書籍データの抽出戦略。

第 4 章: クリーニングと重複排除

  • 4_1 ヒューリスティック フィルタリング ルール: 言語識別 (FastText)、パープレキシティ フィルタリング、長さおよび句読点の分布。
  • 4_2 大規模な重複排除:
  • ファジー重複排除: MinHash LSH アルゴリズムの原則と分散実装。
  • ドキュメント内の重複排除: 繰り返される段落とナビゲーション バーを削除します。
  • 4_3 プライバシー クリーニング (PII 削除): Presidio を使用して電子メール、IP、電話番号、および住所を識別しマスクします。

第 5 章: トークン化とシリアル化

  • 5_1 トークナイザーの原則: BPE、WordPiece、Unigram、およびモデルのパフォーマンスに対するそれらの影響。
  • 5_2 効率的な語彙構築: 特定の分野 (医療、法律など) の語彙を増やす方法。
  • 5_3 データ混合: 動的サンプリング戦略とカリキュラム学習データの配置。

パート 3: マルチモーダル データ エンジニアリング

目標: 画像、ビデオ、オーディオを処理して、GPT-4V/Sora クラス モデルのトレーニングをサポートします。

第 6 章: 画像とテキストのペアの処理

  • 6_1 データ パラダイム: 画像とテキストのペア (LAION-5B) とインターリーブされたドキュメント (OBELICS/MMC4)。
  • 6_2 画像の取得と前処理:
  • img2dataset 実際の高同時ダウンロード。
  • GPU アクセラレーションによるデコードと変換 (NVIDIA DALI)。
  • 6_3 マルチモーダル クリーニング パイプライン:
  • 美的スコアリング: CLIP-Score を使用して美的価値の高い画像をフィルタリングします。
  • 画像とテキストの配置フィルタリング: 不一致のサンプルを削除します。
  • 安全性検出: NSFW およびウォーターマーク検出。

第 7 章: 要約

  • 7_1 代替テキストの制限: 生の Web 説明が使用できない理由。
  • 7_2 合成キャプション ファクトリー:
  • BLIP-2 / LLaVA / CogVLM を使用して詳細なキャプションを再生成します。
  • プロンプト戦略: キャプションの粒度を制御します (簡潔か詳細か)。
  • 7_3 OCR 強化: 画像内のテキストを抽出し、テキストの説明に融合します (文書の理解に不可欠)。

第 8 章: ビデオおよびオーディオ データ

  • 8_1 ビデオ処理パイプライン: シーン検出およびキーフレーム抽出戦略。
  • 8_2 ビデオトークン化: ビデオ圧縮と離散表現。
  • 8_3 オーディオ アライメント: ウィスパーおよびフォース アライメント (タイムスタンプ アライメント) を備えた大規模な ASR。

パート 4: アライメントと合成データ エンジニアリング

目標: モデルを指示に従わせ、人間のデータのボトルネックを突破します。

第 9 章: SFTデータ (SFT データ)

  • 9_1 データ生成のためのプロンプト エンジニアリング: 堅牢なシステム プロンプトを作成します。
  • 9_2 自動化された構築方法:
  • Self-Instruct: 強力なモデルを利用して指示を生成します。
  • Evol-Instruct: 命令の複雑さに対する進化的な戦略。
  • 9_3 思考連鎖 (CoT) データ: 段階的な推論サンプルの構築。

第 10 章: 合成データ

  • 10_1 教科書品質のデータ (必要なのは教科書だけ): 高品質のドメイン知識を統合します。
  • 10_2 コードと数学の合成:
  • PoT (Program of Thought): コードを生成し、実行し、実行結果を通じてデータの正確性を検証します。
  • 10_3 マルチモーダル命令合成: GPT-4o を使用して、複雑な画像ベースの推論 Q&A を構築します。

第 11 章: 人間の嗜好データ (RLHF/DPO)

  • 11_1 優先データ形式: 選択されたサンプルと拒否されたサンプルのペアを構築します。
  • 11_2 アノテーション プラットフォームと品質管理: クラウドソーシング管理と IAA (アノテーター間合意) 分析。
  • 11_3 RLAIF (AI フィードバック): LLM を使用して人間の嗜好スコアを置き換えます。

パート 5: アプリケーション レベルのデータ エンジニアリング (RAG およびエージェント)

目標: 外部ナレッジベースの解析と取得のためのエンタープライズ向けソリューション。

第 12 章: RAG データ パイプライン

  • 12_1 詳細なドキュメント解析:
  • 複雑な PDF 処理: テーブルの再構築、複数列の認識 (UnstructuredLlamaParse)。
  • 12_2 チャンク戦略: セマンティック チャンク、再帰的チャンク、および親子インデックス作成。
  • 12_3 ベクトル化とストレージ: Embeddingモデルの微調整とベクトル データベースの最適化。

第 13 章: マルチモーダル RAG

  • 13_1 クロスモーダル検索: 「テキストから画像へ」および「画像からテキストへ」検索に CLIP/SigLIP を使用します。
  • 13_2 ColPali アーキテクチャの実践: ビジョン言語モデルに基づくドキュメント検索 (OCR をスキップし、ドキュメント画像を直接理解)。

パート 6: キャップストーン プロジェクト

目標: 5 つのエンドツーエンド プロジェクトを通じて、本書のすべての技術トピックを実行可能なコード リポジトリと統合します。

プロジェクト 1: 「Mini-C4」事前トレーニング セットの構築

  • シナリオ: Common Crawl の生データ (WARC) から高品質の Parquet データまで。
  • コア テクノロジー: Trafilatura 解析、Spark/Ray 分散 MinHash 重複排除、KenLM 品質フィルタリング。
  • 出力: クリーンなプレーン テキスト コーパスと処理パイプライン。

プロジェクト 2: ドメインエキスパート SFT (法務/医療)

  • シナリオ: 建築業界の専門家が、非構造化 PDF ドキュメントからデータを微調整します。
  • コア テクノロジー: Self-Instruct 命令の生成、CoT 推論の強化、データ多様性のバランス。
  • 出力: domain_expert.jsonl SFTデータセット。

プロジェクト 3: LLaVA マルチモーダル命令セットの構築

  • シナリオ: 画像を理解できるマルチモーダル モデルをトレーニングします。
  • コア テクノロジー: GPT-4o API を使用して、複数回転の画像とテキストの対話、境界ボックス データの配置、複数画像のインターリーブ形式の処理を行います。
  • 出力: 視覚的な指示を含む画像テキスト データセット。

プロジェクト 4: 総合数学/コードの教科書

  • シナリオ: 小規模モデルの論理的推論機能を向上させます。
  • コア テクノロジー: Evol-Instruct 進化戦略、Python コード実行サンドボックス検証、PoT データ形式。
  • 出力: 検証された高品質の合成推論データセット。

プロジェクト 5: マルチモーダル RAG 財務レポート アシスタント

  • シナリオ: 複雑なグラフを含む年次報告書に関する質問を取得して回答します。
  • コア テクノロジー: PDF テーブルとチャートの解析、マルチルート リコール (ハイブリッド検索)、ColPali ビジュアル検索。
  • 出力: チャート Q&A をサポートする RAG 知識ベース システム。

## 付録

  • 付録 A: 共通ツールのクイック リファレンス (ハグ顔データセット、LangChain、レイ データ)。
  • 付録 B: データ コンプライアンス チェックリスト (著作権、GDPR、robots.txt)。
  • 付録 C: 計算コストの見積もり (さまざまなデータ処理規模での GPU/CPU 消費量の参照)。