「大規模モデルのデータエンジニアリング: アーキテクチャ、アルゴリズム、およびプロジェクトの実践」¶

本の概要¶

パート 1: インフラストラクチャとコア概念 (データ基盤の構築)
パート 2: テキストの事前トレーニングデータエンジニアリング (クリーニングとノイズ除去)
パート 3: マルチモーダルデータエンジニアリング (画像、テキスト、ビデオ、オーディオ)
パート 4: アライメントと合成データエンジニアリング (手順と品質)
パート 5: アプリケーションレベルのデータエンジニアリング (RAG およびエージェント)
パート 6: Capstone プロジェクト (エンドツーエンドのコード実装)

詳細概要¶

パート 1: インフラストラクチャとコア概念¶

目標: データ中心の AI の考え方を確立し、高性能のデータ処理環境をセットアップします。

第 1 章: LLM 時代のデータ革命¶

1_1 スケーリングの法則からの洞察: データの品質 > 量 — 「ビッグデータ」から「高品質データ」へのパラダイムシフト。
1_2 LLM データライフサイクル: 事前トレーニング \(\rightarrow\) SFT \(\rightarrow\) RLHF \(\rightarrow\) RAG。
1_3 課題と機会: 異種マルチモダリティ、著作権コンプライアンス、およびコンピューティングコストの相互作用。

第 2 章: データインフラストラクチャの選択¶

2_1 最新のデータスタック:
ストレージ: オブジェクトストレージ (S3/MinIO) とデータレイク (Iceberg/Hudi)。
コンピューティング: Spark (従来の強力な企業) 対 Ray Data (AI ネイティブのコンピューティングフレームワーク)。
2_2 データ形式と I/O の最適化:
Parquet 対 JSONL 対 WebDataset (マルチモーダルシナリオ)。
圧縮アルゴリズムと読み取りパフォーマンスの最適化。
2_3 データバージョンコントロール (DataOps): DVC と LakeFS を使用した PB スケールのデータセットの管理。

パート 2: テキストの事前トレーニングデータエンジニアリング¶

目標: 大量の非構造化テキストを処理して、モデルの言語認識基盤を構築します。

第 3 章: データの取得¶

3_1 オープンソースデータセットの分解: Common Crawl、C4、RefinedWeb、および The Pile の詳細な分析。
3_2 高性能 Web クローリング: Trafilatura 解析ライブラリと分散クローラアーキテクチャ設計のアプリケーション。
3_3 特殊なデータ取得: コード (GitHub)、論文 (ArXiv/S2ORC)、および書籍データの抽出戦略。

第 4 章: クリーニングと重複排除¶

4_1 ヒューリスティックフィルタリングルール: 言語識別 (FastText)、パープレキシティフィルタリング、長さおよび句読点の分布。
4_2 大規模な重複排除:
ファジー重複排除: MinHash LSH アルゴリズムの原則と分散実装。
ドキュメント内の重複排除: 繰り返される段落とナビゲーションバーを削除します。
4_3 プライバシークリーニング (PII 削除): Presidio を使用して電子メール、IP、電話番号、および住所を識別しマスクします。

第 5 章: トークン化とシリアル化¶

5_1 トークナイザーの原則: BPE、WordPiece、Unigram、およびモデルのパフォーマンスに対するそれらの影響。
5_2 効率的な語彙構築: 特定の分野 (医療、法律など) の語彙を増やす方法。
5_3 データ混合: 動的サンプリング戦略とカリキュラム学習データの配置。

パート 3: マルチモーダルデータエンジニアリング¶

目標: 画像、ビデオ、オーディオを処理して、GPT-4V/Sora クラスモデルのトレーニングをサポートします。

第 6 章: 画像とテキストのペアの処理¶

6_1 データパラダイム: 画像とテキストのペア (LAION-5B) とインターリーブされたドキュメント (OBELICS/MMC4)。
6_2 画像の取得と前処理:
img2dataset 実際の高同時ダウンロード。
GPU アクセラレーションによるデコードと変換 (NVIDIA DALI)。
6_3 マルチモーダルクリーニングパイプライン:
美的スコアリング: CLIP-Score を使用して美的価値の高い画像をフィルタリングします。
画像とテキストの配置フィルタリング: 不一致のサンプルを削除します。
安全性検出: NSFW およびウォーターマーク検出。

第 7 章: 要約¶

7_1 代替テキストの制限: 生の Web 説明が使用できない理由。
7_2 合成キャプションファクトリー:
BLIP-2 / LLaVA / CogVLM を使用して詳細なキャプションを再生成します。
プロンプト戦略: キャプションの粒度を制御します (簡潔か詳細か)。
7_3 OCR 強化: 画像内のテキストを抽出し、テキストの説明に融合します (文書の理解に不可欠)。

第 8 章: ビデオおよびオーディオデータ¶

8_1 ビデオ処理パイプライン: シーン検出およびキーフレーム抽出戦略。
8_2 ビデオトークン化: ビデオ圧縮と離散表現。
8_3 オーディオアライメント: ウィスパーおよびフォースアライメント (タイムスタンプアライメント) を備えた大規模な ASR。

パート 4: アライメントと合成データエンジニアリング¶

目標: モデルを指示に従わせ、人間のデータのボトルネックを突破します。

第 9 章: SFTデータ (SFT データ)¶

9_1 データ生成のためのプロンプトエンジニアリング: 堅牢なシステムプロンプトを作成します。
9_2 自動化された構築方法:
Self-Instruct: 強力なモデルを利用して指示を生成します。
Evol-Instruct: 命令の複雑さに対する進化的な戦略。
9_3 思考連鎖 (CoT) データ: 段階的な推論サンプルの構築。

第 10 章: 合成データ¶

10_1 教科書品質のデータ (必要なのは教科書だけ): 高品質のドメイン知識を統合します。
10_2 コードと数学の合成:
PoT (Program of Thought): コードを生成し、実行し、実行結果を通じてデータの正確性を検証します。
10_3 マルチモーダル命令合成: GPT-4o を使用して、複雑な画像ベースの推論 Q&A を構築します。

第 11 章: 人間の嗜好データ (RLHF/DPO)¶

11_1 優先データ形式: 選択されたサンプルと拒否されたサンプルのペアを構築します。
11_2 アノテーションプラットフォームと品質管理: クラウドソーシング管理と IAA (アノテーター間合意) 分析。
11_3 RLAIF (AI フィードバック): LLM を使用して人間の嗜好スコアを置き換えます。

パート 5: アプリケーションレベルのデータエンジニアリング (RAG およびエージェント)¶

目標: 外部ナレッジベースの解析と取得のためのエンタープライズ向けソリューション。

第 12 章: RAG データパイプライン¶

12_1 詳細なドキュメント解析:
複雑な PDF 処理: テーブルの再構築、複数列の認識 (Unstructured、LlamaParse)。
12_2 チャンク戦略: セマンティックチャンク、再帰的チャンク、および親子インデックス作成。
12_3 ベクトル化とストレージ: Embeddingモデルの微調整とベクトルデータベースの最適化。

第 13 章: マルチモーダル RAG¶

13_1 クロスモーダル検索: 「テキストから画像へ」および「画像からテキストへ」検索に CLIP/SigLIP を使用します。
13_2 ColPali アーキテクチャの実践: ビジョン言語モデルに基づくドキュメント検索 (OCR をスキップし、ドキュメント画像を直接理解)。

パート 6: キャップストーンプロジェクト¶

目標: 5 つのエンドツーエンドプロジェクトを通じて、本書のすべての技術トピックを実行可能なコードリポジトリと統合します。

プロジェクト 1: 「Mini-C4」事前トレーニングセットの構築¶

シナリオ: Common Crawl の生データ (WARC) から高品質の Parquet データまで。
コアテクノロジー: Trafilatura 解析、Spark/Ray 分散 MinHash 重複排除、KenLM 品質フィルタリング。
出力: クリーンなプレーンテキストコーパスと処理パイプライン。

プロジェクト 2: ドメインエキスパート SFT (法務/医療)¶

シナリオ: 建築業界の専門家が、非構造化 PDF ドキュメントからデータを微調整します。
コアテクノロジー: Self-Instruct 命令の生成、CoT 推論の強化、データ多様性のバランス。
出力: domain_expert.jsonl SFTデータセット。

プロジェクト 3: LLaVA マルチモーダル命令セットの構築¶

シナリオ: 画像を理解できるマルチモーダルモデルをトレーニングします。
コアテクノロジー: GPT-4o API を使用して、複数回転の画像とテキストの対話、境界ボックスデータの配置、複数画像のインターリーブ形式の処理を行います。
出力: 視覚的な指示を含む画像テキストデータセット。

プロジェクト 4: 総合数学/コードの教科書¶

シナリオ: 小規模モデルの論理的推論機能を向上させます。
コアテクノロジー: Evol-Instruct 進化戦略、Python コード実行サンドボックス検証、PoT データ形式。
出力: 検証された高品質の合成推論データセット。

プロジェクト 5: マルチモーダル RAG 財務レポートアシスタント¶

シナリオ: 複雑なグラフを含む年次報告書に関する質問を取得して回答します。
コアテクノロジー: PDF テーブルとチャートの解析、マルチルートリコール (ハイブリッド検索)、ColPali ビジュアル検索。
出力: チャート Q&A をサポートする RAG 知識ベースシステム。

＃＃付録

付録 A: 共通ツールのクイックリファレンス (ハグ顔データセット、LangChain、レイデータ)。
付録 B: データコンプライアンスチェックリスト (著作権、GDPR、robots.txt)。
付録 C: 計算コストの見積もり (さまざまなデータ処理規模での GPU/CPU 消費量の参照)。

「大規模モデルのデータ エンジニアリング: アーキテクチャ、アルゴリズム、およびプロジェクトの実践」¶

本の概要¶

詳細概要¶

パート 1: インフラストラクチャとコア概念¶

第 1 章: LLM 時代のデータ革命¶

第 2 章: データ インフラストラクチャの選択¶

パート 2: テキストの事前トレーニング データ エンジニアリング¶

第 3 章: データの取得¶

第 4 章: クリーニングと重複排除¶

第 5 章: トークン化とシリアル化¶

パート 3: マルチモーダル データ エンジニアリング¶

第 6 章: 画像とテキストのペアの処理¶

第 7 章: 要約¶

第 8 章: ビデオおよびオーディオ データ¶

パート 4: アライメントと合成データ エンジニアリング¶

第 9 章: SFTデータ (SFT データ)¶

第 10 章: 合成データ¶

第 11 章: 人間の嗜好データ (RLHF/DPO)¶

パート 5: アプリケーション レベルのデータ エンジニアリング (RAG およびエージェント)¶

第 12 章: RAG データ パイプライン¶

第 13 章: マルチモーダル RAG¶

パート 6: キャップストーン プロジェクト¶

プロジェクト 1: 「Mini-C4」事前トレーニング セットの構築¶

プロジェクト 2: ドメインエキスパート SFT (法務/医療)¶

プロジェクト 3: LLaVA マルチモーダル命令セットの構築¶

プロジェクト 4: 総合数学/コードの教科書¶

プロジェクト 5: マルチモーダル RAG 財務レポート アシスタント¶

「大規模モデルのデータエンジニアリング: アーキテクチャ、アルゴリズム、およびプロジェクトの実践」¶

第 2 章: データインフラストラクチャの選択¶

パート 2: テキストの事前トレーニングデータエンジニアリング¶

パート 3: マルチモーダルデータエンジニアリング¶

第 8 章: ビデオおよびオーディオデータ¶

パート 4: アライメントと合成データエンジニアリング¶

パート 5: アプリケーションレベルのデータエンジニアリング (RAG およびエージェント)¶

第 12 章: RAG データパイプライン¶

パート 6: キャップストーンプロジェクト¶

プロジェクト 1: 「Mini-C4」事前トレーニングセットの構築¶

プロジェクト 5: マルチモーダル RAG 財務レポートアシスタント¶