第 5 章: トークン化とシリアル化¶

章の概要¶

トークン化は、生のテキストとニューラルネットワークを接続する架け橋です。クリーニング後の高品質のコーパスは、トレーニングのために Transformers にフィードする前に、モデルが理解できる数値シーケンスに変換する必要があります。この章では、3 つの主流アルゴリズムである BPE、WordPiece、Unigram を含むトークナイザーの仕組みについて詳しく説明します。特定のドメインの語彙を構築および拡張する方法を紹介します。最後に、トレーニング中のさまざまなデータタイプの表示順序と比率を決定するデータ混合とカリキュラム学習戦略について説明します。

シナリオの紹介¶

あなたのチームは、コードに特化した大規模なモデルをトレーニングしています。標準の GPT-2 トークナイザーで予備実験を行った後、奇妙な現象を発見しました。モデルは、生成されたコードのインデントでエラーを頻繁に起こし、4 つのスペースを複数の異なるトークンに分割し、インデントの不一致を引き起こします。さらに悪いことに、def や return などの一部の一般的なプログラミングキーワードは複数のサブワードに分割されており、モデルがその意味を理解するために追加のコンテキストを使用する必要があります。

分析後、問題はトークナイザーにあることがわかります。 GPT-2 トークナイザーは Web テキストでトレーニングされており、コードの特殊な構造 (空白、キャメルケース、特殊記号など) をうまく処理できません。コードタスク用に特化したトークナイザーを設計することは、モデルのパフォーマンスを向上させるための重要なステップとなっています。

この例は、トークナイザーは決して無視できる「前処理の詳細」ではなく、モデルの機能に大きな影響を与えることを示しています。

5.1 トークナイザーの原則¶

トークナイザーの中心的なタスクは、連続したテキスト文字列を個別のトークンシーケンスにセグメント化し、各トークンを整数 ID にマップすることです。この一見単純なタスクには、実際には複雑なアルゴリズム設計とエンジニアリングのトレードオフが含まれます。

5.1.1 なぜサブワードトークン化なのか?¶

深層学習の初期の頃、自然言語処理では通常、単語レベルまたは文字レベルのトークン化が使用されていました。単語レベルのトークン化では、完全な各単語がトークンとして扱われます。利点はセマンティクスが明確であることですが、欠点は膨大な語彙 (考えられるすべての単語をカバーする必要がある) と語彙外 (OOV) 単語を処理できないことです。文字レベルのトークン化では、各文字がトークンとして扱われます。利点は、OOV の問題がない小さな語彙であることですが、欠点は、シーケンスが長すぎるため、モデルが長距離の依存関係を把握することが困難になることです。

サブワードのトークン化は妥協です。テキストを単語より小さく、文字より大きい単位に分割します。高頻度の単語はそのまま残ります。低頻度の単語は、より小さなサブワード単位に分割されます。たとえば、「不幸」は「不」+「幸福」+「らしさ」に分割される可能性があります。このアプローチでは、語彙サイズを制御し、特定の意味情報を保持しながら、サブワードの組み合わせを通じて目に見えない語彙を処理できます。

図 5-1: トークン化の粒度の比較 — 単語レベル、文字レベル、およびサブワードレベル間のトレードオフ

現在、ほとんどすべての主流の大規模言語モデルはサブワードトークン化を使用しています。 GPT シリーズは BPE を使用し、BERT は WordPiece を使用し、T5 と LLaMA は SentencePiece (BPE と Unigram をサポート) を使用します。これらのアルゴリズムの原理を理解することは、トークナイザーのカスタマイズと最適化の基礎となります。

5.1.2 BPE: バイトペアのエンコーディング¶

BPE (バイトペアエンコーディング) はもともとデータ圧縮アルゴリズムでしたが、後に Sennrich らによってニューラル機械翻訳に導入されました。 2015 年に最も広く使用されるサブワードトークン化アルゴリズムになりました。

BPE の核となる考え方は非常に直感的です。つまり、文字レベルから開始し、目標の語彙サイズに達するまで、最も頻繁に発生する隣接するトークンのペアを繰り返しマージします。具体的な手順:

すべてのトレーニングテキストを文字シーケンスに分割し、各文字を初期トークンとして使用します。
すべての隣接トークンペアの頻度をカウントします。
最も頻度の高いトークンのペアを新しいトークンにマージします。
語彙が目標サイズに達するまでステップ 2 ～ 3 を繰り返します。

以下は、簡略化された BPE トレーニングの実装です。

from collections import Counter, defaultdict

def train_bpe(corpus: list, vocab_size: int) -> dict:
    """
    Train BPE tokenizer

    Args:
        corpus: Training corpus list
        vocab_size: Target vocabulary size

    Returns:
        Merge rules dictionary
    """
    # Initialize: split each word into characters, add end-of-word marker
    word_freqs = Counter()
    for text in corpus:
        for word in text.split():
            # Add end-of-word marker </w> to distinguish same character in middle vs end of word
            word_freqs[' '.join(list(word)) + ' </w>'] += 1

    merges = {}
    vocab = set()

    # Initial vocabulary is all characters
    for word in word_freqs:
        for char in word.split():
            vocab.add(char)

    while len(vocab) < vocab_size:
        # Count adjacent token pair frequencies
        pair_freqs = defaultdict(int)
        for word, freq in word_freqs.items():
            tokens = word.split()
            for i in range(len(tokens) - 1):
                pair = (tokens[i], tokens[i + 1])
                pair_freqs[pair] += freq

        if not pair_freqs:
            break

        # Find highest-frequency pair
        best_pair = max(pair_freqs, key=pair_freqs.get)

        # Merge this pair
        new_token = best_pair[0] + best_pair[1]
        merges[best_pair] = new_token
        vocab.add(new_token)

        # Update word frequency table
        new_word_freqs = {}
        for word, freq in word_freqs.items():
            new_word = word.replace(
                best_pair[0] + ' ' + best_pair[1], 
                new_token
            )
            new_word_freqs[new_word] = freq
        word_freqs = new_word_freqs

    return merges

def apply_bpe(text: str, merges: dict) -> list:
    """Apply BPE tokenization"""
    tokens = list(text) + ['</w>']

    while True:
        # Find mergeable pairs
        pairs = [(tokens[i], tokens[i+1]) for i in range(len(tokens)-1)]
        merge_pair = None
        for pair in pairs:
            if pair in merges:
                merge_pair = pair
                break

        if merge_pair is None:
            break

        # Perform merge
        new_tokens = []
        i = 0
        while i < len(tokens):
            if i < len(tokens) - 1 and (tokens[i], tokens[i+1]) == merge_pair:
                new_tokens.append(merges[merge_pair])
                i += 2
            else:
                new_tokens.append(tokens[i])
                i += 1
        tokens = new_tokens

    return tokens

BPE の重要なバリアントは、GPT-2 によって導入されたバイトレベル BPE です。従来の BPE は文字レベルで動作し、Unicode エンコードの問題を処理する必要があります。バイトレベルの BPE はバイトレベルで直接動作し、各バイトを印刷可能な文字にマッピングするため、エンコードの問題を回避し、あらゆる言語をネイティブにサポートします。 GPT シリーズがあらゆる言語のテキストを処理できるのはこのためです。

5.1.3 WordPiece: BERT の選択¶

WordPiece は、Google が BERT 用に開発したトークン化アルゴリズムで、BPE とよく似ていますが、マージペアの選択基準が主に異なります。

BPE は、最も頻繁に発生するペアをマージ用に選択します。 WordPiece は、トレーニングデータの可能性を最大化するペアを選択します。具体的には、候補ペア (A、B) について、WordPiece はトレーニングデータ上のマージされた語彙の言語モデル確率ゲインを計算し、マージ用に最大のゲインを持つペアを選択します。

実際には、これは WordPiece が「共起確率が独立した出現確率の積よりもはるかに高い」ペアをマージする傾向があることを意味します。この基準により、WordPiece は、頻度は低いが意味のあるパターンに対してより敏感になります。

WordPiece のもう 1 つの特徴は、## プレフィックスを使用して単語の先頭以外のサブワードを識別することです。たとえば、「playing」は ["play", "##ing"] としてトークン化される場合があります。この表現により、元の単語内のサブワードの位置が明確に区別され、モデルが語彙構造を理解するのに役立ちます。

# WordPiece tokenization example (using HuggingFace tokenizers)
from tokenizers import Tokenizer
from tokenizers.models import WordPiece
from tokenizers.trainers import WordPieceTrainer
from tokenizers.pre_tokenizers import Whitespace

# Initialize WordPiece tokenizer
tokenizer = Tokenizer(WordPiece(unk_token="[UNK]"))
tokenizer.pre_tokenizer = Whitespace()

# Train
trainer = WordPieceTrainer(
    vocab_size=30000,
    special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]
)
tokenizer.train(files=["corpus.txt"], trainer=trainer)

# Use
output = tokenizer.encode("unhappiness")
print(output.tokens)  # ['un', '##happi', '##ness']

5.1.4 Unigram: トークン化に関する確率論的な観点¶

Unigramトークン化は2018年に工藤氏によって提案され、BPE/WordPieceとは全く異なるアプローチを採用しています。 BPE と WordPiece はボトムアップ方式であり、小さな単位から開始して、徐々に大きな単位に統合します。 Unigram はトップダウンで、考えられるすべてのサブワードを含む大きな語彙から開始し、徐々に目標サイズまで枝刈りしていきます。

Unigram はトークン化を確率の問題としてモデル化します。各トークンの語彙 V と確率 P(t) が与えられると、テキストのトークン化の結果は、総確率を最大化するセグメンテーションになります。

\[P(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} P(x_i)\]

トレーニングプロセスでは EM アルゴリズムが使用されます。E ステップは、現在の語彙の下で各トークンの予想出現数を計算します。 M ステップはトークンの確率を更新します。次に、目標語彙サイズに達するまで、削除による総尤度への影響が最小限に抑えられるトークンを削除します。

Unigram の独自の利点は、複数のトークン化結果の確率モデリングを自然にサポートしていることです。特定のテキストに対して、複数の有効な分割方法が存在する可能性があります。 Unigram はそれぞれに確率を割り当てることができます。これは、特定のアプリケーションシナリオ (音声認識における複数の仮説処理など) で非常に役立ちます。

5.1.5 3 つのアルゴリズムの比較¶

3 つの主流のサブワードトークン化アルゴリズムには、それぞれ特徴があります。選択には、特定のシナリオに基づいたトレードオフが必要です。

アルゴリズム	コアアイデア	利点	デメリット	代表的なアプリケーション
BPE	ボトムアップ、周波数駆動のマージ	シンプルで直感的な、迅速なトレーニング	貪欲な戦略は最適ではないかもしれない	GPTシリーズ、LLaMA
ワードピース	ボトムアップ、可能性主導のマージ	低周波の意味のあるパターンに敏感	計算の複雑さの増加	BERT、蒸留BERT
ユニグラム	トップダウンの確率モデリング	理論的にはエレガントで、複数のセグメンテーションをサポートします。ゆっくりとしたトレーニング	T5、mT5、アルバート

図 5-2: BPE、WordPiece、および Unigram トークン化アルゴリズムの比較

実際のエンジニアリングでは、SentencePiece が最も一般的に使用されるトークン化ツールキットです。 BPE アルゴリズムと Unigram アルゴリズムの両方をサポートし、言語に依存しない前処理 (空間ベースのトークン化に依存しない) を提供し、主流の深層学習フレームワークとシームレスに統合します。

import sentencepiece as spm

# Train SentencePiece model
spm.SentencePieceTrainer.train(
    input='corpus.txt',
    model_prefix='my_tokenizer',
    vocab_size=32000,
    model_type='bpe',  # or 'unigram'
    character_coverage=0_9995,
    num_threads=16
)

# Load and use
sp = spm.SentencePieceProcessor(model_file='my_tokenizer.model')
tokens = sp.encode('Hello, world!', out_type=str)
print(tokens)  # ['▁Hello', ',', '▁world', '!']
ids = sp.encode('Hello, world!')
print(ids)  # [1234, 56, 789, 10]

5.2 語彙の設計と拡張¶

語彙はトークナイザーの中核コンポーネントです。語彙のサイズ、カバレッジ、および構造は、モデルのパフォーマンスと効率に直接影響します。

5.2.1 語彙サイズのトレードオフ¶

語彙のサイズは、トークナイザーの設計において最も重要なハイパーパラメーターの 1 つです。語彙が大きいほど、完全な単位として保持されるトークンが多くなり、シーケンスは短くなりますが、Embedding行列が大きくなり、パラメータが増加します。語彙が少ないほど、より多くの単語がサブワードに分割され、シーケンスが長くなりますが、モデルパラメーターは少なくなります。

主流の大規模モデルの語彙サイズは通常、32K から 128K の範囲です。 GPT-2 は 50,257、LLaMA は 32,000、GPT-4 は約 100,000 を使用すると報告されています。語彙サイズを選択するときは、次の点を考慮してください。

計算効率: 語彙が増えるほど、Embedding層と出力層のパラメーターも多くなります。語彙サイズ V の d 次元モデルの場合、Embedding行列には V × d パラメーターが含まれます。 V が 32K から 128K に増加すると、これは 4 倍に増加します。

シーケンスの長さ: 語彙が大きいほど、平均して各トークンがカバーする文字数が多くなり、同じテキストが分割されるトークンの数は少なくなります。 Transformer の計算の複雑さはシーケンスの長さが 2 次であるため、これは長いドキュメントの場合に特に重要です。

希少語の処理: 語彙が増えるほど、より多くの希少語を完全なトークンとして保持できるようになり、UNK や過剰セグメンテーションの問題が軽減されます。しかし、これはまた、まれなトークンではトレーニングサンプルが少なくなり、Embedding品質の低下につながる可能性があることも意味します。

# Analyze impact of different vocabulary sizes on sequence length
def analyze_vocab_size_impact(text: str, vocab_sizes: list) -> dict:
    """Analyze impact of vocabulary size on tokenization results"""
    import sentencepiece as spm

    results = {}
    for vocab_size in vocab_sizes:
        # Train tokenizers with different vocabulary sizes
        spm.SentencePieceTrainer.train(
            input='corpus.txt',
            model_prefix=f'tokenizer_{vocab_size}',
            vocab_size=vocab_size,
            model_type='bpe'
        )

        sp = spm.SentencePieceProcessor(model_file=f'tokenizer_{vocab_size}.model')
        tokens = sp.encode(text)

        results[vocab_size] = {
            'num_tokens': len(tokens),
            'chars_per_token': len(text) / len(tokens),
            'compression_ratio': len(text.encode('utf-8')) / (len(tokens) * 2)
        }

    return results

5.2.2 多言語語彙の設計¶

多言語モデルをトレーニングする場合、語彙設計はさらなる課題に直面します。それは、限られた語彙空間内でさまざまな言語のカバレッジのバランスをどう取るかということです。

よくある問題は「語彙の呪い」です。トークナイザーが多言語コーパスで直接トレーニングされた場合、高リソース言語 (英語など) が語彙スペースのほとんどを占めることになりますが、低リソース言語のカバー範囲は著しく不十分です。これにより、低リソース言語のテキストが過剰にセグメント化され、シーケンスの長さが増大し、モデルのパフォーマンスが低下します。

これに対処するための一般的な戦略は次のとおりです。

コーパスのバランス: トークナイザーをトレーニングする前に、さまざまな言語からコーパスをオーバーサンプリングまたはアンダーサンプリングして、言語間で重みのバランスを高めます。

温度サンプリング: 第 3 章で説明した多言語データバランシング戦略と同様に、温度パラメーターを使用して、さまざまな言語のサンプリング確率を制御します。

言語固有の文字の範囲: 頻度が低い場合でも、各ターゲット言語の基本的な文字セットが語彙に含まれていることを確認します。 SentencePiece は、これを制御する character_coverage パラメーターを提供します。

# Multilingual tokenizer training example
import sentencepiece as spm

# Use character coverage to ensure multilingual support
spm.SentencePieceTrainer.train(
    input='multilingual_corpus.txt',
    model_prefix='multilingual_tokenizer',
    vocab_size=64000,
    model_type='unigram',
    character_coverage=0_9999,  # High coverage ensures rare characters included
    input_sentence_size=10000000,
    shuffle_input_sentence=True,
    # Special handling for CJK characters
    byte_fallback=True  # Fall back to byte level for unknown characters
)

5.2.3 ドメイン固有の語彙拡張¶

事前トレーニングされたモデルを特定のドメイン (医療、法律、コードなど) に適用すると、ドメイン用語が過度にセグメント化されるという問題によく遭遇します。これはシーケンスの長さが増加するだけでなく、モデルの専門的な概念の理解にも影響を与える可能性があります。

語彙の拡張は効果的な解決策です。基本的な考え方: 元の語彙を保持しながら、新しいドメイン固有のトークンを追加します。

from transformers import AutoTokenizer

def extend_tokenizer(base_tokenizer_name: str, 
                     domain_terms: list,
                     output_dir: str) -> None:
    """
    Extend pre-trained tokenizer vocabulary

    Args:
        base_tokenizer_name: Base tokenizer name
        domain_terms: List of domain-specific terms
        output_dir: Output directory
    """
    # Load base tokenizer
    tokenizer = AutoTokenizer.from_pretrained(base_tokenizer_name)

    print(f"Original vocabulary size: {len(tokenizer)}")

    # Filter already existing tokens
    new_tokens = []
    for term in domain_terms:
        if term not in tokenizer.get_vocab():
            new_tokens.append(term)

    # Add new tokens
    num_added = tokenizer.add_tokens(new_tokens)
    print(f"Added {num_added} new tokens")
    print(f"New vocabulary size: {len(tokenizer)}")

    # Save extended tokenizer
    tokenizer.save_pretrained(output_dir)

    return tokenizer

# Example: Extend vocabulary for medical domain
medical_terms = [
    '冠状动脉',
    '心肌梗死',
    '动脉粥样硬化',
    'COVID-19',
    'mRNA疫苗',
    '计算机断层扫描',
    # ... more terms
]

tokenizer = extend_tokenizer(
    'meta-llama/Llama-2-7b',
    medical_terms,
    './medical_tokenizer'
)

語彙拡張後は、それに応じてモデルのEmbedding行列を拡張する必要があります。新しいトークンのEmbeddingは通常、ランダムな値または既存の関連トークンの平均に初期化され、意味のある表現を得るために継続的な事前トレーニングを通じて学習されます。

from transformers import AutoModelForCausalLM

def resize_model_embeddings(model_name: str, 
                            tokenizer,
                            output_dir: str) -> None:
    """Resize model embedding layer to match extended vocabulary"""
    model = AutoModelForCausalLM.from_pretrained(model_name)

    # Resize embedding layer
    model.resize_token_embeddings(len(tokenizer))

    # Optional: Initialize new embeddings with mean of similar tokens
    # This usually gives better results than random initialization

    model.save_pretrained(output_dir)

5.2.4 語彙設計のベストプラクティス¶

業界の経験に基づいて、語彙設計のベストプラクティスをいくつか示します。

十分な特殊トークンの位置を予約: 将来の特殊トークン (新しい制御シンボル、ドメインマーカーなど) のためにいくつかのトークン ID を予約します。多くのトークナイザーは 100 ～ 1000 のポジションを予約します。

数値とコード記号の適切な分割を確保する: 数値は多くのタスクで重要ですが、標準のトークナイザーでは数値の処理が不十分なことがよくあります。 1 桁を独立したトークンとして保持するか、特別な数値エンコード戦略を使用することを検討してください。

エッジケースをテストする: 語彙を完成させる前に、非常に長い単語、特殊文字、混合言語テキスト、コードスニペットなど、さまざまなエッジケースをテストします。トークン化の結果が期待どおりであることを確認します。

語彙に関する決定を文書化する: 語彙サイズ、トレーニングコーパス、特別なトークンリストなどを記録し、その後のモデルの反復とトラブルシューティングを容易にします。

5.3 データ混合とカリキュラム学習¶

トークナイザーを決定したら、次の重要な質問は、トレーニングデータをどのように整理して提示するかということです。さまざまなソースや品質からのデータをどのような割合で混合する必要がありますか?トレーニング中のデータの順序は重要ですか?

5.3.1 データ混合戦略¶

第 3 章で説明したように、高品質の事前トレーニングデータセットは通常、Web、書籍、コード、論文、対話などの複数のソースを混合します。各ソースはデータ量と品質が異なります。単に元の比率で混合するだけでは最適ではないことがよくあります。

静的混合は最も単純な戦略です。トレーニングを開始する前に各ソースの混合比率を決定し、データをシャッフルしてから、順番にトレーニングします。この方法は実装が簡単ですが、柔軟性に欠けます。

# Static data mixing example
import random

def static_mix(data_sources: dict, target_size: int) -> list:
    """
    Statically mix multiple data sources

    Args:
        data_sources: {source_name: (data_list, weight)}
        target_size: Target dataset size

    Returns:
        Mixed data list
    """
    mixed_data = []

    # Compute sample count for each source
    total_weight = sum(w for _, w in data_sources.values())

    for source_name, (data, weight) in data_sources.items():
        num_samples = int(target_size * weight / total_weight)

        # If insufficient data, repeat sampling
        if len(data) < num_samples:
            sampled = random.choices(data, k=num_samples)
        else:
            sampled = random.sample(data, num_samples)

        mixed_data.extend(sampled)

    random.shuffle(mixed_data)
    return mixed_data

# Usage example
data_sources = {
    'web': (web_data, 0_6),
    'books': (book_data, 0_15),
    'code': (code_data, 0_1),
    'papers': (paper_data, 0_1),
    'wikipedia': (wiki_data, 0_05)
}

mixed = static_mix(data_sources, target_size=1000000)

図 5-3: 静的ミキシング戦略と動的ミキシング戦略の比較

ダイナミックミキシングにより、トレーニング中に混合比率を調整できます。一部の研究では、トレーニング段階ごとに最適なデータ比率が異なる可能性があることが示唆されています。たとえば、より多様なデータを使用して早期にトレーニングすると、モデルが広範な言語理解を確立するのに役立ちます。高品質データの割合を増やして後でトレーニングすると、きめ細かい機能が向上します。

class DynamicDataMixer:
    """Dynamic data mixer"""

    def __init__(self, data_sources: dict, schedule: list):
        """
        Initialize dynamic mixer

        Args:
            data_sources: Data source dictionary
            schedule: [(step_threshold, weights_dict), ...]
                     Use different mixing weights at different training steps
        """
        self.data_sources = data_sources
        self.schedule = sorted(schedule, key=lambda x: x[0])
        self.current_step = 0

    def get_weights(self) -> dict:
        """Get weights for current step"""
        for step_threshold, weights in reversed(self.schedule):
            if self.current_step >= step_threshold:
                return weights
        return self.schedule[0][1]

    def sample_batch(self, batch_size: int) -> list:
        """Sample one batch"""
        weights = self.get_weights()
        batch = []

        for source_name, weight in weights.items():
            num_samples = int(batch_size * weight)
            data = self.data_sources[source_name]
            batch.extend(random.choices(data, k=num_samples))

        random.shuffle(batch)
        self.current_step += 1
        return batch[:batch_size]

# Usage example: Emphasize diversity early, quality later
schedule = [
    (0, {'web': 0_5, 'books': 0_2, 'code': 0_15, 'papers': 0_1, 'wiki': 0_05}),
    (100000, {'web': 0_4, 'books': 0_25, 'code': 0_15, 'papers': 0_15, 'wiki': 0_05}),
    (500000, {'web': 0_3, 'books': 0_3, 'code': 0_2, 'papers': 0_15, 'wiki': 0_05}),
]

mixer = DynamicDataMixer(data_sources, schedule)

5.3.2 カリキュラム学習¶

カリキュラム学習は、人間の学習にヒントを得たトレーニング戦略です。中心となるアイデアは、モデルに最初に「簡単な」サンプルを学習させ、次に「難しい」サンプルに徐々に移行させることです。この戦略は、収束を加速し、最終的なパフォーマンスを向上させることが複数の研究で証明されています。

トレーニング前のシナリオでは、「簡単」と「難しい」は複数の方法で定義できます。

長さベース: 通常、長いテキストよりも短いテキストの方が学習しやすいです。カリキュラムは短いシーケンスから始めて、徐々に長さを増やしていくことができます。

難度ベース: 難度の低いテキスト (言語モデルがより「慣れている」テキスト) は、「簡単な」サンプルとみなすことができます。小さな事前トレーニング済みモデルを使用してサンプルの難易度を評価し、メインモデルのサンプルを難易度順に並べることができます。

ノイズレベルベース: 最初は高品質でノイズの少ないテキストが使用され、次に徐々に低品質だが固有の情報が含まれる可能性のあるテキストが導入されます。

import numpy as np

class CurriculumScheduler:
    """Curriculum learning scheduler"""

    def __init__(self, 
                 data: list, 
                 difficulty_scores: list,
                 total_steps: int,
                 strategy: str = 'linear'):
        """
        Initialize curriculum scheduler

        Args:
            data: Data list
            difficulty_scores: Difficulty score for each sample (higher = harder)
            total_steps: Total training steps
            strategy: Curriculum strategy ('linear', 'sqrt', 'exp')
        """
        self.data = np.array(data)
        self.difficulty_scores = np.array(difficulty_scores)
        self.total_steps = total_steps
        self.strategy = strategy

        # Sort by difficulty
        sorted_indices = np.argsort(self.difficulty_scores)
        self.sorted_data = self.data[sorted_indices]
        self.sorted_scores = self.difficulty_scores[sorted_indices]

    def get_curriculum_fraction(self, current_step: int) -> float:
        """
        Compute data fraction to use at current step

        Return value in [0, 1], indicating proportion of easiest data to use
        """
        progress = current_step / self.total_steps

        if self.strategy == 'linear':
            return progress
        elif self.strategy == 'sqrt':
            return np.sqrt(progress)
        elif self.strategy == 'exp':
            return 1 - np.exp(-3 * progress)
        else:
            return progress

    def sample_batch(self, current_step: int, batch_size: int) -> list:
        """Sample batch according to current progress"""
        fraction = self.get_curriculum_fraction(current_step)

        # Determine available data range
        available_size = max(int(len(self.sorted_data) * fraction), batch_size)
        available_data = self.sorted_data[:available_size]

        # Random sample from available range
        indices = np.random.choice(len(available_data), size=batch_size, replace=True)
        return available_data[indices].tolist()

図 5-4: カリキュラムの学習原則 — 簡単なサンプルから難しいサンプルへの段階的な移行

5.3.3 データのサンプリングとバッチ構築¶

実際のトレーニングでは、データの編成方法が効率と有効性の両方に影響します。エンジニアリング上の重要な考慮事項をいくつか示します。

パック戦略: コンピューティングリソースを最大限に活用するには、通常、複数の短いシーケンスが固定長シーケンスにパックされます。これにより、パディングによる計算の無駄が削減されます。重要な問題は、梱包後に注意マスクをどのように扱うかです。異なる書類が相互に影響を与えるべきではありません。

def pack_sequences(sequences: list, max_length: int, eos_token_id: int) -> list:
    """
    Pack multiple short sequences to fixed length

    Args:
        sequences: List of token id sequences
        max_length: Target sequence length
        eos_token_id: End-of-sequence token ID

    Returns:
        List of packed sequences, each of length max_length
    """
    packed = []
    current_pack = []
    current_length = 0

    for seq in sequences:
        seq_with_eos = seq + [eos_token_id]

        if current_length + len(seq_with_eos) <= max_length:
            current_pack.extend(seq_with_eos)
            current_length += len(seq_with_eos)
        else:
            # Current pack full, start new one
            if current_pack:
                # Pad to max_length
                current_pack.extend([eos_token_id] * (max_length - current_length))
                packed.append(current_pack)

            current_pack = seq_with_eos
            current_length = len(seq_with_eos)

    # Handle last pack
    if current_pack:
        current_pack.extend([eos_token_id] * (max_length - current_length))
        packed.append(current_pack)

    return packed

ドキュメント境界の処理: シーケンスをパッキングするときは、生成中にモデルがドキュメント境界を越えて注意を実行しないようにするために、「ドキュメント境界マスク」を作成する必要があります。

データ読み込み効率: TB 規模のデータセットの場合、データ読み込み自体がボトルネックになる可能性があります。一般的な最適化方法には、前処理されたデータをバイナリ形式で保存する (numpy memmap など)、マルチプロセスの並列ロード、次のバッチのプリフェッチが含まれます。

5.3.4 シリアル化とストレージ形式¶

トークン化後、トレーニング中に高速に読み取るために、トークンシーケンスを効率的な形式で保存する必要があります。

一般的なストレージ形式には次のものが含まれます。

NumPy memmap: トークン ID を numpy 配列として保存し、メモリマッピング経由でアクセスします。利点はシンプルかつ直接的であり、ランダムアクセスをサポートします。欠点は、圧縮をサポートしていないこと、ストレージが大きいことです。

import numpy as np

def save_as_memmap(token_ids: list, output_path: str):
    """Save token ID list as memmap format"""
    arr = np.array(token_ids, dtype=np.uint16)  # Assume vocabulary < 65536
    fp = np.memmap(output_path, dtype='uint16', mode='w+', shape=arr.shape)
    fp[:] = arr[:]
    fp.flush()

def load_memmap(path: str, shape: tuple):
    """Load memmap format token IDs"""
    return np.memmap(path, dtype='uint16', mode='r', shape=shape)

Arrow/Parquet: Apache Arrow 形式を使用し、圧縮と効率的な列指向アクセスをサポートします。 HuggingFace データセットは内部でこの形式を使用します。

カスタムバイナリ形式: 一部の大規模プロジェクトでは、特定のアクセスパターンに最適化されたカスタムバイナリ形式が使用されます。たとえば、GPT-NeoX で使用されるバイナリパッキング形式。

# Use HuggingFace Datasets for tokenized data
from datasets import Dataset

def tokenize_and_save(raw_data: list, tokenizer, output_dir: str):
    """Tokenize and save as Datasets format"""

    def tokenize_function(examples):
        return tokenizer(
            examples['text'],
            truncation=True,
            max_length=2048,
            return_attention_mask=False
        )

    # Create Dataset
    ds = Dataset.from_dict({'text': raw_data})

    # Tokenize
    tokenized_ds = ds.map(
        tokenize_function,
        batched=True,
        num_proc=16,
        remove_columns=['text']
    )

    # Save
    tokenized_ds.save_to_disk(output_dir)

5.4 完全なデータ準備パイプライン¶

上で説明したステップを接続して、生のテキストからトレーニングの準備ができたデータまでの完全なパイプラインを構築します。

from dataclasses import dataclass
from typing import Optional
import sentencepiece as spm

@dataclass
class DataPrepConfig:
    """Data preparation configuration"""
    # Tokenizer config
    tokenizer_path: str
    max_seq_length: int = 2048

    # Data mixing config
    mix_weights: dict = None  # {source: weight}

    # Curriculum learning config
    use_curriculum: bool = False
    curriculum_strategy: str = 'linear'

    # Output config
    pack_sequences: bool = True
    output_format: str = 'arrow'  # 'arrow', 'memmap', 'jsonl'

class DataPreparationPipeline:
    """Data preparation pipeline"""

    def __init__(self, config: DataPrepConfig):
        self.config = config
        self.tokenizer = spm.SentencePieceProcessor(model_file=config.tokenizer_path)

    def tokenize_document(self, text: str) -> list:
        """Tokenize single document"""
        return self.tokenizer.encode(text)

    def process_source(self, source_path: str, source_name: str) -> list:
        """Process single data source"""
        documents = self.load_documents(source_path)

        tokenized = []
        for doc in documents:
            tokens = self.tokenize_document(doc['text'])
            if len(tokens) > 10:  # Filter too-short documents
                tokenized.append({
                    'input_ids': tokens,
                    'source': source_name,
                    'length': len(tokens)
                })

        return tokenized

    def mix_sources(self, sources: dict) -> list:
        """Mix multiple data sources"""
        mixed = []
        weights = self.config.mix_weights or {s: 1_0 for s in sources}
        total_weight = sum(weights.values())

        # Determine sample count per source
        total_samples = sum(len(data) for data in sources.values())

        for source_name, data in sources.items():
            weight = weights.get(source_name, 1_0) / total_weight
            num_samples = int(total_samples * weight)

            if len(data) >= num_samples:
                sampled = random.sample(data, num_samples)
            else:
                sampled = random.choices(data, k=num_samples)

            mixed.extend(sampled)

        random.shuffle(mixed)
        return mixed

    def pack_and_save(self, data: list, output_path: str):
        """Pack and save data"""
        if self.config.pack_sequences:
            sequences = [d['input_ids'] for d in data]
            packed = pack_sequences(
                sequences, 
                self.config.max_seq_length,
                self.tokenizer.eos_id()
            )
        else:
            packed = [d['input_ids'] for d in data]

        # Select output format based on config
        if self.config.output_format == 'arrow':
            self.save_as_arrow(packed, output_path)
        elif self.config.output_format == 'memmap':
            self.save_as_memmap(packed, output_path)
        else:
            self.save_as_jsonl(packed, output_path)

    def run(self, source_paths: dict, output_path: str):
        """Run complete pipeline"""
        # 1. Process each data source
        sources = {}
        for source_name, path in source_paths.items():
            print(f"Processing {source_name}...")
            sources[source_name] = self.process_source(path, source_name)

        # 2. Mix data
        print("Mixing data sources...")
        mixed = self.mix_sources(sources)

        # 3. Optional: Apply curriculum ordering
        if self.config.use_curriculum:
            print("Applying curriculum ordering...")
            mixed = self.apply_curriculum(mixed)

        # 4. Pack and save
        print("Packing and saving...")
        self.pack_and_save(mixed, output_path)

        print(f"Done! Saved {len(mixed)} samples to {output_path}")

図 5-5: 生のテキストからトレーニング可能なデータまでの完全なパイプライン

5.5 章の概要¶

この章では、トークン化とデータのシリアル化のコアテクノロジーを体系的に紹介しました。

トークナイザーの原則: サブワードのトークン化は、現在の大規模モデルの主流の選択肢であり、語彙サイズとシーケンスの長さのバランスが取れています。 BPE は、シンプルかつ効率的な周波数駆動のボトムアップマージ戦略を使用します。 WordPiece は、低頻度の意味のあるパターンに対してより敏感な尤度主導の結合基準を使用します。 Unigram は、理論的にはよりエレガントなトップダウン確率モデリングを使用します。 SentencePiece は最も一般的に使用されるツールキットで、複数のアルゴリズムと言語に依存しない処理をサポートしています。

語彙の設計: 語彙のサイズには、計算効率、シーケンスの長さ、および稀な単語の処理の間のトレードオフが必要です。主流モデルは通常 32K ～ 128K を使用します。多言語語彙の設計では、言語間でカバレッジのバランスをとり、「語彙の呪い」を回避する必要があります。ドメイン固有の語彙拡張により、専門用語の処理が向上しますが、それに応じてモデルEmbedding層を拡張する必要があります。

データ混合の場合: 静的混合はシンプルかつ直接的です。ダイナミックミキシングにより、トレーニング中に比率を調整できます。カリキュラム学習戦略は簡単なサンプルから始まり、徐々に難しいサンプルに移行することで、収束を加速し、パフォーマンスを向上させることができます。大規模なトレーニングには、データのパッキングと効率的なストレージ形式が重要です。

図 5-6: 第 5 章知識構造 — 3 つのテーマ: トークン化アルゴリズム、語彙設計、データ構成

さらに読む¶

トークン化とデータのシリアル化に関する詳細な内容については、次のリソースを参照する価値があります。

SentencePiece の論文 (Kudo と Richardson、2018 年) では、言語に依存しないサブワードのトークン化が導入されています。 BPE の論文 (Sennrich et al.、2015) は、BPE を NLP に導入した先駆的な研究です。 Unigram の論文 (Kudo、2018) は、サブワードのトークン化に関する確率論的な観点を提供しています。 HuggingFace Tokenizers ライブラリのドキュメント (huggingface.co/docs/tokenizers) は、信頼できる実用的なリファレンスです。カリキュラム学習については、Bengio らの調査論文が包括的な理論的枠組みを提供しています。

次の章のプレビュー¶

これで、テキスト事前学習データエンジニアリングに関するすべてのコンテンツが完了しました。次の章「画像とテキストのペアの処理」では、マルチモーダルデータエンジニアリングの分野に入ります。 LAION-5B スタイルの画像とテキストのペアデータを処理する方法、同時実行性の高い画像ダウンロードに img2dataset を使用する方法、およびマルチモーダルデータクリーニングパイプラインを構築する方法を学びます。

次の章に入るときに、次の質問について考えてみましょう。画像の「品質」はどのように定義されるべきですか?解像度と明瞭さ以外に、他にどのような点を考慮する必要がありますか?