自然言語処理トークン化機械学習変圧器人工知能

自然言語処理におけるトークナイザーのトレーニングとモデルのトレーニング

自然言語処理におけるトークナイザーのトレーニングとモデルのトレーニングは、根本的に異なるものの、深く相互に関連したプロセスである。前者は語彙と符号化規則を作成し、後者が数値データから言語パターンを学習できるようにする。

ハイライト

トークナイザーのトレーニングは、勾配ベースの最適化ではなく貪欲なマージアルゴリズムを使用するため、ニューラル学習というよりは基本的に前処理ステップである。
モデルのトレーニングコストはトークナイザーのトレーニングコストを桁違いに上回るが、トークナイザーの品質は下流モデルのパフォーマンスに厳しい上限を設ける。
トークナイザーの語彙決定は、モデルのトレーニングが開始されると事実上不可逆となり、その後のすべての微調整を通してロックイン状態が続く。
多言語モデルは深刻なトークナイザーバイアスに直面しており、英語や主要なヨーロッパ言語は効率的にトークン化される一方で、他の多くの言語はシーケンス長のインフレーションに悩まされている。

トークナイザーのトレーニングとは？

サブワード語彙を構築し、テキストを数値トークンに変換するための符号化規則を学習するプロセス。

トークナイザーのトレーニングでは、大規模なテキストコーパスを分析して、言語を表現するための最も効率的なサブワード単位を発見します。
バイトペアエンコーディング（BPE）とSentencePieceは、生テキストでトークナイザーをトレーニングするための最も広く使用されているアルゴリズムです。
結果として得られる語彙サイズは固定ハイパーパラメータであり、通常は32,000～100,000トークンの範囲となる。
トークナイザーのトレーニングには、勾配降下法やニューラルネットワークの最適化は含まれません。
トレーニングが不十分なトークナイザーは、断片的または曖昧なトークンシーケンスを生成することで、下流モデルのパフォーマンスを著しく低下させる可能性があります。

自然言語処理におけるモデルトレーニングとは？

ニューラルネットワークの最適化プロセスでは、言語モデルが勾配ベースの手法を用いてトークン化されたデータからパターンを学習します。

モデルのトレーニングには、事前にトークン化されたデータが必要であり、バックプロパゲーションを使用して数十億のパラメータにわたる予測損失を最小化します。
2017年の論文「Attention Is All You Need」で紹介されたTransformerアーキテクチャは、現代のNLPモデルトレーニングにおいて主流となっている。
GPT-4のような大規模言語モデルのトレーニングには、数千万ドルもの計算リソースが必要になる場合がある。
モデルのトレーニングには、学習率、バッチサイズ、ウォームアップステップなどのハイパーパラメータが含まれ、これらは収束に大きく影響します。
ファインチューニングは、事前学習済みモデルを特定のタスクに適応させるもので、ゼロから学習する場合よりもはるかに少ないデータと計算量で済みます。

比較表

機能	トークナイザーのトレーニング	自然言語処理におけるモデルトレーニング
主な目標	サブワード語彙とエンコーディングルールを作成する	言語パターンとタスク固有の表現方法を学ぶ
入力データ	生テキストコーパス（多くの場合、ラベル付けされていないテラバイト規模のテキスト）	数値IDを持つトークン化されたシーケンス
最適化手法	貪欲な頻度ベースのマージ（BPE）または最尤法（SentencePiece）	バックプロパゲーションを用いた勾配降下法
出力成果物	語彙ファイルとエンコード/デコード機能	学習済みニューラルネットワークの重みとアーキテクチャ構成
コンピューティング要件	比較的控えめ。1台のマシンで何時間も	大規模。大規模モデルには数千のGPU/TPU時間が必要。
可逆性	完全に可逆的。トークンからテキストを正確に復元できる。	不可逆的。モデルの出力は予測であり、再現ではない。
標準的な所要時間	コーパスのサイズに応じて数分から数時間	基礎モデルの作成には数日から数ヶ月かかります。
依存関係	モデル研修開始前に完了する必要があります	トークナイザーが既にトレーニングされ、修正されていることに依存します。

詳細な比較

中核的な目的と機能

トークナイザーのトレーニングは、人間の言語と機械が読み取れる数値との間の前処理の架け橋として機能します。その役割は、単語をどのように分解するか、どのシーケンスを特別なトークンにするか、そして未知の単語をどのように処理するかを決定することです。一方、モデルのトレーニングは、実際の学習が行われる場所です。ニューラルネットワークが言語の統計的パターンを発見し、意味の表現を構築し、テキストを生成または分類する能力を開発する場所です。

アルゴリズムの基礎

トークナイザーのトレーニングに使用されるアルゴリズムは、モデルのトレーニングに使用されるアルゴリズムとは驚くほど異なります。BPEは個々のバイトから開始し、最も頻繁に出現する隣接ペアを繰り返しマージして、目的の語彙サイズに達するまで続けます。SentencePieceは、期待値最大化アルゴリズムを使用して、この問題を言語モデリングタスクとして扱います。どちらの方法もニューラルネットワークは使用しません。モデルのトレーニングでは、高次元の損失関数を解くために、通常はAdamまたはAdamWオプティマイザなどの微分可能な最適化手法のみを使用します。

資源集約度とスケーリング

これらの処理間の計算能力の差は驚くほど大きい。100GBのテキストでSentencePieceトークナイザーをトレーニングする場合、標準的なハードウェアであれば数時間で済むかもしれない。一方、同じコーパスでLlama 3のようなモデルをトレーニングするには、数千台のアクセラレータが相互接続された大規模なクラスタを数週間稼働させる必要がある。興味深いことに、トークナイザーのトレーニングは一度行うと複数のモデルトレーニング実行で再利用されることが多く、開発パイプライン全体の中で比較的固定的なコストとなっている。

モデルの動作への影響

トークナイザーの選択は、モデルが学習する内容を微妙ながらも強力に左右します。「antidisestablishmentarianism」を多くの断片に分割するトークナイザーは、モデルに断片から意味を組み立てることを強いる一方、それをそのまま保持するトークナイザーは、それを原子的な概念として扱います。トークナイザーの偏りは公平性にも影響を与える可能性があります。トークン化効率の低い言語はより長いシーケンスに圧縮されるため、モデルが処理するコストが実質的に増加し、場合によってはパフォーマンスの低下につながります。

ライフサイクルと反復

実際には、トークナイザーのトレーニングは通常、プロジェクトの初期段階で一度だけ行われる決定です。モデルトレーニング後にトークナイザーを変更すると、トークンIDは任意であり、モデルの埋め込みは特定のトークン位置に紐づいているため、すべてを最初から再トレーニングする必要があります。一方、モデルトレーニングは非常に反復的で、研究者はアーキテクチャ、トレーニング方法、微調整戦略などを継続的に試行錯誤します。このような非対称性により、トークナイザーの選択は、元に戻すのが難しい長期的な影響を及ぼすことになります。

長所と短所

トークナイザーのトレーニング

長所

+ 計算コストが低い
+ 完全に決定論的で再現可能
+ 効率的なテキスト圧縮を可能にする
+ 分野固有の語彙に合わせてカスタマイズ可能
+ 可逆的なテキストエンコードを作成します

コンス

− 固定された語彙は表現力を制限する
− 進化する言語との格闘
− エンコーディングバイアスを引き起こす可能性がある
− 変更するには再訓練が必要
− 希少言語には最適とは言えない

自然言語処理におけるモデルトレーニング

長所

+ 豊富な意味表現を学習する
+ 複数のタスクに応用可能
+ データ量と計算量に応じて予測可能なスケーリングを実現します。
+ 新たな機能を可能にする
+ 微調整適応をサポート

コンス

− 計算コストが非常に高い
− 環境に影響を与えるエネルギー使用
− 大規模なキュレーション済みデータセットが必要
− 幻覚や偏見に陥りやすい
− 内部の論理を解釈するのが難しい

よくある誤解

神話

トークナイザーのトレーニングは、最終モデルの品質にほとんど影響を与えない、ごく簡単な前処理ステップにすぎません。

現実

トークナイザーの品質は、モデルが学習できる内容を直接的に制限します。トークン化が不十分だと、曖昧な表現が生成され、シーケンス長が膨張し、特定の言語現象をモデルが習得することがほぼ不可能になる場合があります。研究者たちは、トークナイザーの選択によってベンチマーク性能が数パーセントポイントも変動する可能性があることを示しています。

神話

モデルのトレーニング後、トークンのマッピングを変更するだけでトークナイザーを切り替えることができます。

現実

モデルの埋め込みは、学習されたパラメータ空間内の特定の位置にある特定のトークンIDに結び付けられています。異なるトークナイザーを使用すると、まったく異なるトークン分布が生成されるため、事前学習済みの重みが意味的に一致しなくなります。唯一の有効な解決策は、最初から完全に再学習することです。

神話

トークナイザーの語彙数が多いほど、モデルのパフォーマンスは向上します。

現実

語彙数を増やすとシーケンス長は短くなりますが、埋め込み行列のサイズが大きくなり、モデルの効率が低下する可能性があります。最適な範囲が存在し、大きすぎるとモデルが希少なトークンを十分に活用できず、小さすぎるとシーケンスが断片化されます。多くの実務家は、多言語モデルには32,000～100,000トークンが最適だと考えています。

神話

モデルのトレーニングとトークナイザーのトレーニングは、同一のエンドツーエンドプロセスの一部として同時に行われます。

現実

これらは連続した、明確なフェーズです。モデルのアーキテクチャは埋め込み層の次元が語彙サイズに依存するため、モデルのトレーニングを開始する前にトークナイザーを完全にトレーニングして固定する必要があります。最近の研究では共同最適化が検討されていますが、標準的な手法は依然として厳密に逐次的なものです。

神話

あるトークナイザーで学習させたモデルは、異なるトークナイザーでトークン化されたテキストで微調整することができる。

現実

微調整には、同一のトークン化が必要です。トークン化の異なるテキストを入力すると、モデルは埋め込みを学習していないトークンID、あるいはさらに悪いことに、意味が全く異なる既知のIDを受け取ることになります。そのため、モデルのリリースでは、使用するトークナイザーを必ず明記しています。

神話

トークナイザーのトレーニングには、モデルのトレーニングと同様に、ラベル付きデータが必要です。

現実

トークナイザーは、ラベル付けされていない生のテキストのみで学習します。注釈、タグ、タスク固有のフォーマットは一切必要ありません。この教師なし学習の性質により、高額な人手によるラベル付けなしに、大規模なウェブ規模のコーパスでトークナイザーを学習させることが可能です。

よくある質問

事前学習済みモデルで間違ったトークナイザーを使用するとどうなりますか？

トークナイザーが一致していないと、意味不明な文字列が生成されます。モデルは、埋め込み表現が学習した内容とは全く異なるサブワードに対応するトークンIDを受け取ります。最悪の場合、トークンが意図しない学習済み関連付けを活性化するため、モデルは有害なコンテンツを生成します。必ずモデルに付属のトークナイザーを使用してください。

トークナイザーのトレーニングは、モデルのトレーニングと比較して、通常どのくらいの時間がかかりますか？

トークナイザーの学習は通常数時間、小規模なコーパスの場合は数分で完了します。一方、基盤モデルの学習には、大規模な計算クラスタを使用しても数週間から数か月かかります。大規模モデルの微調整でさえ、トークナイザーをゼロから学習させるよりも時間がかかるのが一般的です。この差は、トークナイザーが単純な統計アルゴリズムを使用するのに対し、モデルは反復的な勾配降下法によって数十億ものパラメータを最適化するという違いを反映しています。

GPT-4のような既存のモデルに対して、独自のトークナイザーをトレーニングすることはできますか？

技術的には可能ですが、実際には不可能です。カスタムトークナイザーをトレーニングすることはできますが、埋め込み次元と学習済み表現はOpenAIのオリジナルトークナイザーに紐づいているため、GPT-4の事前学習済み重みと組み合わせて使用することはできません。トークナイザーを使って新しいモデルをゼロからトレーニングする必要があり、事前学習済みモデルを使用する意味がなくなってしまいます。

なぜ言語によってトークン化されるトークンの数が、他の言語よりも多いのでしょうか？

これは、BPEや類似のアルゴリズムが訓練データにおける出現頻度を最適化する仕組みに起因する。訓練コーパスに大量の出現頻度を持つ言語、特に英語は効率的なトークン化が可能となる。一方、リソースの少ない言語は、そのパターンが頻繁にマージされる機会が少ないため、文字レベルまたはサブワードレベルに断片化される。この「トークナイザーの負担」により、一部の言語の処理は計算コストが高くなる。

トークナイザーのトレーニングにおいて、SentencePieceはBPEよりも優れていますか？

SentencePieceは、特定の用途において利点があります。スペースを通常の文字として扱うため、日本語や中国語のように単語の境界がない言語ではより自然な表現が可能です。また、BPEやユニグラム言語モデルなど、複数のエンコーディングアルゴリズムをサポートしています。BPEは英語中心のモデルでより一般的です。最適な選択は、使用する言語の組み合わせや、可逆エンコーディングが必要かどうかによって異なります。

トークナイザーがモデルに問題を引き起こしているかどうかを知るにはどうすればよいですか？

特定の言語やドメインで異常に高いパープレキシティ、よく使われる言語の類似テキストと比較して過剰なシーケンス長、珍しい単語や専門用語を含むタスクでのパフォーマンス低下に注意してください。トークン化の出力を手動で分析し、代表的な単語がどのように分割されるかを確認することで、問題がすぐに明らかになることがよくあります。

「トークナイザー爆発」とは何ですか？また、それはモデルのトレーニングにどのような影響を与えますか？

トークナイザー爆発は、入力のわずかな変化によってトークンシーケンスが劇的に変化する現象で、通常は境界ルールの曖昧さや接頭辞・接尾辞の処理の不備が原因です。これにより、モデルは類似の入力に対して一貫性のない表現を認識するため、モデルの学習が不安定になります。適切に学習されたトークナイザーは、一貫した前処理と堅牢なマージルールによって、この問題を最小限に抑えます。

大規模な言語モデルは、トークナイザーを再学習させることはあるのでしょうか？

主要なモデルファミリーでは、後方互換性を保つため、トークナイザーはバージョン間で固定されるのが一般的です。OpenAIがGPT-2とGPT-3の間で行ったように、組織が新しいトークナイザーをリリースする場合、それは全く新しいモデルのトレーニングを伴います。トークナイザーの変更にはコストと混乱が伴うため、その進化は緩やかで、多くの場合、主要なアーキテクチャ世代の登場時のみとなります。

トークナイザーのトレーニングは、医療や法律といった分野固有の自然言語処理アプリケーションに役立ちますか？

まさにその通りです。ドメイン固有のトークナイザーは、専門用語を断片化するのではなく、単一のトークンとして扱うことができます。これにより、効率性とモデルの理解度の両方が向上します。多くの生物医学分野の自然言語処理プロジェクトでは、一般的なトークナイザーでは不適切に分割されてしまうような専門用語を捉えるために、PubMedや臨床テキストを用いてカスタムトークナイザーを学習させています。

ChatGPTが簡単な数え上げやスペルチェックなどのタスクで時々苦戦するのはなぜですか？

この制約の一因はトークン化にある。トークナイザーは個々の文字ではなく、単語のサブピースを認識するため、文字数を数えるには、モデルがトークン埋め込みから文字レベルの情報を逆算する必要がある。同様に、スペルチェックでは、トークンをモデルが直接処理しない文字に分解する必要がある。これらの作業は人間にとっては容易だが、トークンレベルの入力表現では実に困難である。

評決

新しい言語領域向けにテキストを前処理する必要がある場合、または既存のトークナイザーでは特定の語彙をうまく処理できない場合は、トークナイザーのトレーニングを選択してください。高性能な言語システムを構築することが目標の場合は、モデルのトレーニングを優先し、カスタムトークン化の必要性を示す説得力のある証拠がない限り、GPT-2、BERT、Llamaなどの既存のトークナイザーを再利用してください。