totonoe
雑学・読み物

Claude 200K、GPT 128K、Gemini 2M──モデル選びはコンテキスト窓で決まる

主要LLMのコンテキストウィンドウを横並びで比較。窓の大きさが何を意味するのか、Lost in the Middle問題、RAGとロングコンテキストの使い分けまで、設計判断に直結する観点を整理します。

この長文PDF、ChatGPTで読ませたい」「社内ドキュメント全部Claudeに食わせたい」── LLM を業務で使い始めると、まず最初にぶつかるのが 「どのモデルがどれだけ長文を読めるか」 という問題です。

主要LLMの公称コンテキスト窓は、

  • Claude 4 系(Opus/Sonnet/Haiku):200K(約15万単語 / 約20万字日本語)
  • GPT-4o:128K(約9.6万単語)
  • OpenAI o系(推論モデル):200K
  • Gemini 2.5 Pro2M(約150万単語 / Claude 4の10倍)
  • Gemini 2.5 Flash:1M
  • Llama 4 (Scout)10M(公称、実効は条件次第)

数字だけ並べると Gemini や Llama 4 の圧勝ですが、「窓が大きい=そのモデルが優位」とは限らないのが実態です。

この記事では、コンテキスト窓の意味、Lost in the Middle 問題、RAGとロングコンテキストの使い分けまで、エンジニアが知っておくべき設計観点を整理します。


コンテキスト窓とは

LLMが一度に処理できる入力+出力の最大トークン数のこと。「200K トークン」というのは、英語で約15万単語、日本語で約20万字を一気に読ませられる量です。

サイズ感のイメージ:

サイズ何に相当するか
100 tokツイート1本
1.5K tokブログ記事1本
5K tokA4 PDF 5-10ページ
60K tokペーパーバック1冊
200K tok長編小説1冊(指輪物語 第1部 約18万語)
750K tok聖書(旧+新約)
2M tokハリポタ全7巻(英語原書合計)
10M tok大百科事典クラス

つまり Claude/GPT の 200K は「書籍1冊まるごと」、Gemini の 2M は「ハリポタ全巻」、Llama 4 の 10M は「百科事典クラス」。


Lost in the Middle 問題

窓が大きければ大きいほど良い」と思いきや、現実はもう少し複雑です。LLM には Lost in the Middle(中盤の情報が抜けやすい)と呼ばれる傾向があります。

長いコンテキストの 前半(冒頭)後半(末尾) に書いた情報には強く反応する一方、中盤 に埋めた情報はモデルが見落としやすい。

スタンフォード/プリンストン/UCバークレーらの研究(Liu et al., 2023)で実証されており、本質的に注意機構(attention)が均等に分散しないことが原因です。

つまり:

  • 20K の文脈で「中盤の情報」を質問 → 高精度で答える
  • 200K の文脈で「中盤の情報」を質問 → 精度が落ちる
  • 2M の文脈で「中盤の情報」を質問 → 大幅に落ちる

Gemini 2M なら社内ドキュメント全部食わせれば良い」が必ずしも正解にならないのは、この性質のためです。


RAG vs ロングコンテキスト、どっち?

ここから設計判断の話です。長文を扱う2つのアプローチ:

A. ロングコンテキスト型

全文をモデルに渡し、その中から関連箇所を探させる。

  • 利点:実装が単純、コードが短い
  • 難点:トークン代が高い、Lost in the Middle、推論時間が長い
  • 向く用途:1度きりの読解(契約書チェック、論文要約、PDF Q&A)

B. RAG(Retrieval-Augmented Generation)型

埋め込みベクトルで関連箇所だけ検索し、必要な部分だけモデルに渡す。

  • 利点:トークン代が安い、精度が高い、文書が増えても伸びる
  • 難点:埋め込みインデックスの構築・保守が必要
  • 向く用途:何度も繰り返し参照する大量文書(社内Wiki、製品マニュアル、コードベース)

判断のフレームワーク

質問YES なら
同じドキュメントに何度もアクセスする?RAG
ドキュメントが10MB以上ある?RAG
全文を一度に把握させたい?(要約・翻訳・整合性確認)ロングコンテキスト
1回の利用で完結する?(その場限りの読解)ロングコンテキスト
検索の精度が業務クリティカル?RAG
プロトタイプ・実験段階?まずロングコンテキスト

実務では「最初はロングコンテキストで動かして、需要が見えたらRAGに移行」というロードマップが現実的です。


モデル別の使い分け

Claude 4 シリーズ(200K)

  • 文書理解・コーディング・推論で総合力が高い
  • 200K は「書籍1冊・PRレビュー1回」にちょうどよい
  • Opus は最上位、Sonnet が日常用途、Haiku は速く安い

GPT-4o(128K)

  • マルチモーダル(画像・音声)が強み
  • 128K でカバーできない長文は分割が必要
  • API は安価・速い

OpenAI o1 / o3(200K)

  • 推論モデル:考えるステップを内部で展開
  • 数学・コード・複雑な多段推論で強い
  • 出力トークン上限が大きい(10万)ので、長い回答が出せる

Gemini 2.5 Pro / Flash(1-2M)

  • 超ロング窓が最大の差別化
  • 動画・画像との同時処理が強い
  • Flash は速くて安いので、要約・分類タスク向き

Llama 4 (Scout)(10M)

  • オープンウェイト
  • 公称10Mだが、推論プロバイダ・量子化・GPU構成で実効値は変動
  • セルフホスト前提なら強力

出力トークンも忘れないで

コンテキスト窓は 入力+出力の合計 が上限です。例えば、

  • Claude Sonnet 4.6:入力 200K + 出力最大 64K(合わせて200K)
  • GPT-4o:入力 128K + 出力最大 16K
  • o1:入力 200K + 出力最大 100K(推論モデルなので回答が長い)

200K 全部を入力に使うと、出力できない」ので、実務では入力 195K + 出力 5K ぐらいの配分で設計します。長い回答を期待するなら o1/o3 系、要約や分類なら Claude/GPT で十分。


トークン数の実測と最適化

「自分の文書は何トークンか?」を実測するには:

これらを順に使うと、**「自分の用途にどのモデルで十分か」「RAG が必要か」**が30分で判断できます。


まとめ

  • 主要LLMのコンテキスト窓:Claude/o系 200K、GPT-4o 128K、Gemini 1-2M、Llama 4 10M
  • 「窓が大きい=優位」ではない。Lost in the Middle で中盤が抜ける
  • RAG vs ロングコンテキスト は「同じ文書に何度もアクセスするか」で判断
  • 出力トークン上限も合算で上限になる
  • ツールチェイン:トークンプロンプト整形コンテキスト比較埋め込み

LLM の選定は「窓のサイズ」よりも「自分のユースケースが Lost in the Middle に弱いか / RAG にすべきか」で先に決めると、最初の判断が早く、後戻りが少なくなります。

KOINOBORI ECOSYSTEM

私たちが運営するサイト