基礎知識 / FUNDAMENTALS

LLM（大規模言語モデル）とは

AI CLI の中身で動いているもの。トークン、コンテキスト、プロバイダの違い、料金感覚を実用ベースで整理。

公開 2026.05.17

LLM（Large Language Model、大規模言語モデル）は、Claude や GPT や Gemini の中身そのもの。AI CLI を使うとき、入力したプロンプトはこの LLM に渡って、テキストとして返ってくる。

このページでは「LLM とは何か」の学術的な解説はしない。CLI を使う上で必要な、料金とコンテキストとモデル選びの基礎だけ整理する。

トークン

LLM はテキストを「トークン」という単位で処理する。だいたいの目安:

英語: 1 トークン ≒ 4 文字 ≒ 0.75 単語
日本語: 1 トークン ≒ 1〜2 文字（ひらがな・カタカナは1文字1トークンに近く、漢字はやや少ない）

料金は トークン数で課金される。入力（プロンプト + コンテキスト）と出力（応答）で別単価。

ざっくり計算:

「200行のTypeScriptファイルを読ませて要約させる」 → 入力 3,000 トークン + 出力 500 トークン
「リポジトリ全体（50ファイル）を解析させる」 → 入力 100,000 トークン + 出力 2,000 トークン

長文ファイルを毎回読ませる作業は、トークン消費が一気に膨らむ。

コンテキストウィンドウ

LLM が一度に扱えるトークン数の上限。現行モデルだと:

Claude Opus / Sonnet: 200K トークン（拡張で 1M トークン）
GPT 系: モデルにより 128K 〜 1M トークン
Gemini 2.5 Pro: 1M トークン超

数字は大きいが、実際の運用では「コンテキストに何を入れるか」の選別が品質を左右する。

全部入れる → 関係ない情報がノイズになり、応答精度が落ちる
必要なものだけ入れる → 精度は上がるが、選別の手間が増える
AI CLI（Claude Code、Codex 等）は、必要なファイルだけを動的に読みに行く仕組みを持っているので、ユーザーが全部渡す必要はない

モデルの種類と使い分け

各プロバイダは「速い・安い」モデルと「遅い・賢い」モデルを揃えている。

プロバイダ	速い・安い	遅い・賢い
Anthropic	Haiku	Opus
OpenAI	GPT-5.3 (mini系)	GPT-5.4
Google	Gemini Flash	Gemini Pro

使い分けの定石:

下見・概要把握 → 速い・安いモデル
重要な refactor、複雑な仕様変更 → 遅い・賢いモデル
大量の機械的処理（複数ファイルの一括変換） → 速い・安いモデル
意思決定の伴う設計提案 → 遅い・賢いモデル

AI CLI のセッション中に /model で切り替えられるので、用途に応じて変えるのが効率的。

プロバイダの違い（実用観点）

学術的なベンチマーク順位ではなく、CLI で日常使いした体感での違い。

Claude（Anthropic）

長い文脈の保持と、コードの意図解釈が安定している。「このコードベース全体を踏まえて refactor」みたいな粘りが要る作業に強い。

GPT（OpenAI）

汎用性が高く、創造的なタスク（コピーライティング、新しい設計提案）でバランスがいい。ツール呼び出しが安定している。

Gemini（Google）

長文コンテキスト（1M トークン以上）を扱うのが得意。Web 検索との統合が組み込まれているモデルがある。

ただし「どれが一番賢いか」はタスクとモデル世代でコロコロ変わるので、絶対視しないほうがいい。

料金感覚を持つには

CLI を使い始めて最初に意識すべきは、「何をすると課金が跳ねるか」のパターン把握。

跳ねやすいパターン:

長文ファイルを毎回読ませる（CLAUDE.md / GEMINI.md に要約を入れて差し替えると改善）
大量のファイルを @dir 系で渡す
エージェントに長時間タスクを任せて放置（途中で何度も自己修正してトークンを消費）

跳ねないパターン:

ピンポイントの質問と修正
スクリプト経由の単発実行（-p フラグ）
プロジェクト記憶（CLAUDE.md など）で前提を持たせて、毎回の指示を短く

各 CLI には /cost 相当の確認コマンドがあるので、最初の週は毎日チェックして感覚を掴むのがいい。

AI エージェントとは — LLM をどう自律的に動かすか
プロンプトエンジニアリング基礎 — LLM への指示の出し方