LLM(大規模言語モデル)とは
AI CLI の中身で動いているもの。トークン、コンテキスト、プロバイダの違い、料金感覚を実用ベースで整理。
LLM(Large Language Model、大規模言語モデル)は、Claude や GPT や Gemini の中身そのもの。AI CLI を使うとき、入力したプロンプトはこの LLM に渡って、テキストとして返ってくる。
このページでは「LLM とは何か」の学術的な解説はしない。CLI を使う上で必要な、料金とコンテキストとモデル選びの基礎だけ整理する。
トークン
LLM はテキストを「トークン」という単位で処理する。だいたいの目安:
- 英語: 1 トークン ≒ 4 文字 ≒ 0.75 単語
- 日本語: 1 トークン ≒ 1〜2 文字(ひらがな・カタカナは1文字1トークンに近く、漢字はやや少ない)
料金は トークン数で課金される。入力(プロンプト + コンテキスト)と出力(応答)で別単価。
ざっくり計算:
- 「200行のTypeScriptファイルを読ませて要約させる」 → 入力 3,000 トークン + 出力 500 トークン
- 「リポジトリ全体(50ファイル)を解析させる」 → 入力 100,000 トークン + 出力 2,000 トークン
長文ファイルを毎回読ませる作業は、トークン消費が一気に膨らむ。
コンテキストウィンドウ
LLM が一度に扱えるトークン数の上限。現行モデルだと:
- Claude Opus / Sonnet: 200K トークン(拡張で 1M トークン)
- GPT 系: モデルにより 128K 〜 1M トークン
- Gemini 2.5 Pro: 1M トークン超
数字は大きいが、実際の運用では「コンテキストに何を入れるか」の選別が品質を左右する。
- 全部入れる → 関係ない情報がノイズになり、応答精度が落ちる
- 必要なものだけ入れる → 精度は上がるが、選別の手間が増える
- AI CLI(Claude Code、Codex 等)は、必要なファイルだけを動的に読みに行く仕組みを持っているので、ユーザーが全部渡す必要はない
モデルの種類と使い分け
各プロバイダは「速い・安い」モデルと「遅い・賢い」モデルを揃えている。
| プロバイダ | 速い・安い | 遅い・賢い |
|---|---|---|
| Anthropic | Haiku | Opus |
| OpenAI | GPT-5.3 (mini系) | GPT-5.4 |
| Gemini Flash | Gemini Pro |
使い分けの定石:
- 下見・概要把握 → 速い・安いモデル
- 重要な refactor、複雑な仕様変更 → 遅い・賢いモデル
- 大量の機械的処理(複数ファイルの一括変換) → 速い・安いモデル
- 意思決定の伴う設計提案 → 遅い・賢いモデル
AI CLI のセッション中に /model で切り替えられるので、用途に応じて変えるのが効率的。
プロバイダの違い(実用観点)
学術的なベンチマーク順位ではなく、CLI で日常使いした体感での違い。
Claude(Anthropic)
長い文脈の保持と、コードの意図解釈が安定している。「このコードベース全体を踏まえて refactor」みたいな粘りが要る作業に強い。
GPT(OpenAI)
汎用性が高く、創造的なタスク(コピーライティング、新しい設計提案)でバランスがいい。ツール呼び出しが安定している。
Gemini(Google)
長文コンテキスト(1M トークン以上)を扱うのが得意。Web 検索との統合が組み込まれているモデルがある。
ただし「どれが一番賢いか」はタスクとモデル世代でコロコロ変わるので、絶対視しないほうがいい。
料金感覚を持つには
CLI を使い始めて最初に意識すべきは、「何をすると課金が跳ねるか」のパターン把握。
跳ねやすいパターン:
- 長文ファイルを毎回読ませる(CLAUDE.md / GEMINI.md に要約を入れて差し替えると改善)
- 大量のファイルを
@dir系で渡す - エージェントに長時間タスクを任せて放置(途中で何度も自己修正してトークンを消費)
跳ねないパターン:
- ピンポイントの質問と修正
- スクリプト経由の単発実行(
-pフラグ) - プロジェクト記憶(CLAUDE.md など)で前提を持たせて、毎回の指示を短く
各 CLI には /cost 相当の確認コマンドがあるので、最初の週は毎日チェックして感覚を掴むのがいい。
関連記事
- AI エージェントとは — LLM をどう自律的に動かすか
- プロンプトエンジニアリング基礎 — LLM への指示の出し方