ローカルAI2026-04-19

ローカルLLM向けGPUの選び方｜RTX 4060〜4090を用途別に比較【2026年版】

ローカルLLMを始めようとして、GPUの選択で止まっている人は多い。

「RTX 4060で十分か？」「4070と4080で何が変わるのか？」—— スペック表を見ても、実際にローカルAIで使ったときの差がわからない。ゲーム用途の比較記事はあっても、LLM推論に特化した情報は少ない。

この記事では、ローカルLLMという用途に絞ってGPUを比較する。最後に用途別の結論を言い切るので、迷っているなら最後まで読んでほしい。

先に結論を出す

GPU	VRAM	7〜8Bモデルの体感速度目安	向いている用途
RTX 4060	8GB	40〜70 tok/s	入門・とりあえず試したい
RTX 4070	12GB	55〜65 tok/s	日常使い・コスパ優先
RTX 4070 Ti Super	16GB	75〜90 tok/s	後悔しない・最初から16GB
RTX 4080	16GB	75〜90 tok/s	本格運用・複数タスク同時
RTX 4090	24GB	140〜160 tok/s	制限なしで使いたい

※ 推論速度は7〜8Bモデル・Q4_K_M量子化の目安。モデルサイズ・量子化・システム構成で変わる。

GPU別・正直な評価

RTX 4060（8GB）

入門ライン

→ とりあえずローカルLLMを触ってみたい人向け

7〜8Bモデルは快適に動く。会話速度として不満はない。ただし13Bモデルを試した瞬間に限界が来る。VRAMに収まらないモデルはRAMへのオフロードが発生し、速度が1〜2 tok/sまで落ちる。これは使い物にならない速度だ。

✓ コストが一番安い。入門として触るには十分

✓ 7Bクラスのモデルは快適に動く

✗ 13B以上を使いたくなったとき即座に詰まる

✗ 使っていると「もう少しVRAMが欲しい」が必ず来る

RTX 4070（12GB）

コスパライン

→ 普段使いのAI環境を作りたい人向け

13〜14Bモデルを完全GPU推論で動かせる。 Qwen2.5:14b、Llama3.1:13b などの実用モデルがちゃんと動く速度で使える。日常的な要約・翻訳・コーディング補助ならこれで十分な場面が多い。ただし「もっと賢いモデルを使いたい」という欲が出たとき、30B以上はオフロードが必要になる。使い続けると「あと4GBあれば楽なのに」という場面がかなり多い。12GBは優秀だが、余裕はない。

✓ 13Bクラスを快適に動かせる実用ライン

✓ 4060より明確に体験が向上する

△ 30B以上は苦しい。コーディング本格用途には少し足りない

RTX 4070 Ti Super（16GB）← おすすめ

後悔しないライン

→ 買い直したくない人向け

VRAMが16GBに上がることで体験が大きく変わる。 13〜14Bモデルを高品質量子化（Q8）で動かせるため、7Bとは回答品質に差が出る。 30〜34Bモデルも積極的な量子化で試せる。「VRAMを気にしながら使う」という感覚がほぼなくなる。 RTX 4080と比べて価格が安く、LLM推論の速度差は小さい。コスパ最良のラインがここだ。

✓ 16GBで体験が別物になる

✓ RTX 4080より安く、速度差は小さい

✓ 最初からここを選べば買い直しがない

△ 70Bはオフロード必須

RTX 4080（16GB）

本格運用ライン

→ LLM以外の重い用途も並行したい人向け

VRAMは4070 Ti Superと同じ16GBだが、GPUコアの性能が高く推論速度が上がる。複数のモデルを並列で動かしたい、エージェント的な使い方をしたいなら差が出る。 LLM単体の推論速度では4070 Ti Superとの差は大きくない。価格差を考えると、LLM専用ならTi Superの方がコスパは上だ。

✓ 複数タスク同時・並列推論に強い

✓ 長期的に使えるスペック余裕がある

△ LLM単体用途ではTi Superとの差が価格ほどない

RTX 4090（24GB）

制限なしライン

→ 予算より制限の少なさを優先する人向け

30〜34Bモデルを高品質量子化で快適に動かせる。速度も140〜160 tok/sと別格だ。 70Bは完全GPU推論には入りきらないが、部分オフロードで試すことはできる。問題はコストで、20万円前後。ローカルLLMだけのために買うには高い。 GPU・ゲーム・動画編集・3DCGとの兼用なら選択肢に入る。

✓ 34B以下ならほぼ制限を感じない

✓ 速度が別格（他用途でも最強）

✗ LLM専用なら費用対効果が見合わない場合が多い