ローカルAI2026-04-20

RTX 4060はローカルLLMに使える？8GB VRAMの天井と現実

「ローカルLLMに興味が出た。でもGPUは何でもいいか？」——そういう人が最初に買いがちなのがRTX 4060だ。

価格帯が手ごろで、ゲームでも使えて、ローカルLLMも動く。カタログスペックだけ見れば確かに合理的な選択肢に見える。

ただ、実際に使い続けると「あと少しVRAMが欲しい」という感覚がかなり早い段階でやってくる。この記事では、RTX 4060（8GB）でローカルLLMを使った時に何が起きるかを具体的に整理する。

先に結論

✓7B〜8Bモデルは快適に動く。40〜50 tok/s程度で会話速度に不満はない

△13Bモデルは8GBに入りきらず、CPUへのオフロードが発生する

✗オフロード状態になると速度が1〜15 tok/sまで落ち、実用が難しくなる

→入門には使える。ただし、使い込むほど限界が見える

7Bモデルは普通に動く

RTX 4060の8GBは、7〜8Bモデルを完全にGPU上に乗せるには十分な量だ。 Qwen3:8b、Gemma 4 E4B、Llama3.1:8b——これらのモデルは快適に動く。

7〜8Bモデルの目安（Q4_K_M量子化・環境差あり）

推論速度40〜50 tok/s前後

GPU使用率80〜95%（ほぼフル活用）

VRAM使用量4〜6GB（余裕あり）

日常的な質問・要約・翻訳なら7Bで十分こなせる。使い始めの第一印象は悪くない。むしろ「これで十分じゃないか」と思う人は多い。実際、最初の数日はこれで不満を感じにくい。問題は、そのあと欲が出た時だ。

13Bを試した瞬間に詰まる

問題は「もう少し賢いモデルを使いたい」という欲が出た時だ。

13〜14BモデルはQ4量子化でも8〜10GB前後必要になる。 8GBのVRAMには入りきらず、Ollamaは自動でCPU（システムRAM）へのオフロードを始める。

13Bモデルを8GBで動かした場合

推論速度1〜15 tok/s（快適の1/3〜1/40）

GPU使用率25〜42%（大半がCPU処理）

体感返答に数十秒〜数分かかる

GPUとCPU間のデータ転送がボトルネックになり、速度が激落ちする。これは設定でどうにかなる問題ではない。VRAMが足りない以上、避けられない。

「ちょっと賢いモデルを試してみよう」——その一歩を踏み出した瞬間に、 8GBという壁が明確に見えてくる。ここで初めて「8GBは動くけど余裕はない」と実感する。

「あと少しVRAMが欲しい」が繰り返される理由

RTX 4060を選んだ人は、こういう流れになりやすい。

1.7Bモデルを動かす → 快適。満足する

2.「もう少し賢い返答が欲しい」→ 13Bを試す

3.速度が激落ち → 7Bに戻る

4.7Bの回答品質に物足りなさを感じ始める

→「あと4GBあれば…」という気持ちが定着する

これが数ヶ月で「RTX 4060から買い替えたい」という話につながる。 8GBは足りないわけではないが、余裕もない。常にギリギリの状態で使い続けることになる。

コーディング補助での使い方

コーディング特化モデル（Qwen2.5-Coder:7b など）は8GBでも十分動く。補完・レビュー・簡単なデバッグなら7Bクラスでもかなり使える。

ただし、大きなコードベース全体を読ませる・複数ファイルをまとめてレビューさせる、といった「重い用途」になると7Bの限界が出る。コーディング用途でも、本格的に使い倒すなら12GB以上が快適だ。

結論：RTX 4060 8GBは「入門」として正直なスペック

RTX 4060は、ローカルLLMの入門として試すには十分だ。 7Bモデルが快適に動くだけでも、クラウドAIとは全く違う体験ができる。

ただ、長く使うつもりなら「8GBで満足できるか」をあらかじめ考えておいた方がいい。使い続けるほど、もう一段上のVRAMへの欲が出てくる。

4060はローカルLLMの入口としては優秀だ。ただ、少し使い込むだけで「次は12GB以上が欲しい」という気持ちがかなり自然に出てくる。最初から後悔しない選択をするなら、その一段上を最初から選んでおく方が結果的に安くつく。

そもそもローカルLLMとは何か、始め方から知りたい場合はこちら。

ローカルLLMとは？できること・必要スペック・始め方 →

12GB・16GBで何が変わるかは、VRAM別の記事で詳しくまとめている。

VRAM別でできること｜8GB・12GB・16GB・24GBの現実 →

次のGPUをどれにするか迷っているなら、用途別の比較も用意している。

ローカルLLM向けGPUの選び方｜RTX 4060〜4090を用途別に比較 →

GPUごとの価格差は比較ページで確認できる。

Gadget Tracker — 価格監視

GPU最安値・価格推移を毎日追跡 →

← Gemma 4の違和感 GPUを買う前にクラウドで試す →