← 一覧/ガイド
ローカルAI2026-04-20

RTX 4060はローカルLLMに使える?8GB VRAMの天井と現実

「ローカルLLMに興味が出た。でもGPUは何でもいいか?」——そういう人が最初に買いがちなのがRTX 4060だ。

価格帯が手ごろで、ゲームでも使えて、ローカルLLMも動く。 カタログスペックだけ見れば確かに合理的な選択肢に見える。

ただ、実際に使い続けると「あと少しVRAMが欲しい」という感覚がかなり早い段階でやってくる。 この記事では、RTX 4060(8GB)でローカルLLMを使った時に何が起きるかを具体的に整理する。

先に結論

7B〜8Bモデルは快適に動く。40〜50 tok/s程度で会話速度に不満はない
13Bモデルは8GBに入りきらず、CPUへのオフロードが発生する
オフロード状態になると速度が1〜15 tok/sまで落ち、実用が難しくなる
入門には使える。ただし、使い込むほど限界が見える

7Bモデルは普通に動く

RTX 4060の8GBは、7〜8Bモデルを完全にGPU上に乗せるには十分な量だ。 Qwen3:8b、Gemma 4 E4B、Llama3.1:8b——これらのモデルは快適に動く。

7〜8Bモデルの目安(Q4_K_M量子化・環境差あり)
推論速度40〜50 tok/s前後
GPU使用率80〜95%(ほぼフル活用)
VRAM使用量4〜6GB(余裕あり)

日常的な質問・要約・翻訳なら7Bで十分こなせる。 使い始めの第一印象は悪くない。むしろ「これで十分じゃないか」と思う人は多い。 実際、最初の数日はこれで不満を感じにくい。問題は、そのあと欲が出た時だ。

13Bを試した瞬間に詰まる

問題は「もう少し賢いモデルを使いたい」という欲が出た時だ。

13〜14BモデルはQ4量子化でも8〜10GB前後必要になる。 8GBのVRAMには入りきらず、Ollamaは自動でCPU(システムRAM)へのオフロードを始める。

13Bモデルを8GBで動かした場合
推論速度1〜15 tok/s(快適の1/3〜1/40)
GPU使用率25〜42%(大半がCPU処理)
体感返答に数十秒〜数分かかる

GPUとCPU間のデータ転送がボトルネックになり、速度が激落ちする。 これは設定でどうにかなる問題ではない。VRAMが足りない以上、避けられない。

「ちょっと賢いモデルを試してみよう」——その一歩を踏み出した瞬間に、 8GBという壁が明確に見えてくる。 ここで初めて「8GBは動くけど余裕はない」と実感する。

「あと少しVRAMが欲しい」が繰り返される理由

RTX 4060を選んだ人は、こういう流れになりやすい。

1.7Bモデルを動かす → 快適。満足する
2.「もう少し賢い返答が欲しい」→ 13Bを試す
3.速度が激落ち → 7Bに戻る
4.7Bの回答品質に物足りなさを感じ始める
「あと4GBあれば…」という気持ちが定着する

これが数ヶ月で「RTX 4060から買い替えたい」という話につながる。 8GBは足りないわけではないが、余裕もない。常にギリギリの状態で使い続けることになる。

コーディング補助での使い方

コーディング特化モデル(Qwen2.5-Coder:7b など)は8GBでも十分動く。 補完・レビュー・簡単なデバッグなら7Bクラスでもかなり使える。

ただし、大きなコードベース全体を読ませる・複数ファイルをまとめてレビューさせる、 といった「重い用途」になると7Bの限界が出る。 コーディング用途でも、本格的に使い倒すなら12GB以上が快適だ。

結論:RTX 4060 8GBは「入門」として正直なスペック

RTX 4060は、ローカルLLMの入門として試すには十分だ。 7Bモデルが快適に動くだけでも、クラウドAIとは全く違う体験ができる。

ただ、長く使うつもりなら「8GBで満足できるか」をあらかじめ考えておいた方がいい。 使い続けるほど、もう一段上のVRAMへの欲が出てくる。

4060はローカルLLMの入口としては優秀だ。ただ、少し使い込むだけで「次は12GB以上が欲しい」という気持ちがかなり自然に出てくる。 最初から後悔しない選択をするなら、その一段上を最初から選んでおく方が結果的に安くつく。

そもそもローカルLLMとは何か、始め方から知りたい場合はこちら。

関連記事
ローカルLLMとは?できること・必要スペック・始め方 →

12GB・16GBで何が変わるかは、VRAM別の記事で詳しくまとめている。

関連記事
VRAM別でできること|8GB・12GB・16GB・24GBの現実 →

次のGPUをどれにするか迷っているなら、用途別の比較も用意している。

関連記事
ローカルLLM向けGPUの選び方|RTX 4060〜4090を用途別に比較 →

GPUごとの価格差は比較ページで確認できる。

Gadget Tracker — 価格監視
GPU最安値・価格推移を毎日追跡 →
← Gemma 4の違和感GPUを買う前にクラウドで試す →