totonoe

TOOL

ローカルLLMを整える

自分のマシンで Llama・Qwen・Gemma・Mixtral などの主要モデルが動くかをひと目で判定。 量子化・コンテキスト長を切り替えて、必要メモリと余裕度を比較できます。

i

TLDR — 30秒で分かる

自分のマシンで Llama・Qwen・Gemma が動く? 量子化(4bit/8bit/16bit)とコンテキスト長を切替えて即判定。

主な機能を見る
  • 14モデルの動作可否判定
  • 量子化(4/8/16bit)切替
  • コンテキスト長切替
  • GPU・RAM・Apple Silicon対応

あなたのマシンのメモリ

プラットフォーム

量子化

コンテキスト長

VERDICT

判定中…

DETAILS

モデル別の必要メモリ

モデル 4bit 必要合計 判定
1B
3B
8B
9B
12B
14B
22B
27B
32B
8x7B (MoE)
70B
8x22B (MoE)
405B
671B (MoE)

※ 単位は GB。必要合計 = 重み + KVキャッシュ + 推論オーバーヘッド(約2GB)。 占有率 = 必要合計 ÷ 利用可能メモリ。 量子化方式や推論エンジンの違いで ±15-20% のブレがあります(目安)。

よくある質問

Q. 計算式を教えて
A. 必要メモリ ≒ 重み + KVキャッシュ + 推論オーバーヘッド(約2GB)。重み = パラメータ数 × (bit/8) × 補正係数(4bit=0.62 / 8bit=1.1 / 16bit=2.0)。KVキャッシュ ≒ ctx_K × (0.06 + 0.0035 × paramsB) GB の経験式で近似しています。
Q. 判定 ✓△✗ の基準は?
A. 占有率(必要メモリ ÷ 利用可能メモリ)で判定。Macは Unified Memory のうち推論に回せる割合を75%、PCのGPU専用VRAMは92%として算出。✓余裕:占有70%以下/△ギリギリ:100%以下/✗厳しい:100%超。
Q. MoE モデル(Mixtral・DeepSeek V3)の扱いは?
A. MoEはアクティブパラメータが少なくても、重みはすべてメモリに載せる必要があります。Mixtral 8x7B なら 47B 分の重みをロードします。本ツールはMoEを「総量」で計算しています。
Q. 推定の精度は?
A. 量子化方式(Q4_K_M / GPTQ / AWQ / GGUF / MLX)や推論エンジン(Ollama / llama.cpp / LM Studio / MLX)によって ±15-20% のブレがあります。あくまで目安としてご利用ください。実際に動かすときは少し余裕を見ておくのが安全です。
Q. Mac の Unified Memory 設定は変えられる?
A. はい。`sudo sysctl iogpu.wired_limit_mb=数値` でMetal/MLXに割り当てる上限を引き上げられます。32GB以下のMacでは70-75%が安全域、64GB以上のMacなら85%程度まで上げられることが多いです。本ツールは保守的に75%で固定しています。
Q. おすすめの推論エンジンは?
A. Mac は Ollama(手軽)か MLX(Apple Silicon特化で速い)、PC(NVIDIA GPU)は Ollama か llama.cpp直、GUIなら LM Studio が定番。Apple Silicon は MLX で同じモデルが llama.cpp比1.5-2倍速いケースもあります。

RELATED TOOLS

続けて整える