TOOL
ローカルLLMを整える。
自分のマシンで Llama・Qwen・Gemma・Mixtral などの主要モデルが動くかをひと目で判定。 量子化・コンテキスト長を切り替えて、必要メモリと余裕度を比較できます。
i
TLDR — 30秒で分かる
自分のマシンで Llama・Qwen・Gemma が動く? 量子化(4bit/8bit/16bit)とコンテキスト長を切替えて即判定。
主な機能を見る
- 14モデルの動作可否判定
- 量子化(4/8/16bit)切替
- コンテキスト長切替
- GPU・RAM・Apple Silicon対応
あなたのマシンのメモリ
プラットフォーム
量子化
コンテキスト長
VERDICT
判定中…
DETAILS
モデル別の必要メモリ
| モデル | 4bit | 必要合計 | 判定 |
|---|---|---|---|
| 1B | — | — | — |
| 3B | — | — | — |
| 8B | — | — | — |
| 9B | — | — | — |
| 12B | — | — | — |
| 14B | — | — | — |
| 22B | — | — | — |
| 27B | — | — | — |
| 32B | — | — | — |
| 8x7B (MoE) | — | — | — |
| 70B | — | — | — |
| 8x22B (MoE) | — | — | — |
| 405B | — | — | — |
| 671B (MoE) | — | — | — |
※ 単位は GB。必要合計 = 重み + KVキャッシュ + 推論オーバーヘッド(約2GB)。 占有率 = 必要合計 ÷ 利用可能メモリ。 量子化方式や推論エンジンの違いで ±15-20% のブレがあります(目安)。
よくある質問
- Q. 計算式を教えて
- A. 必要メモリ ≒ 重み + KVキャッシュ + 推論オーバーヘッド(約2GB)。重み = パラメータ数 × (bit/8) × 補正係数(4bit=0.62 / 8bit=1.1 / 16bit=2.0)。KVキャッシュ ≒ ctx_K × (0.06 + 0.0035 × paramsB) GB の経験式で近似しています。
- Q. 判定 ✓△✗ の基準は?
- A. 占有率(必要メモリ ÷ 利用可能メモリ)で判定。Macは Unified Memory のうち推論に回せる割合を75%、PCのGPU専用VRAMは92%として算出。✓余裕:占有70%以下/△ギリギリ:100%以下/✗厳しい:100%超。
- Q. MoE モデル(Mixtral・DeepSeek V3)の扱いは?
- A. MoEはアクティブパラメータが少なくても、重みはすべてメモリに載せる必要があります。Mixtral 8x7B なら 47B 分の重みをロードします。本ツールはMoEを「総量」で計算しています。
- Q. 推定の精度は?
- A. 量子化方式(Q4_K_M / GPTQ / AWQ / GGUF / MLX)や推論エンジン(Ollama / llama.cpp / LM Studio / MLX)によって ±15-20% のブレがあります。あくまで目安としてご利用ください。実際に動かすときは少し余裕を見ておくのが安全です。
- Q. Mac の Unified Memory 設定は変えられる?
- A. はい。`sudo sysctl iogpu.wired_limit_mb=数値` でMetal/MLXに割り当てる上限を引き上げられます。32GB以下のMacでは70-75%が安全域、64GB以上のMacなら85%程度まで上げられることが多いです。本ツールは保守的に75%で固定しています。
- Q. おすすめの推論エンジンは?
- A. Mac は Ollama(手軽)か MLX(Apple Silicon特化で速い)、PC(NVIDIA GPU)は Ollama か llama.cpp直、GUIなら LM Studio が定番。Apple Silicon は MLX で同じモデルが llama.cpp比1.5-2倍速いケースもあります。
RELATED TOOLS
続けて整える
AI・同カテゴリ
埋め込みサイズを整える
OpenAI・Cohere・Voyage・BGE などのベクトル次元・ストレージ・コストを比較。RAG設計の容量見積もりに。
開くAI・同カテゴリ
LLM料金を整える
プロンプトを貼ると GPT-4o・Claude Sonnet 4.5・Gemini 2.5 Pro など主要 LLM の API 料金が一発で並ぶ。USD/JPY・バッチ・キャッシュ割引・月次予測まで。
開くAI・関連
コンテキスト窓を整える
Claude 200K・GPT-4o 128K・Gemini 2.5 Pro 2M・Llama 4 10M。主要LLMの窓を一覧比較。「私の50KトークンPDFはどのモデルに入る?」が一発で。
開く