AIを整える

専門

ローカルLLMを整える。

＝自分のPCで動かすAIの選び方

自分のマシンで Llama・Qwen・Gemma・Mixtral などの主要モデルが動くかをひと目で判定。量子化・コンテキスト長を切り替えて、必要メモリと余裕度を比較できます。

🔰 かんたんに言うと

自分のパソコンでAIを動かすのに「どれくらいの性能（メモリ）が要るか」の目安を出します。

💻 エンジニア 🤖 RAG / AI設計

TLDR — 30秒で分かる

自分のマシンで Llama・Qwen・Gemma が動く？量子化（4bit/8bit/16bit）とコンテキスト長を切替えて即判定。

主な機能

14モデルの動作可否判定
量子化（4/8/16bit）切替
コンテキスト長切替
GPU・RAM・Apple Silicon対応

アニメで見る — ローカルLLMのしくみ ▶ 再生で1ステップずつ動きます

💬

あなたの質問

手元の端末

📝 あなたの質問

💻

手元のPCで推論

GPU・メモリ

☁️ 外のサーバへ送信

⚙️ 端末内で計算

🤖

回答

生成された文章

✅ 回答

🧠

モデルサイズ

パラメータ数

🧠 8Bモデル

⚙️

量子化で圧縮

4bit / 8bit / 16bit

16bit ≒ 約16GB

4bitに圧縮 ≒ 約5GB

💾

必要メモリ

VRAM / RAM の目安

✅ このメモリで動く

STEP 1

※ イメージ図です。下で、あなたのマシンでどのモデルが動くか実際に判定できます。

あなたのマシンのメモリ

プラットフォーム

Mac (Unified Memory) PC GPU専用VRAM

量子化

4bit（標準・推奨） 8bit（品質重視） 16bit（無圧縮）

コンテキスト長

4K（チャット） 8K（標準） 32K（長文） 128K（超長文）

VERDICT

判定中…

DETAILS

モデル別の必要メモリ

モデル	代表例	16bit	8bit	4bit	必要合計	占有率	判定
1B	Llama 3.2-1B / Qwen 2.5-0.5B/1.5B	—	—	—	—	—	—
3B	Llama 3.2-3B / Gemma 2-2B / Phi-3.5-mini	—	—	—	—	—	—
8B	Llama 3.1-8B / Qwen 2.5-7B / Mistral 7B	—	—	—	—	—	—
9B	Gemma 2-9B	—	—	—	—	—	—
12B	Mistral Nemo 12B	—	—	—	—	—	—
14B	Qwen 2.5-14B / Phi-3-medium	—	—	—	—	—	—
22B	Mistral Small 22B	—	—	—	—	—	—
27B	Gemma 2-27B	—	—	—	—	—	—
32B	Qwen 2.5-32B / QwQ-32B / DeepSeek Coder 33B	—	—	—	—	—	—
8x7B (MoE)	Mixtral 8x7B	—	—	—	—	—	—
70B	Llama 3.3-70B / Qwen 2.5-72B	—	—	—	—	—	—
8x22B (MoE)	Mixtral 8x22B	—	—	—	—	—	—
405B	Llama 3.1-405B	—	—	—	—	—	—
671B (MoE)	DeepSeek V3	—	—	—	—	—	—

※ 単位は GB。必要合計 = 重み + KVキャッシュ + 推論オーバーヘッド（約2GB）。占有率 = 必要合計 ÷ 利用可能メモリ。量子化方式や推論エンジンの違いで ±15-20% のブレがあります（目安）。

📖 このツールで使う用語

用語集トップへ →

分からない用語があれば、クリックして解説をご覧ください。

BitNet b1.58ビットネットいってんごじゅうはち

LLMの重みを {-1, 0, +1} の3値に量子化することで、log₂(3)≈1.58 bit/重みで表現できる手法。

詳しく見る →

量子化りょうしか

ニューラルネットの重み・活性化を、より少ないビット数の数値で表現すること。

詳しく見る →

fp16エフピーじゅうろく

16ビットで実数を表す浮動小数点数フォーマット。LLM 推論のデファクト精度。

詳しく見る →

int8イントエイト

ニューラルネットの重みを 8 ビット整数で表す量子化手法。fp16 の半分のサイズ。

詳しく見る →

int4イントフォー

4 ビット整数で重みを表す量子化。fp16 の 1/4 サイズ、ローカル LLM で多用される。

詳しく見る →

パラメータ数パラメータすう

LLM が持つ学習可能な重みの総数。一般に「N B」（10 億単位）で表記される。

詳しく見る →

ローカルLLM

クラウドではなく、手元のPC・スマホ上で動かす大規模言語モデル。

詳しく見る →

よくある質問

Q. 計算式を教えて

A. 必要メモリ ≒ 重み + KVキャッシュ + 推論オーバーヘッド(約2GB)。重み = パラメータ数 × (bit/8) × 補正係数（4bit=0.62 / 8bit=1.1 / 16bit=2.0）。KVキャッシュ ≒ ctx_K × (0.06 + 0.0035 × paramsB) GB の経験式で近似しています。

Q. 判定 ✓△✗ の基準は？

A. 占有率（必要メモリ ÷ 利用可能メモリ）で判定。Macは Unified Memory のうち推論に回せる割合を75%、PCのGPU専用VRAMは92%として算出。✓余裕：占有70%以下／△ギリギリ：100%以下／✗厳しい：100%超。

Q. MoE モデル（Mixtral・DeepSeek V3）の扱いは？

A. MoEはアクティブパラメータが少なくても、重みはすべてメモリに載せる必要があります。Mixtral 8x7B なら 47B 分の重みをロードします。本ツールはMoEを「総量」で計算しています。

Q. 推定の精度は？

A. 量子化方式（Q4_K_M / GPTQ / AWQ / GGUF / MLX）や推論エンジン（Ollama / llama.cpp / LM Studio / MLX）によって ±15-20% のブレがあります。あくまで目安としてご利用ください。実際に動かすときは少し余裕を見ておくのが安全です。

Q. Mac の Unified Memory 設定は変えられる？

A. はい。`sudo sysctl iogpu.wired_limit_mb=数値` でMetal/MLXに割り当てる上限を引き上げられます。32GB以下のMacでは70-75%が安全域、64GB以上のMacなら85%程度まで上げられることが多いです。本ツールは保守的に75%で固定しています。

Q. おすすめの推論エンジンは？

A. Mac は Ollama（手軽）か MLX（Apple Silicon特化で速い）、PC（NVIDIA GPU）は Ollama か llama.cpp直、GUIなら LM Studio が定番。Apple Silicon は MLX で同じモデルが llama.cpp比1.5-2倍速いケースもあります。

入力値はURLの「#」以降に入るためサーバーには送信されません。リンクを開くと同じ状態を復元します。