NEWS
新ツール「1.58bit を整える」をリリースしました
「1.58bit を整える」を公開しました。
「1.58bit って何? 普通の量子化と何が違うの?」── Microsoft Research が 2024 年 2 月に発表した BitNet b1.58 論文 を、論文を読まずに ブラウザで 1 分で体感 できるツールです。
すべてブラウザ内処理。サーバ送信ゼロ、登録不要、広告なし。
主な機能(4 つ)
1. 量子化の可視化
4×4 の重み行列を例に、BitNet b1.58 の AbsMean 量子化(重みの絶対値の平均 α をしきい値にする方式)をリアルタイム表示します。
- 左側:元の重み(fp16 想定、ガウス分布で乱数生成)
- 右側:量子化結果(赤=-1 / 灰=0 / 青=+1 の色付きグリッド)
- 「🎲 重みを再生成」ボタンで何度も試せる
- α 値も同時表示
2. モデルサイズ計算機
パラメータ数を入力 / プリセット選択(1.5B〜405B)して、6 精度(fp32 / fp16 / int8 / int4 / 1.58bit / 1bit)のメモリ消費量を比較表示。
- 横棒グラフで一目で比較
- 「動かせる端末カテゴリ」を自動判定(スマホ / ノート PC / GPU / クラウド)
- 1.58bit 行をハイライト
例:Llama 70B
- fp16:140 GB(GPU 必須)
- int4:35 GB(ハイエンド PC)
- 1.58bit:約 14 GB ⭐(ハイエンド PC で動作圏)
3. 「3 値の意味」解説
なぜ {-1, 0, +1} の 3 値で LLM が動くのか、直感的に説明:
- -1:反対方向の影響(引き算)
- 0:影響なし・スキップ(計算と電力をスキップ)
- +1:賛成方向の影響(そのまま足す)
→ 乗算が完全に不要、加算・引算・スキップだけで推論可能。電力 1/12、速度 10×。
4. fp16 vs 1.58bit 比較表
7 観点で並列比較:メモリ / 推論速度 / 電力 / 精度 / 学習方法 / 既存モデルの変換可否 / 必要ハードウェア。
なぜ 1.58bit を作ったか
ローカル LLM を整える では fp16 / int8 / int4 の比較を提供していますが、2024 年以降は 1.58bit が量子化の本命候補として浮上しました。
- スマホで Llama 70B 級が動く可能性
- データセンターの電力 1/10 削減
- エッジ AI(IoT・組み込み)の本格普及
ただし「1.58bit って何?」を分かりやすく説明している日本語ツールが少ないため、totonoe でブラウザ完結の体感ツールとして整えました。
使いどころ
| 場面 | 効果 |
|---|---|
| 技術選定 | 「うちの社内 AI は本当に GPU が必要? 1.58bit なら CPU でいける?」を即確認 |
| 経営判断 | 「Llama 70B を社内で動かすコスト」が概算でき、外部 API との比較に |
| 学習・調べ物 | 論文 PDF を読む前に、ブラウザで 1 分で概念を掴む |
| 提案資料 | 量子化の効果を示す数値・図を引用元として |
関連ツールとのシナジー
- 自分のマシンで動かしたい → ローカル LLM を整える
- API 料金との比較 → LLM 料金を整える
- コンテキスト窓も合わせて → コンテキスト窓を整える
- 埋め込み(RAG)の容量計算 → 埋め込みサイズを整える