BitNet b1.58
ビットネット いってんごじゅうはち
BitNet b1.58 / 1.58-bit LLM
DEFINITION
LLMの重みを {-1, 0, +1} の3値に量子化することで、log₂(3)≈1.58 bit/重み で表現できる手法。
DETAIL — 詳しく
Microsoft Researchが2024年2月に発表。各重みを3値に絞ることで、推論時の乗算が完全に不要になり、加算/減算/スキップだけで動作する。メモリは fp16 比約 1/10、推論速度約 10倍、電力は約 1/12 になり、3B params 以上では精度も fp16 と同等を維持。事前学習段階から1.58bit前提で学習する必要があり、既存モデルの後付け変換ではない。
EXAMPLE — 実用例
Llama 70B(fp16 で 140GB)を 1.58bit で持つと約 14GB、ハイエンド PC でも動作圏に入る。