量子化
りょうしか
Quantization
DEFINITION
ニューラルネットの重み・活性化を、より少ないビット数の数値で表現すること。
DETAIL — 詳しく
fp32→fp16→int8→int4→1.58bit→1bit と段階がある。メモリ・速度・電力を削減できるが、ビット数を下げすぎると精度が落ちる。学習後に変換する Post-Training Quantization(PTQ)と、学習時から量子化を考慮する Quantization-Aware Training(QAT)がある。BitNet b1.58 は QAT の一種。