fp16
エフピーじゅうろく
half-precision floating-point / FP16
DEFINITION
16ビットで実数を表す浮動小数点数フォーマット。LLM 推論のデファクト精度。
DETAIL — 詳しく
1 重みあたり 2 バイト消費。fp32(4 バイト)の半分、int8(1 バイト)の倍。GPU の Tensor Core が高速に処理できるため、Llama・Qwen・Gemma など多くのモデルが fp16 を標準とする。bfloat16 (bf16) は同じ 16 ビットだが指数部の bit 配分が異なり、学習時の安定性で優位。