TOOL
埋め込みサイズを整える。
OpenAI・Cohere・Voyage・BGE-M3 などの埋め込みモデルを、次元・コスト・ストレージで比較。 ベクトル数を入れれば、量子化別の必要容量とインデックス込みのサイズが一目で出ます。
i
TLDR — 30秒で分かる
OpenAI・Cohere・Voyage・BGE などの埋め込みベクトル次元・ストレージ・コストを比較。RAG設計の容量見積もりに。
主な機能を見る
- 11モデルの次元比較
- 文書数×次元×float型のストレージ計算
- API/セルフホストのコスト比較
- RAG設計の前提整理
ベクトル数
量子化(ストレージ)
想定トークン数(コスト計算用)
1チャンクあたりの平均トークン数(既定: 500)。
ベクトル数 × このトークン数で API コストを計算。
MODELS
埋め込みモデル比較
| モデル | flat | 埋め込みコスト |
|---|---|---|
| text-embedding-3-small Matryoshka・コスパ最強 | — | — |
| text-embedding-3-large Matryoshka・高品質 | — | — |
| text-embedding-ada-002 レガシー・新規は3-smallへ | — | — |
| voyage-3 OpenAIキラー・コンテキスト32K | — | — |
| voyage-3-large 高品質志向 | — | — |
| embed-multilingual-v3.0 100+言語・日本語◎ | — | — |
| embed-english-v3.0 英語特化 | — | — |
| BGE-M3 オープン・日本語◎・密+疎+ColBERT | — | — |
| multilingual-e5-large オープン・100+言語 | — | — |
| nomic-embed-text-v1.5 Matryoshka・オープン | — | — |
| jina-embeddings-v3 Matryoshka・タスク特化LoRA | — | — |
※ 次元の * は Matryoshka 対応モデル(次元を途中で切れる)。
flat = ベクトル本体のみ。HNSW は +50% のグラフオーバーヘッド込み。
コストは「ベクトル数 × トークン数 / 1M × $/M tokens」で算出(オープンソースモデルは無料)。
よくある質問
- Q. Matryoshka 表現学習って何?
- A. OpenAI text-embedding-3 や Nomic / Jina の新世代モデルは、1つの埋め込みベクトルから「上位256次元」「上位512次元」のように途中で切り取っても品質を保てるよう訓練されています。ストレージ・検索速度を稼ぐために、用途に応じて次元削減できる仕組みです。
- Q. fp16 / int8 / binary 量子化はどれだけ効く?
- A. fp32 を基準(×1)として、fp16 ×0.5、int8 ×0.25、binary ×0.03。100万ベクトル × 1536次元の場合、fp32 で 6.1 GB → fp16 で 3.1 GB → int8 で 1.5 GB → binary で 0.19 GB。Hammingベクトル検索なら binary が高速で、精度低下は最小限(再ランキング併用が定石)。
- Q. インデックス(HNSW/IVF/Flat)の容量は?
- A. Flat = ベクトルそのまま(×1)。IVF はクラスタ重心追加で +約10%。HNSW はグラフリンク追加で +約50%。検索速度は HNSW > IVF > Flat の順で速く、容量と速度のトレードオフ。
- Q. 日本語ならどのモデルがいい?
- A. クラウドなら voyage-3 / cohere-multilingual-v3 / OpenAI 3-small が手堅い。オープンソースなら BGE-M3(密+疎+ColBERT のハイブリッド検索)か multilingual-e5-large。RAG なら BGE-M3 を試してから他と比較するのが速いです。
RELATED TOOLS
続けて整える