totonoe

TOOL

埋め込みサイズを整える

OpenAI・Cohere・Voyage・BGE-M3 などの埋め込みモデルを、次元・コスト・ストレージで比較。 ベクトル数を入れれば、量子化別の必要容量とインデックス込みのサイズが一目で出ます。

i

TLDR — 30秒で分かる

OpenAI・Cohere・Voyage・BGE などの埋め込みベクトル次元・ストレージ・コストを比較。RAG設計の容量見積もりに。

主な機能を見る
  • 11モデルの次元比較
  • 文書数×次元×float型のストレージ計算
  • API/セルフホストのコスト比較
  • RAG設計の前提整理

ベクトル数

量子化(ストレージ)

想定トークン数(コスト計算用)

1チャンクあたりの平均トークン数(既定: 500)。
ベクトル数 × このトークン数で API コストを計算。

MODELS

埋め込みモデル比較

モデル flat 埋め込みコスト
text-embedding-3-small Matryoshka・コスパ最強
text-embedding-3-large Matryoshka・高品質
text-embedding-ada-002 レガシー・新規は3-smallへ
voyage-3 OpenAIキラー・コンテキスト32K
voyage-3-large 高品質志向
embed-multilingual-v3.0 100+言語・日本語◎
embed-english-v3.0 英語特化
BGE-M3 オープン・日本語◎・密+疎+ColBERT
multilingual-e5-large オープン・100+言語
nomic-embed-text-v1.5 Matryoshka・オープン
jina-embeddings-v3 Matryoshka・タスク特化LoRA

※ 次元の * は Matryoshka 対応モデル(次元を途中で切れる)。 flat = ベクトル本体のみ。HNSW は +50% のグラフオーバーヘッド込み。 コストは「ベクトル数 × トークン数 / 1M × $/M tokens」で算出(オープンソースモデルは無料)。

よくある質問

Q. Matryoshka 表現学習って何?
A. OpenAI text-embedding-3 や Nomic / Jina の新世代モデルは、1つの埋め込みベクトルから「上位256次元」「上位512次元」のように途中で切り取っても品質を保てるよう訓練されています。ストレージ・検索速度を稼ぐために、用途に応じて次元削減できる仕組みです。
Q. fp16 / int8 / binary 量子化はどれだけ効く?
A. fp32 を基準(×1)として、fp16 ×0.5、int8 ×0.25、binary ×0.03。100万ベクトル × 1536次元の場合、fp32 で 6.1 GB → fp16 で 3.1 GB → int8 で 1.5 GB → binary で 0.19 GB。Hammingベクトル検索なら binary が高速で、精度低下は最小限(再ランキング併用が定石)。
Q. インデックス(HNSW/IVF/Flat)の容量は?
A. Flat = ベクトルそのまま(×1)。IVF はクラスタ重心追加で +約10%。HNSW はグラフリンク追加で +約50%。検索速度は HNSW > IVF > Flat の順で速く、容量と速度のトレードオフ。
Q. 日本語ならどのモデルがいい?
A. クラウドなら voyage-3 / cohere-multilingual-v3 / OpenAI 3-small が手堅い。オープンソースなら BGE-M3(密+疎+ColBERT のハイブリッド検索)か multilingual-e5-large。RAG なら BGE-M3 を試してから他と比較するのが速いです。

RELATED TOOLS

続けて整える