AIを整える

専門

埋め込みサイズを整える。

＝文章をAIが扱う数字に変えたときの「容量」

OpenAI・Cohere・Voyage・BGE-M3 などの埋め込みモデルを、次元・コスト・ストレージで比較。ベクトル数を入れれば、量子化別の必要容量とインデックス込みのサイズが一目で出ます。

🔰 かんたんに言うと

文章をAIが扱う「数字の列（ベクトル）」に変える話。その容量や次元数を見積もります。

💻 エンジニア 🤖 RAG / AI設計

TLDR — 30秒で分かる

OpenAI・Cohere・Voyage・BGE などの埋め込みベクトル次元・ストレージ・コストを比較。RAG設計の容量見積もりに。

主な機能

11モデルの次元比較
文書数×次元×float型のストレージ計算
API/セルフホストのコスト比較
RAG設計の前提整理

アニメで見る — 文をベクトルにするしくみ ▶ 再生で1ステップずつ動きます

📝

文章

「猫」

📄 「猫」

⚙️

埋め込みモデル

text-embedding-3-small

ぐるぐる変換

🔢

ベクトル

意味の座標（1536次元）

[0.21, -0.74, …]

🅰️

文A

「猫」

🗺️

ベクトル空間

意味の地図

🐱 猫

🐈 ネコ（近い）

🚗 自動車（遠い）

🅱️

文B

「ネコ」/「自動車」

STEP 1

※ イメージ図です。下の表で、実際のモデル別に次元・容量・コストを比べられます。

ベクトル数

件

量子化（ストレージ）

fp32 (4B/dim) ── 既定 fp16 (2B/dim) ── 半精度 int8 (1B/dim) ── 4倍圧縮 binary (1bit/dim) ── 32倍圧縮

想定トークン数（コスト計算用）

tokens / ベクトル

1チャンクあたりの平均トークン数（既定: 500）。
ベクトル数 × このトークン数で API コストを計算。

MODELS

埋め込みモデル比較

モデル	ベンダー	次元	ctx	flat	HNSW	埋め込みコスト
text-embedding-3-small Matryoshka・コスパ最強	OpenAI	1,536*	8K	—	—	—
text-embedding-3-large Matryoshka・高品質	OpenAI	3,072*	8K	—	—	—
text-embedding-ada-002 レガシー・新規は3-smallへ	OpenAI	1,536	8K	—	—	—
voyage-3 OpenAIキラー・コンテキスト32K	Voyage AI	1,024	32K	—	—	—
voyage-3-large 高品質志向	Voyage AI	1,024	32K	—	—	—
embed-multilingual-v3.0 100+言語・日本語◎	Cohere	1,024	1K	—	—	—
embed-english-v3.0 英語特化	Cohere	1,024	1K	—	—	—
BGE-M3 オープン・日本語◎・密+疎+ColBERT	BAAI	1,024	8K	—	—	—
multilingual-e5-large オープン・100+言語	Microsoft	1,024	1K	—	—	—
nomic-embed-text-v1.5 Matryoshka・オープン	Nomic AI	768*	8K	—	—	—
jina-embeddings-v3 Matryoshka・タスク特化LoRA	Jina AI	1,024*	8K	—	—	—

※ 次元の * は Matryoshka 対応モデル（次元を途中で切れる）。 flat = ベクトル本体のみ。HNSW は +50% のグラフオーバーヘッド込み。コストは「ベクトル数 × トークン数 / 1M × $/M tokens」で算出（オープンソースモデルは無料）。

📖 このツールで使う用語

用語集トップへ →

分からない用語があれば、クリックして解説をご覧ください。

Lost in the Middle

LLM が長いコンテキストの中盤に置かれた情報を見落としやすい現象。

詳しく見る →

埋め込みベクトルうめこみべくとる

テキストを多次元の数値ベクトルに変換した表現。意味の近さを距離で測れる。

詳しく見る →

RAG

埋め込み検索で関連文書を引き、それをLLMに渡して回答させる手法。

詳しく見る →

よくある質問

Q. Matryoshka 表現学習って何？

A. OpenAI text-embedding-3 や Nomic / Jina の新世代モデルは、1つの埋め込みベクトルから「上位256次元」「上位512次元」のように途中で切り取っても品質を保てるよう訓練されています。ストレージ・検索速度を稼ぐために、用途に応じて次元削減できる仕組みです。

Q. fp16 / int8 / binary 量子化はどれだけ効く？

A. fp32 を基準（×1）として、fp16 ×0.5、int8 ×0.25、binary ×0.03。100万ベクトル × 1536次元の場合、fp32 で 6.1 GB → fp16 で 3.1 GB → int8 で 1.5 GB → binary で 0.19 GB。Hammingベクトル検索なら binary が高速で、精度低下は最小限（再ランキング併用が定石）。

Q. インデックス（HNSW/IVF/Flat）の容量は？

A. Flat = ベクトルそのまま（×1）。IVF はクラスタ重心追加で +約10%。HNSW はグラフリンク追加で +約50%。検索速度は HNSW > IVF > Flat の順で速く、容量と速度のトレードオフ。

Q. 日本語ならどのモデルがいい？

A. クラウドなら voyage-3 / cohere-multilingual-v3 / OpenAI 3-small が手堅い。オープンソースなら BGE-M3（密+疎+ColBERT のハイブリッド検索）か multilingual-e5-large。RAG なら BGE-M3 を試してから他と比較するのが速いです。

入力値はURLの「#」以降に入るためサーバーには送信されません。リンクを開くと同じ状態を復元します。