本文へスキップ
totonoe

AIを整える

専門

RAGチャンク設計を整える

= AIに大量の資料を読ませるときの「分け方」を決める

RAG(検索拡張生成)の文書分割を設計する道具。文書量とチャンクサイズ・オーバーラップから、チャンク数・必要ベクトル数・埋め込みコストを即算出。取り出したチャンクがコンテキスト窓に収まるかも一発判定。入力はブラウザ内だけで完結(送信ゼロ)。

🔰 かんたんに言うと

AIに大量の文書を読ませるときの「分け方(チャンク)」を設計します。

i

TLDR — 30秒で分かる

文書量とチャンクサイズを入れるだけで、必要なチャンク数・ベクトル数・コストと「文脈窓に収まるか」が即わかる。

主な機能

  • 文字数⇄トークン概算(日本語1.2字/token・英語4字/token切替)
  • チャンク数・必要ベクトル数・オーバーラップ込み総トークンを自動算出
  • chunk×top-k+余裕が文脈窓(8K/32K/128K)に収まるか判定
  • 埋め込みコスト概算(単価手入力=送信ゼロ)
  • 設計のコツ(小さすぎ/大きすぎ/オーバーラップ)の解説
  • プリセットでワンクリック・送信ゼロ
アニメで見る — RAGのチャンク分割のしくみ ▶ 再生で1ステップずつ動きます
📄

長い文書

マニュアル・規程・Wiki

📄 10万トークンの文書
✂️

チャンク分割

一定トークンで区切る

✂️ 1000トークンずつ
🔢

チャンク(=ベクトル)

検索できる断片

🧩 チャンク1
🧩 チャンク2
🧩 …×125
↔ のりしろ(overlap)
🗃

チャンク置き場

ベクトルDB

❓ 質問
🔍

top-k 取り出し

質問に近い上位k個

🧩 近いチャンク×5
🪟

コンテキスト窓

一度に入る上限

📌 指示+質問の余裕
🟦 取り出したチャンク
⚠ 入りきらない例

STEP 1

※ イメージ図です。下のツールで、あなたの文書量・チャンクサイズから必要な数とコストを見積もれます。

RAG(検索拡張生成)では、長い文書をそのまま AI に渡さず、 検索しやすい大きさ(チャンク)に切り分けてベクトルDBに保存します。 質問が来たら近いチャンクだけ取り出して AI に渡す——その設計を、数字で詰めるツールです。

「100K トークンの社内マニュアルを 1000 トークンずつ刻むと、チャンクは何個?ベクトルDBはいくつ必要? 取り出した分は 8K の窓に入る?埋め込みコストは?」——を入力するそばから計算します。

トークン換算・コストは概算です — トークン数はモデルのトークナイザで変わります(日本語 ≒ 1〜1.5字/token、英語 ≒ 4字/token の平均値で計算)。埋め込み単価は手入力=最新は各社の料金表でご確認ください。入力はサーバーに送信されません(すべてブラウザ内処理)。
1

文書量を入れる

分割したい文書の大きさ

文字 ⇄ トークン換算に使う言語(文字数モードのとき有効)

プリセット(トークン)

2

チャンク設計

サイズとオーバーラップ(のりしろ)

1チャンクの大きさ。小さいほど粒度が細かく、大きいほど文脈をまとめて持てます。

トークン

隣どうしのチャンクを重ねる量。区切り目で文脈が切れるのを防ぎます。一般に10〜20%が目安。

チャンク数

0

必要ベクトル数

0

総トークン(重複込み)

0

文書全体(換算後)

0

トークン

3

文脈窓に収まる?

取り出したチャンク × top-k + 余裕

質問ごとに取り出すチャンク数。3〜10が定番。

指示・質問・AI の回答ぶんの予約トークン。

4

埋め込みコスト

任意・単価は手入力

初回インデックス作成コスト(総トークン × 単価)

$0

※ 参考単価:text-embedding-3-small ≒ $0.02 / 1M、3-large ≒ $0.13 / 1M、Voyage / Cohere は別途。 オープンソースモデルを自前で動かせば API コストは $0。最新の正確な単価は各社の料金表でご確認ください。 ここでの計算は初回の全文インデックス作成ぶん(再インデックスや問い合わせ時の埋め込みは別)。

TIPS

チャンク設計のコツ

📏 小さすぎると

文脈が断片化し、1チャンクだけでは意味が通らなくなります。「それ」「この処理」が何を指すか分からず、検索でヒットしても役に立たないことが。FAQ のような独立した一問一答なら小さくてもOK。

🧱 大きすぎると

1チャンクに無関係な話題が混ざり(ノイズ)、検索精度が落ちます。さらに窓を圧迫し、埋め込み・生成コストも上がります。top-k で複数取ると一気に窓を食う点にも注意。

↔ オーバーラップで境界を補う

区切り目をまたぐ文脈(文の途中・表・コード)が切れないよう、隣どうしを10〜20%重ねます。重ねるほど安全ですが、チャンク数・ベクトル数・コストが増えるトレードオフ。

🎯 構造で切るのが理想

固定トークン数より、見出し・段落・文の切れ目で分ける「セマンティック分割」のほうが精度は出やすい。まずは512〜1000トークン+10〜20%重ねを起点に、検索結果を見て調整を。

FORMULA

計算のしくみ

チャンク数 = ceil( (N − overlap) / (chunkSize − overlap) )
N = 文書全体のトークン数。前進量(stride)= chunkSize − overlap で割って切り上げ。

総トークン(重複込み) = チャンク数 × chunkSize
オーバーラップで重複した分だけ、元の N より増えます。これが埋め込み対象の量。

必要ベクトル数 = チャンク数
1チャンク=1ベクトル。ベクトルDBの行数の目安。

窓に収まるか :chunkSize × k + プロンプト余裕 ≦ コンテキスト窓
取り出した top-k 個ぶんと、指示・質問・回答の予約を足して窓と比べます。

埋め込みコスト = 総トークン / 1,000,000 × 単価($/1M)
単価は手入力。最新は各社の料金表で。

RELATED

あわせて使いたい

よくある質問

Q. チャンク数はどう数えますか?

A. ceil((N − overlap) / (チャンクサイズ − overlap)) です。前進量 stride=サイズ−重複で割って切り上げます。文書がチャンクより小さければ1になります。

Q. オーバーラップはどのくらいが目安ですか?

A. 一般にチャンクの10〜20%です。区切り目で文脈が切れるのを防ぐ「のりしろ」で、増やすほど安全ですがチャンク数・コストが増えます。

Q. チャンクサイズは何トークンが良いですか?

A. 512〜1000が定番の起点です。FAQなど独立した一問一答は小さく、文脈重視なら大きめに。検索結果を見て調整します。

Q. 「文脈窓に収まる」の判定式は?

A. チャンクサイズ × top-k + プロンプト余裕 ≦ コンテキスト窓、です。例:500×5+2000=4500 は8K窓に収まります。

Q. 総トークンが文書より多いのはなぜですか?

A. オーバーラップで隣接チャンクが重複するためです。重複ぶんだけ埋め込み対象が増えます(重複率として表示します)。

Q. トークン数は正確ですか?

A. 概算です。モデルのトークナイザで変わります(日本語≒1〜1.5字/token、英語≒4字/token の平均値)。正確な値は文字数カウントやトークン計測ツールでご確認ください。

入力値はURLの「#」以降に入るためサーバーには送信されません。リンクを開くと同じ状態を復元します。

RELATED TOOLS

続けて整える

KOINOBORI ECOSYSTEM

私たちが運営するサイト