Knowledge Base スケーラブル設計: 10万件超のドキュメントを安定運用するアーキテクチャ

Knowledge Base（ナレッジベース）のドキュメント数が10万件を超えると、課題は「アップロードできるか」から「検索品質を維持できるか」「運用を持続できるか」に変わる。本稿では、大規模 Knowledge Base の分割戦略、Embedding パイプラインの最適化、インデックス管理、検索パフォーマンスの保証手法を、Dify の機能体系に即して解説する。

規模拡大で何が変わるか

ドキュメント規模と課題の変遷

規模	典型的なユースケース	主要課題
~1,000件	部門 FAQ、社内規程	課題少。デフォルト設定で対応可能
1,000~10,000件	製品マニュアル群、技術文書	検索精度の低下、チャンク設計の重要性増大
10,000~100,000件	全社ナレッジ統合、契約書群	分割戦略必須、インデックス更新のパフォーマンス問題
100,000件~	マルチ事業部横断、顧客対応履歴	全面的なアーキテクチャ設計が必要

大規模運用で顕在化する問題

graph TD
    SCALE["ドキュメント規模拡大"] --> P1["検索精度低下<br/>関連性の低い結果が増加"]
    SCALE --> P2["インデックス更新遅延<br/>新規文書の反映に時間"]
    SCALE --> P3["ベクトルDB 負荷増大<br/>メモリ・ストレージ逼迫"]
    SCALE --> P4["運用複雑化<br/>版管理・権限管理が困難"]
    SCALE --> P5["コスト増大<br/>Embedding API 呼び出し費用"]
    
    P1 --> S1["Hybrid 検索 + Rerank"]
    P2 --> S2["差分インデックス更新"]
    P3 --> S3["ベクトルDB スケーリング"]
    P4 --> S4["分割戦略 + メタデータ管理"]
    P5 --> S5["Embedding パイプライン最適化"]

分割戦略（Knowledge Base パーティショニング）

分割の基本方針

「全社のドキュメントを1つの Knowledge Base に投入する」アプローチは、規模が小さいうちは機能するが、10万件を超えると破綻する。分割の軸を定め、目的に応じた Knowledge Base を設計する必要がある。

分割軸の比較

分割軸	適用場面	メリット	デメリット
部門別	部門固有の業務知識	権限管理が容易、検索スコープ限定	横断検索が困難
ドメイン別	製品群、サービス群	専門性の高い検索が可能	ドメイン定義の合意が必要
文書タイプ別	契約書、マニュアル、議事録	チャンク戦略の最適化が容易	横断的な質問に弱い
セキュリティレベル別	機密度による分類	アクセス制御が明確	同一部門でも分散
時間軸別	年度・四半期ごと	アーカイブ管理が容易	最新/過去の横断検索

推奨: ハイブリッド分割

実際の運用では、単一軸ではなく複数軸の組み合わせが有効。

graph TB
    subgraph Org["全社 Knowledge Base アーキテクチャ"]
        subgraph Finance["金融事業部"]
            F1["KB: 契約書<br/>（機密・高）"]
            F2["KB: 商品マニュアル<br/>（機密・中）"]
            F3["KB: 顧客 FAQ<br/>（機密・低）"]
        end
        subgraph Mfg["製造事業部"]
            M1["KB: 品質規格<br/>（機密・高）"]
            M2["KB: 作業手順書<br/>（機密・中）"]
            M3["KB: 技術ナレッジ<br/>（機密・低）"]
        end
        subgraph Common["全社共通"]
            C1["KB: 社内規程"]
            C2["KB: IT ヘルプデスク"]
            C3["KB: 人事・総務 FAQ"]
        end
    end

Dify での分割実装

Dify では以下の方法で Knowledge Base を分割・管理できる。

ワークスペース分割: 事業部ごとにワークスペースを分け、各ワークスペース内に複数の Knowledge Base を作成
アプリ単位の参照制御: 各アプリケーションが参照する Knowledge Base を明示的に指定。不要な Knowledge Base への検索を防止
API 経由の動的選択: Workflow 内で条件分岐を用い、入力の分類結果に応じて参照先 Knowledge Base を切り替え

チャンク設計の最適化

文書タイプ別チャンク戦略

チャンクサイズとオーバーラップの設定は、検索品質に直結する。文書タイプに応じた最適化が必要。

文書タイプ	推奨チャンクサイズ	オーバーラップ	理由
FAQ（Q&A形式）	300-500 tokens	50 tokens	1つの Q&A が1チャンクに収まるサイズ
技術マニュアル	500-800 tokens	100 tokens	セクション単位の意味的まとまり
契約書	800-1200 tokens	150 tokens	条項の文脈を維持
議事録	400-600 tokens	80 tokens	発言単位のまとまり
コードドキュメント	600-1000 tokens	100 tokens	関数/クラス単位

チャンク品質の評価指標

指標	目標値	測定方法
検索ヒット率（Recall@5）	90%以上	評価用質問セット（100問）でのヒット率
検索精度（Precision@5）	70%以上	上位5件中の関連チャンク割合
回答正確性	85%以上	LLM 生成回答の人手評価

Embedding パイプラインの最適化

大規模 Embedding 処理のアーキテクチャ

10万件超のドキュメントを Embedding 処理する場合、以下の課題に対処する必要がある。

graph LR
    subgraph Input["入力"]
        DOC["文書群<br/>100K+ 件"]
    end
    
    subgraph Pipeline["Embedding パイプライン"]
        PRE["前処理<br/>テキスト抽出・クレンジング"]
        CHUNK["チャンク分割<br/>文書タイプ別ルール"]
        BATCH["バッチ Embedding<br/>並列処理"]
        IDX["インデックス登録<br/>ベクトルDB"]
    end
    
    subgraph Optimize["最適化ポイント"]
        O1["差分処理<br/>変更分のみ再Embedding"]
        O2["バッチサイズ調整<br/>API レート制限対応"]
        O3["非同期処理<br/>業務時間外実行"]
    end
    
    DOC --> PRE --> CHUNK --> BATCH --> IDX
    O1 -.-> BATCH
    O2 -.-> BATCH
    O3 -.-> BATCH

初回ロードと差分更新

処理タイプ	対象	推奨手法	所要時間目安（10万件）
初回フルロード	全文書	バッチ Embedding、夜間実行	8-24時間（モデル・並列度による）
日次差分更新	新規・更新文書	Webhook トリガー or 定期バッチ	数分-数十分
定期リビルド	全インデックス	月次/四半期、Embedding モデル変更時	8-24時間
緊急再処理	品質問題検出分	手動トリガー	対象量による

Embedding コスト試算

Embedding モデル	価格 ($/1M tokens)	10万件 (平均 1000 tokens/件) の初回コスト
text-embedding-3-small	$0.02	約 $2
text-embedding-3-large	$0.13	約 $13
multilingual-e5-large（セルフホスト）	GPU コストのみ	初期投資 + 運用コスト

チャンク分割後の総トークン数は元文書の 1.1-1.3 倍程度（オーバーラップ分）。Embedding コスト自体は LLM 推論コストと比較して小さいが、頻繁なリビルドは累積する。

インデックス管理

Dify のインデックス方式

Dify は以下のインデックス方式を提供しており、用途に応じて選択する。

インデックス方式	特徴	推奨場面
高品質モード	Embedding + ベクトル検索	標準推奨。意味的な検索が可能
エコノミーモード	キーワードベース	コスト重視、正確な用語検索
Q&A セグメント	Q&A ペアとしてインデックス	FAQ、カスタマーサポート

大規模運用でのインデックス管理ルール

管理項目	推奨ルール	理由
メタデータ付与	全文書にソース、日付、部門、文書タイプを付与	フィルタリング検索、トレーサビリティ
版管理	更新時は旧版を削除してから新版を登録	重複チャンクによる検索品質低下を防止
定期棚卸し	四半期ごとに無効文書を特定・削除	インデックス肥大化の防止
品質モニタリング	月次で検索品質評価テストを実施	経年劣化の早期検知

検索パフォーマンスの最適化

Hybrid 検索の活用

大規模 Knowledge Base では、ベクトル検索単体では不十分な場合が多い。Dify が提供する Hybrid 検索（ベクトル検索 + 全文検索）を活用する。

検索方式	強み	弱み	適用場面
ベクトル検索	意味的な類似性	固有名詞・型番に弱い	概念的な質問
全文検索	完全一致、部分一致	表現の揺れに弱い	型番検索、正確な用語
Hybrid 検索	両方の強みを統合	設定調整が必要	大規模 KB の標準
Hybrid + Rerank	最高精度	コスト・レイテンシ増	品質最重視の場面

Rerank の効果

Reranker は検索結果の上位 N 件を再評価し、関連性の高い順に並び替える。大規模 Knowledge Base では効果が顕著。

条件	Rerank なし (Recall@5)	Rerank あり (Recall@5)	改善率
1万件 KB	85%	90%	+5%
10万件 KB	70%	85%	+15%
100万件 KB	55%	78%	+23%

※ 上記は一般的な RAG ベンチマークに基づく目安。実際の数値はデータ特性により変動。

検索パフォーマンスチューニング

パラメータ	デフォルト	大規模 KB 推奨	説明
Top K（初回検索）	5	10-20	Rerank 前の候補数を増やす
Top K（最終結果）	3-5	3-5	LLM に渡すチャンク数
Score Threshold	なし	0.5-0.7	低スコアの結果を除外
Rerank	Off	On	大規模 KB では必須

クエリ前処理による最適化

検索品質は、ユーザーの入力クエリを前処理することで大幅に改善できる。Dify Workflow で以下のパターンを実装可能。

graph LR
    Q["ユーザー質問"] --> CLASS["LLM: 質問分類<br/>（どの KB を検索すべきか）"]
    CLASS --> REWRITE["LLM: クエリ書き換え<br/>（検索に最適化した表現）"]
    REWRITE --> SEARCH["Hybrid 検索<br/>+ Rerank"]
    SEARCH --> GEN["LLM: 回答生成"]
    GEN --> ANS["回答"]

クエリ書き換えの例:

元のクエリ	書き換え後	効果
「去年の売上どうなった？」	「2025年度売上実績年次報告」	曖昧表現の具体化
「Aさんの件」	「顧客A社契約更新最新状況」	暗黙知の明示化
「あのマニュアル」	「製品X 操作マニュアル最新版」	指示代名詞の解決

ベクトルDB のスケーリング

ベクトルDB 選定基準

ベクトルDB	10万件	100万件	1000万件	特徴
Weaviate	良好	良好	クラスタ推奨	Dify デフォルト対応、フィルタリング機能充実
Qdrant	良好	良好	分散モード	高パフォーマンス、メモリ効率
pgvector	良好	注意	非推奨	PostgreSQL 統合、小中規模向き
Milvus	良好	良好	良好	大規模特化、分散ネイティブ

サイジングガイドライン

パラメータ	計算式	10万件の目安
ベクトルストレージ	件数 x 次元数 x 4 bytes x チャンク倍率	約 30-50 GB（1536次元）
メモリ	ベクトルストレージ x 1.5-2.0	約 45-100 GB
CPU	同時検索数に比例	4-8 vCPU
IOPS	インデックス更新頻度に依存	1000-3000 IOPS

※ チャンク倍率: 1文書あたり平均 3-10 チャンクを想定

大規模 Knowledge Base の運用体制

推奨する運用プロセス

プロセス	頻度	担当	内容
文書取り込み	日次/随時	コンテンツ管理者	新規文書の登録、メタデータ付与
品質テスト	月次	AI プラットフォームチーム	評価用質問セットでの検索品質測定
インデックス棚卸し	四半期	コンテンツ管理者 + AI チーム	無効文書削除、チャンク戦略見直し
ベクトルDB 監視	常時	SRE	メモリ使用率、クエリレイテンシ、エラー率
Embedding モデル評価	半年	AI プラットフォームチーム	新モデルとの品質比較、移行判断

監視すべきメトリクス

メトリクス	閾値	アラート条件
検索レイテンシ (P95)	< 500ms	3分間連続で超過
ベクトルDB メモリ使用率	< 80%	80% 超過
Embedding API エラー率	< 1%	5分間で 1% 超過
検索ヒット率（定期テスト）	> 85%	前月比 5% 以上低下

まとめ

10万件超の Knowledge Base 運用は、単なるファイルアップロードの延長ではなく、検索アーキテクチャ全体の設計問題である。分割戦略、チャンク最適化、Embedding パイプライン設計、Hybrid 検索 + Rerank の活用、ベクトルDB のスケーリングを体系的に設計することで、大規模でも安定した検索品質を維持できる。

特に日本企業においては、部門横断のナレッジ統合ニーズと、セキュリティ・権限管理の厳格さが共存するため、分割戦略の初期設計が全体の成否を左右する。PoC 段階から分割の方針を定め、段階的にスケールする計画を策定することを推奨する。

参考資料

Dify インデックス方法と検索設定: 公式ドキュメント
Dify Hybrid 検索: ハイブリッド検索
Dify RAG 解説: RAG大全

Keyboard shortcuts

MKC — Dify Japan コンテンツ体系