知识库可扩展设计：超10万个文档稳定运行的架构

当知识库的文档数量超过10万条时，问题从“能否上传？”转变为“搜索质量能否保持？”和“运营能否持续？”本文将基于Dify的功能体系，阐述大规模知识库的划分策略、优化嵌入管道、索引管理以及保证搜索性能的方法。

规模扩大会带来什么变化？

文档大小的变化和问题

规模	典型用例	主要挑战
约 1,000 件商品	部门常见问题解答、内部规定	很少有问题。可使用默认设置
1,000~10,000 件	产品手册、技术文件	搜索准确性降低，块设计的重要性增加
10,000~100,000 件	全公司知识整合、合同组	需要分区策略，索引更新性能问题
10万例~	跨多个业务部门的客户响应历史记录	需要全面的架构设计

大规模运营中出现的问题

graph TD
    SCALE["ドキュメント規模拡大"] --> P1["検索精度低下<br/>関連性の低い結果が増加"]
    SCALE --> P2["インデックス更新遅延<br/>新規文書の反映に時間"]
    SCALE --> P3["ベクトルDB 負荷増大<br/>メモリ・ストレージ逼迫"]
    SCALE --> P4["運用複雑化<br/>版管理・権限管理が困難"]
    SCALE --> P5["コスト増大<br/>Embedding API 呼び出し費用"]
    
    P1 --> S1["Hybrid 検索 + Rerank"]
    P2 --> S2["差分インデックス更新"]
    P3 --> S3["ベクトルDB スケーリング"]
    P4 --> S4["分割戦略 + メタデータ管理"]
    P5 --> S5["Embedding パイプライン最適化"]

分区策略（知识库分区）

分部基本方针

“将公司所有文档放在一个知识库中”的做法在规模较小时有效，但当数量超过10万时就失效了。需要根据目的确定划分轴并设计知识库。

分割轴比较

分度轴	应用场景	优势	缺点
按部门	部门具体业务知识	权限管理方便，搜索范围有限	交叉搜索困难
按域名	产品组、服务组	高度专业化的搜索成为可能	需要就域定义达成一致
按文件类型	合同、手册、会议记录	轻松优化分块策略	弱于交叉问题
按安全级别划分	按灵敏度分类	清晰的访问控制	分布在同一部门内
按时间轴	按年/季度	轻松档案管理	最新/过去交叉搜索

推荐：混合分体式

在实际操作中，多轴组合比单轴更有效。

graph TB
    subgraph Org["全社 Knowledge Base アーキテクチャ"]
        subgraph Finance["金融事業部"]
            F1["KB: 契約書<br/>（機密・高）"]
            F2["KB: 商品マニュアル<br/>（機密・中）"]
            F3["KB: 顧客 FAQ<br/>（機密・低）"]
        end
        subgraph Mfg["製造事業部"]
            M1["KB: 品質規格<br/>（機密・高）"]
            M2["KB: 作業手順書<br/>（機密・中）"]
            M3["KB: 技術ナレッジ<br/>（機密・低）"]
        end
        subgraph Common["全社共通"]
            C1["KB: 社内規程"]
            C2["KB: IT ヘルプデスク"]
            C3["KB: 人事・総務 FAQ"]
        end
    end

Dify 中的拆分实现

Dify 允许您通过以下方式划分和管理您的知识库。

工作空间划分：为每个部门划分独立的工作空间，并在每个工作空间内创建多个知识库。
应用级引用控制：显式指定每个应用程序引用的知识库。防止不必要的知识库搜索
通过API动态选择：使用工作流中的条件分支根据输入分类结果切换参考知识库。

块设计优化

按文档类型划分的分块策略

块大小和重叠设置与搜索质量直接相关。需要根据文档类型进行优化。

文件类型	推荐块大小	重叠	原因
常见问题解答（问答格式）	300-500 代币	50 个代币	大小适合一大块问答
技术手册	500-800 代币	100 个代币	章节中的语义分组
合同	800-1200 代币	150 个代币	将条款放在上下文中
分钟	400-600 代币	80 个代币	发言单位组
代码文档	600-1000 代币	100 个代币	功能/类单元

块质量评估指标

指标	目标值	测量方法
搜索命中率 (Recall@5)	90% 或以上	评估题集命中率（100 题）
搜索准确率（精度@5）	70% 或以上	前 5 个相关块的百分比
答案准确度	85% 或以上	手动评估 LLM 生成的答案

嵌入管道优化

大规模嵌入处理的架构

当使用嵌入处理超过 100,000 个文档时，需要解决以下问题。

graph LR
    subgraph Input["入力"]
        DOC["文書群<br/>100K+ 件"]
    end
    
    subgraph Pipeline["Embedding パイプライン"]
        PRE["前処理<br/>テキスト抽出・クレンジング"]
        CHUNK["チャンク分割<br/>文書タイプ別ルール"]
        BATCH["バッチ Embedding<br/>並列処理"]
        IDX["インデックス登録<br/>ベクトルDB"]
    end
    
    subgraph Optimize["最適化ポイント"]
        O1["差分処理<br/>変更分のみ再Embedding"]
        O2["バッチサイズ調整<br/>API レート制限対応"]
        O3["非同期処理<br/>業務時間外実行"]
    end
    
    DOC --> PRE --> CHUNK --> BATCH --> IDX
    O1 -.-> BATCH
    O2 -.-> BATCH
    O3 -.-> BATCH

初始加载和差异更新

加工类型	目标	推荐方法	预计所需时间（100,000 项）
首次满载	所有文件	批量嵌入，每晚执行	8-24小时（取决于型号和并行度）
每日差异更新	新的/更新的文档	Webhook 触发器或常规批处理	几分钟到几十分钟
定期重建	所有索引	每月/每季度，更改嵌入模型时	8-24 小时
紧急后处理	检测出质量问题	手动触发	取决于目标金额

嵌入成本估算

嵌入模型	价格（$/100 万代币）	100,000 个物品的初始成本（平均 1000 个代币/物品）
文本嵌入-3-小	0.02 美元	约 2 美元
文本嵌入 3 大	0.13 美元	约 13 美元
multilingual-e5-large（自托管）	仅 GPU 成本	初期投资+运营成本

分块后的 token 总数大约是原始文档的 1.1-1.3 倍（重叠）。尽管与 LLM 推理成本相比，嵌入成本本身很小，但频繁的重建会累积起来。

索引管理

Dify索引方法

Dify 提供了以下几种索引方式，您可以根据自己的使用情况进行选择。

指数法	特点	推荐情况
高品质模式	嵌入+矢量搜索	标准推荐。语义搜索成为可能
经济模式	基于关键词	成本导向，精准术语搜索
问答环节	索引为问答对	常见问题解答、客户支持

###大规模操作的索引管理规则

管理项目	推荐规则	原因
添加元数据	为所有文档添加来源、日期、部门、文档类型	过滤搜索、溯源
版本管理	更新时先删除旧版本再注册新版本	防止由于重复块而导致搜索质量下降
定期库存	每季度识别并删除无效文档	防止索引膨胀
质量监控	每月进行搜索质量评估测试	及早发现老化恶化

搜索性能优化

利用混合搜索

在大型知识库中，仅靠矢量搜索通常是不够的。利用 Dify 提供的混合搜索（矢量搜索+全文搜索）。

搜索方式	优势	弱点	应用场景
矢量搜索	语义相似度	缺乏专有名词和型号	概念性问题
全文检索	精确匹配、部分匹配	容易受到表达变化的影响	型号搜索、准确术语
混合搜索	结合两者的优势	需要调整设置	大KB标准
混合+重新排名	最高精度	成本和延迟增加	质量至关重要的情况

重新排序的效果

Reranker 重新评估前 N 个搜索结果并按相关性顺序对它们进行排序。对于大规模知识库来说效果显着。

条件	无需重新排序 (Recall@5)	通过重新排名（Recall@5）	改善率
10,000 KB	85%	90%	+5%
100,000 KB	70%	85%	+15%
100 万KB	55%	78%	+23%

*以上是基于一般 RAG 基准的指南。实际数字因数据特征而异。

搜索性能调整

参数	默认	大知识库推荐	描述
前 K（首次搜索）	5	10-20	10-20重新排名增加先前候选人的数量
前K名（最终结果）	3-5	3-5 3-5	3-5传递给 LLM 的块数
分数门槛	无	0.5-0.7	排除低分结果
重新排名	关闭	上	大 KB 所需

通过查询预处理进行优化

通过预处理用户输入查询可以显着提高搜索质量。以下模式可以使用 Dify Workflow 来实现。

graph LR
    Q["ユーザー質問"] --> CLASS["LLM: 質問分類<br/>（どの KB を検索すべきか）"]
    CLASS --> REWRITE["LLM: クエリ書き換え<br/>（検索に最適化した表現）"]
    REWRITE --> SEARCH["Hybrid 検索<br/>+ Rerank"]
    SEARCH --> GEN["LLM: 回答生成"]
    GEN --> ANS["回答"]

查询重写示例：

原始查询	重写后	效果
“去年的销售情况怎么样？”	《2025年度销售报告》	让歧义表达更加具体
《A先生的案子》	“客户A最新续约状态”	使隐性知识显性化
“那本手册”	《产品X操作手册最新版》	指示代词解析

矢量数据库缩放

矢量数据库选择标准

矢量数据库	100,000 件商品	100 万件商品	1000 万件商品	特点
Weaviate	好	好	集群推荐	Dify默认兼容，过滤功能齐全
Qdrant	好	好	分布式模式	高性能、内存高效
pgvector	好	注意	不推荐	PostgreSQL集成，适合中小型
Milvus	好	好	好	大规模专业化、分布式原生

尺码指南

参数	计算公式	预计 100,000 件
矢量存储	项目数 x 维度数 x 4 字节 x 块放大率	大约。 30-50 GB（1536 个维度）
内存	矢量存储 x 1.5-2.0	大约。 45-100 GB
中央处理器	与同时搜索的数量成正比	4-8 个 vCPU
IOPS	取决于索引更新频率	1000-3000 IOPS

块乘数：假设每个文档平均有 3-10 个块

大规模知识库的运行结构

###推荐操作流程

流程	频率	责任	内容
文件导入	每日/根据需要	内容管理员	注册新文档，添加元数据
质量检测	每月	人工智能平台团队	使用评估问题集搜索质量测量
指数盘点	季刊	内容管理员+AI团队	删除无效文档，审查分块策略
矢量数据库监控	不断	上一篇：内存使用率、查询延迟、错误率
嵌入模型评估	半年	AI平台团队	与新模型的质量比较、迁移决策

要监控的指标

指标	门槛	警报条件
搜索延迟 (P95)	< 500 毫秒	连续超过3分钟
矢量数据库内存使用情况	< 80%	超过80%
嵌入API错误率	< 1%	5 分钟内超过 1%
搜索命中率（定期测试）	> 85%	环比下降5%以上

总结

运营一个超过10万条的知识库不仅仅是文件上传的扩展，而是整个搜索架构的设计问题。通过系统地设计分区策略、块优化、嵌入管道设计、使用混合搜索+重新排序和矢量数据库扩展，即使在大规模情况下也可以保持稳定的搜索质量。

特别是在日本企业，跨部门的知识整合需要与严格的安全和权限管理并存，分区策略的初步设计决定了整体的成败。建议从PoC阶段就制定划分政策，制定分阶段规模化的计划。

参考资料

修改索引方法和搜索设置：公式ドキュメント
Dify 混合搜索：ハイブリッド検索
Dify RAG 描述：RAG大全

Keyboard shortcuts

MKC — Dify Japan 内容体系