Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

模型选择框架:根据任务特征优化模型策略

企业中的模型选择是由任务特征、成本、延迟和质量的平衡决定的,而不是由基准排名决定的。本文提出了一个实用的选择框架,包括按任务类型进行模型映射、成本/性能权衡以及日语支持注意事项。

模型选择的基本原则

为什么“选择最强模型”失败

许多 PoC 将 GPT-4 类的顶级模型应用于所有任务。但在生产环境中,会出现以下问题。

问题影响示例
成本爆炸每月超过数百万日元将 GPT-4o 应用到全公司范围内的 FAQ Bot 每月成本为 400 万日元
延迟增加用户放弃对于分类任务来说 3-5 秒已经过多了
品质过剩投资回报率下降是/否决策不需要高级推理
单点故障所有应用程序均已停止特定提供商的失败会影响整个公司

Dify 的多模型架构

Dify 使用 Model Provider 机制来管理和切换同一平台上的多个模型。

graph TB
    subgraph Apps["アプリケーション"]
        A1["契約レビュー"]
        A2["FAQ Bot"]
        A3["文書分類"]
        A4["画像解析"]
    end

    subgraph DifyRouter["Dify Model Provider ルーティング"]
        MP1["OpenAI<br/>GPT-4o / GPT-4o-mini"]
        MP2["Anthropic<br/>Claude Sonnet / Haiku"]
        MP3["Azure OpenAI<br/>(日本リージョン)"]
        MP4["Google<br/>Gemini Pro / Flash"]
        MP5["国産 LLM<br/>(オンプレミス)"]
        EMB["Embedding モデル<br/>text-embedding-3-large"]
        RR["Reranker<br/>Cohere Rerank"]
    end

    A1 --> MP2
    A2 --> MP1
    A3 --> MP1
    A4 --> MP4
    A1 --> EMB
    A2 --> EMB
    A1 --> RR

按任务类型划分的模型选择矩阵

选择决策轴

graph LR
    TASK["タスク特性"] --> QUALITY["品質要求"]
    TASK --> LATENCY["レイテンシ要求"]
    TASK --> COST["コスト感度"]
    TASK --> LANG["日本語品質"]
    TASK --> SEC["セキュリティ要件"]
    
    QUALITY --> MODEL["モデル選定"]
    LATENCY --> MODEL
    COST --> MODEL
    LANG --> MODEL
    SEC --> MODEL

类型 1:文本生成(高质量)

输出质量至关重要的任务,例如合同审查、报告生成和长摘要。

评价轴重要性笔记
表达质量/准确性最高幻觉率直接影响生意
长上下文合同10-50页
结构化输出稳定的 JSON/Markdown 输出
日本品质最佳敬语/作为商业文件的适当性
延迟中等很多情况下,小于10秒是可以接受的

推荐型号配置:

型号适用场景优势
Claude Sonnet 4合同审查、长文本分析长文本上下文、指令可遵循性、日语品质
GPT-4o报告生成、总结结构化输出的多功能性、稳定性
Gemini2.5 Pro超长文本处理100万个代币上下文

类型 2:文本生成(快速且低成本)

响应速度和成本效率很重要的任务,例如常见问题解答、样板生成和重写。

评价轴重要性笔记
延迟最佳1-2 秒内
成本最高需要大量通话
品质中等预设回复就足够了

推荐型号配置:

型号适用场景成本比(与 GPT-4o 相比)
GPT-4o-迷你常见问题解答,标准回复大约。 1/30
Claude Haiku 3.5轻量级文本处理大约 1/25
Gemini2.0闪存快速响应大约。 1/20

###类型3:分类/判断

输出有限且稳定性至关重要的任务,例如文档分类、情感分析和路由决策。

评价轴重要性笔记
输出稳定性最高相同输入相同输出
成本经常需要大批量处理
延迟避免管道瓶颈
品质中等类别数量有限

推荐型号配置:

型号适用场景笔记
GPT-4o-迷你一般分类温度=0时稳定输出
Claude Haiku 3.5日语文本分类对日语背景有很好的了解
微调模型分类精度要求高使用内部数据进行培训

Dify Workflow 中的分类模式:

入力テキスト → LLM(分類)→ 条件分岐 → 各カテゴリ別処理

通过与Workflow的条件分支节点结合,可以根据分类结果自动进行后续处理。

类型 4:RAG(搜索扩展生成)

与知识库集成的问答。基本的三层结构是Embedding / Reranker / Generation Model。

组件角色推荐型号
嵌入文本到矢量转换text-embedding-3-large (OpenAI),多语言-e5-large
重新排序重新排名搜索结果Cohere 重新排名,bge-reranker-v2-m3
生成模型答案生成根据任务质量选择(见类型1/2)

日本 RAG 注释:

  • 日语文本高度依赖于嵌入模型的多语言质量。
  • text-embedding-3-large 具有良好的日语性能,但如果需要领域专业化,请考虑微调 multilingual-e5-large
  • Reranker 极大地提高了搜索准确性。需要包含超过 100,000 篇文章的知识库

类型 5:多式联运

涉及非文本输入的任务,例如图像识别、PDF 解析和绘图阅读。

输入类型推荐型号适用场景
照片/图像GPT-4o、Gemini 2.5 Pro损害评估、现场照片分析
PDF / 文档图像Claude Sonnet 4文本提取/合同摘要 PDF
图纸/蓝图Gemini2.5 Pro制造业设计图分析
表格数据GPT-4o阅读财务报表

类型6:代理(工具调用)

在调用多个外部工具的同时执行多步推理的任务。函数调用的稳定性是关键。

评价轴重要性笔记
函数调用准确度最高错误的工具调用直接导致业务问题
推理能力多步骤规划+执行
成本中等与对话轮数成正比

推荐型号配置:

型号适用场景优势
Claude Sonnet 4复杂代理工具使用精度和可靠性
GPT-4o通用代理函数调用生态系统成熟度

成本、延迟和质量之间的权衡

成本比较(估计,截至 2026 年 4 月)

型号输入($/1M 代币)产出($/1M 代币)延迟指南质量范围
GPT-4o2.50 美元10.00 美元2-5 秒
GPT-4o-迷你0.15 美元0.60 美元0.5-2秒中等
Claude Sonnet 4$3.0015.00 美元2-5 秒
Claude Haiku 3.50.80 美元4.00 美元0.5-2秒中高
Gemini2.5 Pro1.25 美元10.00 美元2-5 秒
Gemini2.0闪存0.10 美元0.40 美元0.3-1秒中等

*价格是根据每个提供商公布的费用估算的。根据实际合同条款而有所不同。

每月成本模拟

估算典型内部人工智能应用程序集的成本:

应用程序每月请求型号预计月费
内部常见问题机器人50,000GPT-4o-迷你大约。 150 美元
合同审查2,000Claude Sonnet 4大约。 600 美元
文档分类管道100,000GPT-4o-迷你大约。 100 美元
管理报告生成500500 GPT-4o大约。 250 美元
总计大约 1,100 美元/月

将 GPT-4o 应用于所有任务时,与每月约 12,000 美元相比,成本节省约 90%。

日本模型注意事项

###日语成绩评价分

评价项目确认方法注意事项
敬语的恰当性商业电子邮件生成测试如何使用敬语和谦语
术语准确性行业特定文档摘要测试金融、法律和制造词汇
长句的一致性10页以上文档处理测试维护上下文并遵循指示
专有名词的处理公司名称和产品名称的处理测试存在不必要的翻译和转换
结构化输出JSON/CSV 生成测试包括日语在内的结构化数据的稳定性

数据位置要求

需求级别对策应用行业实例
日本地区必填Azure OpenAI(日本东部)金融、政府机关
国内通讯路线通过 API + VPN / 私人链接医疗、国防相关
需要本地部署国内LLM/OSS模式自托管高度保密的制造

Azure OpenAI 的日本东部地区已成为需要遵守金融厅准则的金融机构事实上的标准选择。

模型选择的决策流程

flowchart TD
    START["タスク定義"] --> Q1{"セキュリティ要件<br/>オンプレ必須?"}
    Q1 -->|Yes| OSS["OSS / 国産モデル<br/>自社ホスト"]
    Q1 -->|No| Q2{"タスク複雑度"}
    
    Q2 -->|"高(推論・分析)"| Q3{"コスト感度"}
    Q2 -->|"中(生成・要約)"| MID["GPT-4o / Claude Sonnet"]
    Q2 -->|"低(分類・判定)"| LIGHT["GPT-4o-mini / Haiku"]
    
    Q3 -->|低| PREMIUM["Claude Sonnet 4 / GPT-4o"]
    Q3 -->|高| BALANCED["Gemini 2.5 Pro / Claude Sonnet"]
    
    MID --> Q4{"日本語品質<br/>最重要?"}
    Q4 -->|Yes| JP["Claude Sonnet 4<br/>(日本語品質に定評)"]
    Q4 -->|No| GEN["GPT-4o<br/>(汎用性重視)"]

使用 Dify 进行模型切换操作

按工作区进行模型管理

Dify Enterprise 允许您限制每个工作区可用的模型。推荐的操作模式如下。

工作空间使用权限模型原因
用于开发和验证PoC,快速发展所有型号对比验证
生产(标准)一般商业应用GPT-4o-mini,俳句成本管理
生产(高品质)合同/法律/管理GPT-4o,Claude Sonnet质量保证
生产(安全)敏感数据处理Azure OpenAI(日本)数据位置

更改模型时的影响管理

模型变更(版本升级、提供商切换)对应用质量有直接影响。建议采用以下流程。

  1. 验证环境中的回归测试:使用代表性输入/输出对检查质量
  2. 逐步推出:作为金丝雀版本应用于部分用户
  3. 指标监控:监控令牌使用情况、响应质量得分和错误率
  4. 回滚程序:您可以使用 Dify 的 Model Provider 设置立即切换

总结

模型选择不应仅基于技术性能比较,还应基于任务特性、成本、延迟、安全性和日语质量五个轴进行综合判断。通过利用 Dify 的多模型架构,可以为每个任务分配最佳模型,并实现在保持质量的同时降低成本高达 90% 的配置。

重要的是不要让模型选择成为一次性决策,而是建立一个持续评估和审查的操作流程。鉴于LLM的发展速度,我们建议每季度重新评估一次。


参考资料