[LangGenius 社内事例] 在 IDE 里自助查生产数据:LangGenius 内部打造的 Ops Smart Assistant
简介
这里先做一个术语说明:产品名 Ops Smart Assistant 里的 “Ops” 就是 Operations 的简写,对应中文的运维——公司里负责生产环境、服务器、监控、日志这些基础设施的角色。下面正文里统一用“运维“来指这些同事,产品名本身保留英文。
生产环境一旦出问题,一分钟都很贵。但真正在写代码的开发者,往往既没有 Grafana / Sentry / Kubernetes 的查询权限,也不熟悉 PromQL。结果是一张老剧本:开 ticket → 在运维频道里 @ 人 → 等。与此同时,运维同事一天大半时间花在重复回答同一类问题上,真正的基础设施工作反而被挤压。
LangGenius 自己也踩过这个坑。于是我们用 Dify 搭了一个面向内部工程师的“Ops Smart Assistant“:用户只需要用自然语言问一句,助手自动把问题路由到正确的后端工具,再把仪表盘截图和 AI 分析一起送回用户熟悉的入口(Cursor / VS Code / Web)。
本文把我们自己跑下来的这套使用模式和设计取舍整理出来,作为 LangGenius 内部一个真实发生、持续在用的 use case 记录。
背景与问题
“等待税“是真实存在的
| 角色 | 遇到的痛点 |
|---|---|
| 开发者 | 查一条简单的服务指标,要开 ticket、切多个 dashboard,半天过去了 |
| 运维(Ops)工程师 | 每天几十条重复问题占用带宽,基础设施建设进度被持续稀释 |
| 团队整体 | 故障第一分钟的响应能力被“权限+熟练度“两道墙锁住 |
为什么传统 ChatOps 不够用
传统 ChatOps 机器人通常是“命令式“的:/metrics billing cpu 24h 这种固定语法。对偶尔才查一次生产的开发者来说,记命令本身就是一道门槛。更关键的是,返回结果往往只是一张图或一段 JSON,没有解读,开发者拿到之后还是要去问人。
我们想要的是一个“懂人话、会路由、能解释“的前端:开发者怎么在 Slack 里描述问题,就怎么在这里问。
为什么适合用 Dify 来做
Dify 在这个场景里有几个天然契合的点:
- 自然语言前端 + 工具编排后端:开发者只面对一个自然语言入口,路由、取数、合成这些事交给后端处理。
- 统一的权限边界:工具调用集中在 Dify 侧,后端凭证不落到客户端,便于审计和收敛爆炸半径。
- 多入口复用:同一个 Dify 应用可以同时支撑 Cursor 插件、VS Code 扩展和 Web 页面,不用为每个入口重写一套逻辑。
- 结果可组合:能把“仪表盘截图 + AI 分析“这样的复合回答一次性拼出来,而不是让用户自己再做二次加工。
工作方式:从使用者视角
- 用自然语言问。 在 IDE 里直接输入一句 “最近 24 小时 billing 服务的 CPU 使用率怎么样?” ,不需要记命令,不需要切窗口。
- 系统自动路由。 助手判断这是一个指标类问题,调起 metrics 工具组,而不是去查日志。
- 图文一起回。 拿到的是一张 Grafana 仪表盘截图加上一段 AI 生成的解读,秒级返回。
- 在熟悉的地方收答案。 不强迫开发者换工具,Cursor、VS Code、Web 三端都能用同一套后端。
对开发者来说,体验上的变化是:“查生产“这件事从一件要排期的事,变成一件随手做的事。
落地效果
| 维度 | 之前 | 现在 |
|---|---|---|
| 查询耗时 | 数小时级(等回应 + 自己切 dashboard) | 30 秒级 |
| 运维重复问答 | 每日数十条 | 显著减少,带宽让位给更高价值工作 |
| 开发者体验 | 离开 IDE、切多个工具、等人 | 不离 IDE,自助完成 |
效果本身并不神奇,Dify 也不是唯一能做到这件事的工具。真正省下来的,是整个组织在“日常小问题“上的协同成本——这些成本平时看不见,但一旦被压掉就很难再回去。
我们自己沉淀下来的经验
跑到今天,我们自己总结出几条值得写下来的经验:
- 从只读场景起步。 先做查询,再考虑做任何写操作(重启 Pod、改配置)。权限边界一旦放开就很难收回来。
- 权限放在编排层,不要放在 Prompt 层。 不要指望模型“不去调危险工具“,而是从编排层面就不把危险工具暴露给用户入口。
- 给“我不知道“留一条明确的兜底路径。 宁可让助手说“这个问题我没把握,建议联系 oncall“,也不要让它用幻觉编一个像样的答案。
- 不要一上来追求 dashboard 覆盖度。 先覆盖最高频的 3-5 类问题,把这些打穿、打稳,剩下的长尾再逐步扩展。
- 把使用入口贴到开发者已经在的地方。 Cursor 插件 / VS Code 扩展 / Web——哪里是开发者的默认工作环境,入口就放在哪里。如果要他们多记一个新工具,大概率不会用。
小结
Ops Smart Assistant 本质上不是一个新工具,而是 LangGenius 把自然语言入口、工具编排、结果合成这三件事用 Dify 串起来,让“查生产“这件小事在内部不再需要跨人协作。它压掉的是开发者和运维之间一段平时看不见的隐性成本——先做查询,再谈闭环;先服务开发者,再服务组织,这是我们自己跑下来最想留给后来者的一句话。