Status
状态监控要能定位问题,而不是只显示绿灯
后台状态页应该让管理员同时看到网关、数据库、消息队列、模型代理、Hermes Worker、连接器凭证、设备网格、HITL 审批和成本守卫。每个指标都必须能点开,看到关联 trace、失败分类、影响客户和建议处理步骤。
后台监控页应该像一张运行控制台
下面是静态原型:服务卡片可以展开,术语和事件可以点开,让右下角 AI 辅助窗口解释“这是什么、为什么重要、先看哪里、下一步怎么做”。正式实现时,这些数据应来自 Prometheus / OpenTelemetry、任务 Trace、ConnectorAuditLog、PostgreSQL、NATS、LiteLLM 和 Hermes Worker 心跳。
Gateway / BFF 99.98% · P95 184ms 展开详情
入口层负责 Web、App、Webhook 和 BFF 代理。这里出问题时,用户会先表现为登录、提交任务或连接器请求失败。
- 当前症状
- 5xx 低,P95 正常,WebSocket 心跳稳定。
- 排查入口
- 按 route、actor_id、workspace_id 查看 trace。
- 注意
- 生产环境必须 fail closed,不能把后端 token 暴露给浏览器。
PostgreSQL / pgvector 连接池 61% · 索引延迟 42ms 展开详情
数据库承载账户、任务、记忆、审计和向量检索。它健康不等于查询都健康,慢查询和索引膨胀也要单独看。
- 当前症状
- 连接池未满,pgvector 查询正常。
- 排查入口
- 慢查询、锁等待、vacuum、embedding 索引延迟。
- 注意
- 记忆检索变慢会让 AI 助手答非所问。
NATS / 消息队列 lag 2,184 · 重试 47 展开详情
队列决定任务是否能被 Worker 及时消费。积压不一定是队列坏了,也可能是 Worker 不够、模型代理慢或某类任务失败重试。
- 当前症状
- agent-plan 队列积压,content-ops 正常。
- 排查入口
- 按 subject、consumer、retry_class、dead letter 查看。
- 注意
- 重试风暴会放大模型成本和用户等待。
Model Gateway / LiteLLM 429 burst · fallback 12% 展开详情
模型代理负责 provider 路由、成本守卫、fallback 和失败分类。这里需要同时看成功率、首包延迟、429、403、超时和单次任务成本。
- 当前症状
- JP-GPT-Relay-B 降级,CN-DS 池稳定。
- 排查入口
- provider attempts、failure_class、fallback 命中率。
- 注意
- 盲目重试会烧预算,应先触发成本守卫。
Hermes Worker 3 离线 · 8 stuck 展开详情
Hermes Worker 执行实际任务。离线、stuck、沙箱失败、技能版本不一致都会造成任务卡住。
- 当前症状
- 3 台离线,8 个 WorkItem 超过 20 分钟。
- 排查入口
- worker_id、skill_version、sandbox_exit、last_heartbeat。
- 注意
- 高风险技能失败不能自动重跑外部提交动作。
Connector Vault 27 token 待刷新 展开详情
连接器凭证是每用户独立授权和加密存储。刷新失败会影响 GitHub、飞书、CRM、云盘等真实工具执行。
- 当前症状
- Slack / Google Workspace refresh 失败升高。
- 排查入口
- provider_id、scope、expires_at、refresh_failure_count。
- 注意
- 敏感 token 不进浏览器,不在日志打印明文。
HITL / 审批 待处理 19 · 超时 2 展开详情
HITL 是高风险动作的闸门。审批积压会让任务看起来像执行慢,但根因可能是人没有确认。
- 当前症状
- 内容发布审批正常,支付类审批有 2 个超时。
- 排查入口
- actor、risk_level、channel、timeout_policy。
- 注意
- 禁止绕过审批直接执行。
Device Mesh 534 在线 · 17 离线 展开详情
设备网格包含 Mac/PC、手机、GPU Worker、KarmaBox 硬件和 Tailscale 节点。它决定本地优先和跨设备任务能否跑起来。
- 当前症状
- GPU Worker 42 在线,本地隐私池稳定。
- 排查入口
- device_id、capability、tailnet、last_seen、queue_depth。
- 注意
- 隐私任务回云端必须先弹审批。
还需要补充哪些监控?
除了网关、数据库、消息队列、模型代理和 Hermes Worker,还应该监控认证、连接器凭证、设备网格、HITL 积压、定时任务、Webhook、成本预算、审计日志、版本发布和知识库索引。
管理员需要能点开看到什么?
- 关联的 task_id、actor_id、workspace_id、connector_instance_id。
- 最近 15 分钟错误样本、失败分类和 fallback 结果。
- 影响客户、影响任务类型、是否触发 HITL 或成本守卫。
- 推荐 Runbook、最近相似事故和可执行的下一步。
最近事件
正式后台还应该把 AI 辅助接入公司知识库、Runbook、事故库和客户资料,管理员不懂时可以继续追问。
查看开发者说明