Status

状态监控要能定位问题,而不是只显示绿灯

后台状态页应该让管理员同时看到网关、数据库、消息队列、模型代理、Hermes Worker、连接器凭证、设备网格、HITL 审批和成本守卫。每个指标都必须能点开,看到关联 trace、失败分类、影响客户和建议处理步骤。

可钻取详情公司级 AI 辅助Runbook + Trace审计可追踪

后台监控页应该像一张运行控制台

下面是静态原型:服务卡片可以展开,术语和事件可以点开,让右下角 AI 辅助窗口解释“这是什么、为什么重要、先看哪里、下一步怎么做”。正式实现时,这些数据应来自 Prometheus / OpenTelemetry、任务 Trace、ConnectorAuditLog、PostgreSQL、NATS、LiteLLM 和 Hermes Worker 心跳。

内部实时健康监控 最后同步 18 秒前 · 静态原型
整体状态降级运行模型代理 + Worker 需关注
SLO99.92%30 天错误预算剩余 62%
任务吞吐14.8k24h 完成任务
高风险积压19HITL 待确认
Gateway / BFF 99.98% · P95 184ms 展开详情

入口层负责 Web、App、Webhook 和 BFF 代理。这里出问题时,用户会先表现为登录、提交任务或连接器请求失败。

当前症状
5xx 低,P95 正常,WebSocket 心跳稳定。
排查入口
按 route、actor_id、workspace_id 查看 trace。
注意
生产环境必须 fail closed,不能把后端 token 暴露给浏览器。
PostgreSQL / pgvector 连接池 61% · 索引延迟 42ms 展开详情

数据库承载账户、任务、记忆、审计和向量检索。它健康不等于查询都健康,慢查询和索引膨胀也要单独看。

当前症状
连接池未满,pgvector 查询正常。
排查入口
慢查询、锁等待、vacuum、embedding 索引延迟。
注意
记忆检索变慢会让 AI 助手答非所问。
NATS / 消息队列 lag 2,184 · 重试 47 展开详情

队列决定任务是否能被 Worker 及时消费。积压不一定是队列坏了,也可能是 Worker 不够、模型代理慢或某类任务失败重试。

当前症状
agent-plan 队列积压,content-ops 正常。
排查入口
按 subject、consumer、retry_class、dead letter 查看。
注意
重试风暴会放大模型成本和用户等待。
Model Gateway / LiteLLM 429 burst · fallback 12% 展开详情

模型代理负责 provider 路由、成本守卫、fallback 和失败分类。这里需要同时看成功率、首包延迟、429、403、超时和单次任务成本。

当前症状
JP-GPT-Relay-B 降级,CN-DS 池稳定。
排查入口
provider attempts、failure_class、fallback 命中率。
注意
盲目重试会烧预算,应先触发成本守卫。
Hermes Worker 3 离线 · 8 stuck 展开详情

Hermes Worker 执行实际任务。离线、stuck、沙箱失败、技能版本不一致都会造成任务卡住。

当前症状
3 台离线,8 个 WorkItem 超过 20 分钟。
排查入口
worker_id、skill_version、sandbox_exit、last_heartbeat。
注意
高风险技能失败不能自动重跑外部提交动作。
Connector Vault 27 token 待刷新 展开详情

连接器凭证是每用户独立授权和加密存储。刷新失败会影响 GitHub、飞书、CRM、云盘等真实工具执行。

当前症状
Slack / Google Workspace refresh 失败升高。
排查入口
provider_id、scope、expires_at、refresh_failure_count。
注意
敏感 token 不进浏览器,不在日志打印明文。
HITL / 审批 待处理 19 · 超时 2 展开详情

HITL 是高风险动作的闸门。审批积压会让任务看起来像执行慢,但根因可能是人没有确认。

当前症状
内容发布审批正常,支付类审批有 2 个超时。
排查入口
actor、risk_level、channel、timeout_policy。
注意
禁止绕过审批直接执行。
Device Mesh 534 在线 · 17 离线 展开详情

设备网格包含 Mac/PC、手机、GPU Worker、KarmaBox 硬件和 Tailscale 节点。它决定本地优先和跨设备任务能否跑起来。

当前症状
GPU Worker 42 在线,本地隐私池稳定。
排查入口
device_id、capability、tailnet、last_seen、queue_depth。
注意
隐私任务回云端必须先弹审批。

还需要补充哪些监控?

除了网关、数据库、消息队列、模型代理和 Hermes Worker,还应该监控认证、连接器凭证、设备网格、HITL 积压、定时任务、Webhook、成本预算、审计日志、版本发布和知识库索引。

管理员需要能点开看到什么?

  • 关联的 task_id、actor_id、workspace_id、connector_instance_id。
  • 最近 15 分钟错误样本、失败分类和 fallback 结果。
  • 影响客户、影响任务类型、是否触发 HITL 或成本守卫。
  • 推荐 Runbook、最近相似事故和可执行的下一步。

最近事件

正式后台还应该把 AI 辅助接入公司知识库、Runbook、事故库和客户资料,管理员不懂时可以继续追问。

查看开发者说明