Web-first admin plane
运营总览
把客户、任务、模型、设备和内容发布放进同一个后台,但每次只处理一个管理场景。
值班操作原则
先确认、再切换、全留痕
这不是架构说明,而是管理员处理客户、计费、权限和模型资源时必须遵守的操作边界。
01
敏感操作只在 Web 后台完成
关停、退款、权限变更、客户代管必须在后台执行;Telegram、飞书、钉钉只用于通知、审批提醒和人工确认。
02
模型和供应商切换必须留痕
通过“模型资源池”或“路由设置”切换;记录操作者、供应商、失败原因、流量比例和降级路径。
03
管理员调策略,不手动改队列
Superbrain 负责路由,Hermes Worker 执行任务,NATS 派发设备;管理员只调整规则、阈值和人工确认。
当前生效
审计记录开启
¥120k¥80k¥40k
05/22
05/23
05/24
05/25
05/26
05/27
05/28
今天
柱形代表单日净营收,绿色线代表付费转化率;用于判断增长来自新客户还是高价值套餐。
¥86.4K今日净营收
+18.7%较 7 日均值
¥674ARPU
9支付异常待查
- DeepSeek 文字处理42%
- GPT 5.5 编程/推理31%
- Gemini 图像设计17%
- 本地隐私模型10%
Luma Commerce91%
Northstar Export82%
周米拉74%
Helium Studio63%
- US-GEM-02403 / region_error,已暂停自动流量
- JP-GPT-Relay-BP95 1460ms,保持 10% canary
- Slack token27 个连接器 token 7 天内过期
- Hermes Worker1 台 GPU worker 离线 7 分钟
Runtime health
状态监控、故障定位和公司级 AI 辅助
降级运行
值班入口
管理员点开后应该先看什么
根因优先,而不是指标堆叠
01
关联 task_id、actor_id、workspace_id、connector_instance_id。
02
查看最近 15 分钟错误样本、失败分类和 fallback 结果。
03
确认影响客户、任务类型,以及是否触发 HITL 或 CostGuard。
04
打开推荐 Runbook、相似事故和可执行下一步。
当前不是全站故障,而是模型代理、Hermes Worker 和连接器凭证三条链路同时出现局部风险。管理员应先确认是否存在重试风暴,再定位 stuck WorkItem 和 token 刷新失败。
- 关联模块
- Model Gateway / LiteLLM、Hermes Worker、Connector Vault
- 关键数据
- fallback 12% · stuck WorkItem 8 · connector token refresh 27
- Trace 入口
- INC-20260529-0842 · task_class=agent-plan · failure_class=timeout/429
- 建议动作
- 先在模型代理里看 provider attempts,再打开 Hermes Worker stuck 列表,最后按 provider/scope 处理连接器续权。
Gateway / BFF99.98% · P95 184ms展开
- 当前症状
- 5xx 低,WebSocket 心跳稳定。
- 排查入口
- route、actor_id、workspace_id、BFF trace。
- 注意
- 浏览器永远不能持有后端 bearer token。
PostgreSQL / pgvector连接池 61% · 索引 42ms展开
- 当前症状
- 连接池未满,pgvector 查询正常。
- 排查入口
- slow query、lock wait、vacuum、embedding index lag。
- 注意
- 记忆检索慢会让 AI 助手答非所问。
NATS JetStreamlag 2,184 · 重试 47展开
- 当前症状
- agent-plan 队列积压,content-ops 正常。
- 排查入口
- subject、consumer、retry_class、dead letter。
- 注意
- 重试风暴会放大模型成本和用户等待。
Model Gateway / LiteLLM429 burst · fallback 12%展开
- 当前症状
- JP-GPT-Relay-B 降级,CN-DS 池稳定。
- 排查入口
- provider attempts、failure_class、fallback、CostGuard。
- 注意
- 盲目重试会烧预算,应先触发成本守卫。
Hermes Worker3 台离线 · 8 个 stuck展开
- 当前症状
- 3 台离线,8 个 WorkItem 超过 20 分钟。
- 排查入口
- worker_id、skill_version、sandbox_exit、last_heartbeat。
- 注意
- 高风险技能失败不能自动重跑外部提交动作。
Connector Vault27 个 token 待刷新展开
- 当前症状
- Slack / Gmail refresh token 失败上升。
- 排查入口
- provider_id、scope、ConnectorAuditLog、OAuth callback。
- 注意
- 刷新失败不要自动扩大权限,必须走用户重新授权。
Auth / SessionSSO 正常 · 3 个异常登录展开
- 当前症状
- SSO 正常,3 个异常地理位置提醒。
- 排查入口
- login_attempt、actor_id、admin_impersonation、session ttl。
- 注意
- 客服代看客户资料要单独写审计。
Device Mesh534 在线 · 17 离线展开
- 当前症状
- 17 台离线,其中 3 台为 GPU Worker。
- 排查入口
- device_id、last_seen、route、capability、fallback policy。
- 注意
- 隐私任务本地不可用时不能静默切云端。
最近事件可点击查看事件数据细节
Route control
模型网关、客户分流和故障切换策略
规则列表按客户类型、任务类型和隐私边界决定运行路径
运行路径请求如何经过模型网关、供应商接入点和隐私区域
DeepSeek 文字池42%
GPT 5.5 代码池31%
Gemini 图像池17%
本地隐私池10%
健康探测DNS / TLS / `/v1/models` / 100 tokens smoke task
失败分类401/403、429、timeout、region_error、model_not_found
自动切换连续 3 次失败或 P95 超阈值,进入备用池
Model resource pool
模型资源池工作台
左侧只做筛选和选择,右侧完成主备切换与人工接管。
供应商包含官方 API、代理 / 中转和私有池。探测结果只更新健康分数和路由建议,不会自动切换客户流量。
11接入点
3官方 API
7代理 / 中转
1私有池
5能力池
96.4%综合连通率
2降级中
DeepSeek-Official官方 API · text/long-context
文字处理官方 API · 45% 流量
99.2%连通率 · 188ms
正常
CN-DS-01DeepSeek Expert · 代理 / 中转
文字处理备用 1 · 35% 流量
98.7%连通率 · 212ms
正常
CN-DS-02DeepSeek Expert · backup key pool
文字处理备用 2 · 20% 流量
99.1%连通率 · 236ms
正常
GPT5.5-Official官方 API · code/reasoning
编程官方 API · 54% 流量
97.1%连通率 · 780ms
正常
US-GPT-Relay-AGPT 5.5 high · code/reasoning
编程备用 1 · 28% 流量
96.2%连通率 · 840ms
正常
JP-GPT-Relay-BGPT 5.5 xhigh · agent-plan
超高推理备用 3 · 已降级
92.8%连通率 · 1460ms
降级
EU-GPT-Relay-CGPT 5.5 high · enterprise route
编程备用 2 · EU canary
97.8%连通率 · 1180ms
正常
Gemini-Official官方 API · design/multimodal
图像设计官方 API · 58% 流量
98.0%连通率 · 920ms
正常
SG-GEM-01Gemini image · design/multimodal
图像设计备用 1 · 24% 流量
97.4%连通率 · 980ms
正常
US-GEM-02Gemini image · backup route
图像设计备用 2 · 暂停
88.4%连通率 · 1800ms
暂停
Private-CN-1Ollama / Qwen local · private
隐私任务本地主站
99.1%连通率 · 68ms
正常
API keys
客户 API Key 与供应商凭证
管理逻辑
左侧用于海量检索、筛选和选择对象;右侧处理当前 Key 的编辑、熔断、明文查看、禁用、轮换和探测。所有高风险动作先进入审批中心,不在列表里直接生效。
9,732客户 Key
31熔断或限流中
13供应商凭证
0明文查看待审批
客户 Key 是客户接入我们平台的凭证,数量会很大;默认按最近使用和风险排序,客服可用客户名、UID 或 Prefix 快速定位。
| 客户 / 工作区 |
Key 名称 |
Prefix |
状态 |
熔断 |
最后使用 |
操作 |
| Northstar ExportORG-100482 · Enterprise |
northstar-prod |
sk-8fa2... |
生效中 |
关闭 |
2026-05-28 14:27 |
|
| Luma CommerceORG-100517 · Pro |
luma-monitor |
sk-11d9... |
生效中 |
开启 |
2026-05-28 13:58 |
|
| Vertex AuditORG-100231 · Enterprise |
vertex-audit |
sk-e45d... |
只读 |
关闭 |
- |
|
| Grain RoboticsORG-100619 · Enterprise |
grain-worker |
sk-72ac... |
限流 |
开启 |
2026-05-28 12:41 |
|
没有找到匹配的客户 Key。可以改用客户注册名、UID、Prefix 或工单号继续搜索。
供应商凭证是我们调用官方 API、代理 / 中转和私有池的内部密钥,归 Key Vault 管理,并与模型资源池、路由设置、成本守卫联动。
| 供应商 / 能力池 |
Vault ID |
类型 |
状态 |
轮换 / 探测 |
操作 |
| DeepSeek-Official文字处理 / DeepSeek Expert |
kv/model/deepseek-official |
官方 API |
正常 |
Jun 12 · 99.2% |
|
| US-GPT-Relay-A编程 / GPT 5.5 high |
kv/relay/us-gpt-a |
代理 / 中转 |
正常 |
Jun 04 · 96.2% |
|
| US-GEM-02图像设计 / Gemini image |
kv/relay/us-gem-02 |
代理 / 中转 |
冻结 |
逾期 · 88.4% |
|
没有找到匹配的供应商凭证。可改用 Vault ID、模型能力或供应商名称搜索。
Selected object
查看详情
选择上方 Key 后,这里展示对象详情;点击编辑、禁用、查看、熔断、轮换或探测会打开独立操作弹窗。
northstar-prod
客户 API Key
生效中
- 客户 / 工作区
- Northstar Export · ORG-100482
- Prefix
- sk-8fa2...
- 权限范围
- 生产调用、客户任务、模型路由
- 速率上限
- 20,000 req / hour
- IP 策略
- 已限制:CN office、VPC egress
- 创建记录
- 2026-03-18 · ops@karmabox
- 熔断状态
- 关闭
- 审计摘要
- 最近查看:无 · 最近变更:May 28 13:02
操作说明
系统按动作类型、对象范围和当前流量自动评定;管理员只能补充原因或申请更高审批。
保存前会写入管理员审计草稿。
排障逻辑
先用时间、客户、模型和异常类型缩小范围;左侧只负责定位请求,右侧展示 trace、路由、供应商、成本和错误证据,并从右侧发起观察、审批或切流动作。
9.42M今日请求
97.6%成功率
842 msP95 首包
¥0.018平均 1K 成本
213失败需复核
最近 24 分钟请求质量
成功率轻微回落,主要来自 US-GPT-Relay-A timeout 和 Gemini region_error。
没有找到匹配请求。可以改用 Trace ID、客户注册名、API Key prefix、模型或供应商名称继续搜索。
审批中心只负责敏感动作的授权和留痕。
草稿保存在提交管理员的草稿箱,不会进入审批队列,也不会改变线上 Key、路由或供应商凭证;提交后才进入队列,通过后仍需执行并写入审计。
- 1草稿箱提交人可继续编辑或删除
- 2审批队列按系统风险匹配授权等级
- 3驳回回流意见回到提交人处理
- 4执行审计通过后手动执行并记录
当前账号:ops@karmabox · Ops lead
列表只负责选中审批单,真实动作在右侧详情完成。
| 审批事项 | 状态 | 风险 | 提交 / 权限 | SLA |
| 禁用 Keynorthstar-prod · ORG-100482 |
待审批 |
高风险 · 需要确认影响 |
ops@karmaboxSecurity owner |
12 分钟内 |
| 明文查看申请northstar-prod · TICKET-8244 |
待第二审批人 |
高风险 · 双人审批 |
lin@karmabox双人审批 |
28 分钟内 |
| 供应商凭证轮换US-GPT-Relay-A · canary 3% |
待执行 |
高风险 · 需回滚窗口 |
ops@karmaboxSecurity owner |
23:30 前 |
| 熔断策略luma-monitor · 需补充成本证据 |
已驳回 |
中风险 · 立即生效草稿 |
ops@karmaboxOps lead |
回到提交人 |
| 禁用 Key 草稿bluebell-school · Bluebell School |
草稿未提交 |
中风险 · 等待补充原因 |
ops@karmaboxOps lead |
未提交 |
Usage operations
使用量、成本和配额工作台
7 个账户需处理
统计口径
这里不直接改线上权限。先确认客户、套餐、billed units、真实成本、支付状态和异常来源,再从右侧发起加配额、限流、账单核对或审批草稿。
42.8B本月 billed units云端模型计费口径
¥184K本月模型成本+12.4% vs 上周
¥316K确认收入Stripe / 支付宝 / 微信
10.4%本地模型分流企业私有池贡献 6.2%
7接近配额3 个企业、4 个个人
2支付待核对回调延迟或补单
近 8 日趋势Billed units / 成本
05/28
05/29
05/30
05/31
06/01
06/02
06/03
今天
GPT 5.5 high / xhigh¥78.4K
DeepSeek Expert¥36.7K
Gemini image¥24.2K
本地 / 私有 Worker0x units
没有匹配记录。可以改用客户名、注册名、Org ID、订单号、模型、供应商或支付通道继续搜索。
Customer directory
客户目录、客服搜索和权限边界
显示 8 / 9,732
套餐
队列
Sales intake
联系销售与深智诊断入站
官网联系销售、深智问答和注册后的可选诊断都会先沉淀为客户画像;销售在这里查看需求、生成回复、分派负责人,必要时再转实施评估或售后处理。
新线索 18 · 待回复 6
排序:最近客服活动优先
每页 50 · 第 1 / 195 页
| 客户 | 类型 | 套餐 / 状态 | 本月用量 | 最近问题 | 管理动作 |
| Northstar Export注册名 northstar_admin · ORG-100982SSO · 审计导出 · 私有连接器 | 企业 | Enterprise 接近配额 | 82% | T-8421 · 发票与配额确认 | |
| Helium Studio注册名 helium_ops · WS-22041内容发布 · CRM 写入 · Slack 过期 | 团队 / 小微 | Max 异常峰值 | 63% | T-8399 · Webhook 失败重试 | |
| Vertex Legal注册名 vertex_admin · ORG-100421私有模型 · KMS Vault · 长审计 | 企业 | Enterprise 正常 | 47% | T-8102 · DPA 附件归档 | |
| Luma Commerce注册名 kai_luma · WS-11872电商监控 · 表格写入 · Notion 正常 | 团队 / 小微 | Pro 需扩容 | 91% | T-8416 · Slack 授权过期 | |
| 陈若安注册名 chen_ruoan · UID-774201代码助手 · GitHub · 本地设备 1 台 | 个人 | Pro Trial 试用中 | 36% | T-8384 · 登录设备确认 | |
| Grain Robotics注册名 grain_cto · ORG-100619GPU Worker · 代码沙箱 · 私有池 | 企业 | Enterprise 正常 | 39% | T-8244 · Worker 离线已恢复 | |
| 周米拉注册名 mira_zhou · UID-661902内容草稿 · Notion · 邮件只读 | 个人 | Free 支付待确认 | 74% | T-8372 · 订单回调未入账 | |
| Bluebell School注册名 bluebell_admin · WS-19022课程编排 · Google Workspace 待复核 | 团队 / 小微 | Pro 冻结 | 28% | T-8361 · 学生资料权限复核 | |
没有匹配客户。请换注册名、邮箱、UID、Org ID、工单号或订单号再查。
Device mesh
设备网格、派发队列和本地隐私任务
17 台离线
运维口径
设备网格要先看在线设备、任务派发、连接方式和隐私边界。敏感任务的本地设备不可用时,不自动回云端,必须走人工确认或客户策略。
736注册设备Mac / PC / Worker / 硬件盒子
683在线设备92.8% 可派发
17离线需复核6 台影响隐私任务
128运行中任务NATS 派发队列
5HITL 阻塞等待手机 / Web 确认
0x本地计费私有 Worker 不计云 units
Mac / PC436 在线 · 61% 任务
GPU Worker42 在线 · 22% 重任务
手机 App208 在线 · 审批 / 通知
KarmaBox 硬件56 在线 · 本地常驻
WebSocket
手机 App
Telegram
飞书待接入
钉钉待接入
企业微信待接入
没有匹配设备。可以改用设备名、客户、设备 ID、任务类型、区域或连接方式继续搜索。
Connector Vault
连接器授权、Token 刷新和权限边界
27 个 token 待刷新
处理原则
连接器异常要按 Provider、客户、scope、回调和 refresh token 失败类型拆开看。后台只展示状态和审计证据,不展示密钥明文;扩大权限、暂停写入和重新授权都必须留痕。
Vault coverage
OAuth / App token
1,904
授权实例覆盖个人、企业工作区和 App Installation;后台只看状态、scope、刷新记录和审计证据。
密钥不明文展示365 天审计留存
Provider health刷新失败与待处理分布
最近 24 小时
Slack17 待刷新
Gmail8 待刷新
GitHub正常
Notion2 待刷新
Permission matrix权限动作边界
Fail closed
读取repo / drive / channel
草稿PR draft / 邮件草稿
写入审批后评论 / 表格写入
高风险发送 / 部署 / 外部提交
没有匹配授权实例。可以改用客户、Provider、实例 ID、scope、工单或错误类型继续搜索。
Expert content
专家、行业包、知识库和工作流审核
41 个待处理
发布原则
专家内容不是文案库。发布前必须同时检查 Expert YAML、知识库来源、工作流节点、工具权限、试跑结果和客户影响;高风险外部动作必须进入审批。
Published library32 个行业包
128
已发布专家、专家团和行业包。点击下面指标可以进入对应队列、查看风险、试跑结果和发布证据。
版本可回滚发布需留痕
Publish pipeline内容发布四段检查
Fail closed
Quality risks待处理风险分布
最近 7 天
没有匹配内容。可以改用专家名、行业包、客户样本、知识库、工作流或风险继续搜索。
Automation
工作流、Webhook、定时任务和产出物治理
9 个等待人审
运行原则
自动化不是无人值守黑盒。每条链路都要能看到触发源、输入映射、工具权限、人审节点、输出物、失败退避和审计记录;外部写入、发送、部署类动作必须 fail closed。
Automation planeVWF / WH / SCH
96
运行中的工作流、Webhook、定时任务和记忆归档策略。点击指标可进入对应队列和右侧详情。
HMAC 验签幂等键Run lock
Execution path触发到交付的六段链路
可点击定位
没有匹配自动化。可以改用名称、客户、触发器、Webhook、schedule、产出物或失败类型继续搜索。
Commerce operations
订阅、订单、发票、兑换和赔付
12 个待财务复核
资金原则所有涉及客户资金、余额、token 流量、订阅天数和发票的动作都必须有订单、支付回调、审批人、执行人和审计记录;赔付只允许通过草稿和审批执行。
Money ledger订单 / 发票 / 赔付
¥184.7K今日待确认资金流水,覆盖订阅购买、企业月结、兑换码和客户赔付。
不直接改余额审批后执行全量审计
没有匹配资金流。可以改用客户、订单号、发票、兑换码、赔付原因或工单号继续搜索。
After-sales desk
订阅、发票、兑换和赔付售后处理
18 个待回复
处理原则客户资金相关售后必须能关联订单、发票、兑换记录、用量证据、赔付草稿和客服回复。任何补偿、退款或订阅天数调整都先进入审批和审计。
Support ledgerSLA / evidence / reply
64打开中的售后工单,覆盖购买订阅、发票、兑换、退款和故障赔付。
SLA 计时证据链回访记录
没有匹配售后工单。
Frontend experience
前端体验、购买页和动作策略
8 个策略在线
配置原则用户端只展示清晰结果,后台配置形象、动作、购买订阅页文案、灰度实验和回滚策略;价格、权益和发票入口不能写死在前端。
购买订阅页管理套餐卡片、待定价格、购物车空态、发票入口、兑换入口和安全提示。
形象素材库官方形象、照片生成模板、宠物形象、授权灵感形象;每个素材绑定版本、许可和可见人群。
动作包管理Rive、Lottie、Live2D、VRM 动作按场景编排,用户端只看到自然反馈。
灰度与回滚按套餐、地区、设备性能和实验组灰度;每次策略变更保留操作者和回滚条件。
Skill registry
Skill 注册、人审、权限和租户安全
6 个高风险待审
安全原则Skill 不是普通插件。每个 Skill 必须声明 manifest、工具权限、外部动作、数据边界、sandbox smoke 证据和 HITL 策略;高风险动作必须审批后执行。
github_pr_review通过 manifest 检查,缺少 Docker smoke 证据;PR 评论属于写入动作。
browser_auto_submit包含外部提交动作,必须绑定 HITL policy 和敏感数据确认。
tenant_boundary检查 Supabase Auth、httpOnly cookie、BFF user_id 覆盖和项目空间隔离。
admin_audit专家发布、connector provider、skill promote、赔付和订阅调整都要求管理员权限。
Execution queue
审批后执行、失败重试和回滚队列
9 个待执行
执行原则审批中心只决定能不能做,执行中心负责把批准动作真正写入系统,并追踪执行状态、失败原因、重试次数、回滚窗口和审计编号。
Action runnerapproved changes
27等待执行或需要复核的后台动作,覆盖账户、Key、资金、路由、连接器和 Skill 发布。
审批后执行失败可重试回滚留痕
没有匹配执行任务。
Risk watch
滥用、盗号、异常兑换和成本风险
14 个高风险
风控口径风险等级由系统规则、异常检测和人工复核共同形成:系统先给分,管理员可补充证据和人工定级;冻结、关停和 Key 禁用仍需审批或双人确认。
Risk scoreabuse / fraud / cost
83最高风险事件来自 API Key 异常调用、兑换码批量撞库、企业账号异地登录和模型成本突增。
系统评分人工复核证据留存
没有匹配风险事件。
Config registry
套餐、阈值、公告和灰度配置
42 个配置在线
配置原则价格、配额、模型探测阈值、公告模板、功能灰度和地区策略都不能硬写在前端。配置中心保存版本、差异、灰度范围、审批状态和回滚点。
价格与权益Free / Pro / Max / Enterprise 的价格、试用、兑换、发票入口和权益说明。资金页承接
Provider 阈值连通率、P95、429 burst、fallback 成本和主备切换条件。资源池承接
前端公告购买页、登录页、状态页、支付异常和维护公告模板。体验页承接
地区与隐私数据驻留、审计周期、跨区禁用、企业白名单和 DPA 模板。合规页承接
没有匹配配置项。
Compliance reports
隐私请求、审计导出和经营报表
7 个待归档
合规原则隐私、审计、DPA、删除请求、经营报表和财务证据需要统一留档。合规页不直接修改客户权益,只生成证据包、分派负责人、触发审批和导出报表。
Evidence packprivacy / audit / finance
19本周需要归档的证据包,覆盖企业审计、数据导出、删除请求、DPA 附件和经营报表。
可追溯可导出权限分级
没有匹配合规或报表记录。