运营总览
今日值班 Ops lead · 林澈 2 个接入点降级 · 3 个客户接近配额 · 1 个 Worker 离线
$ 0  |  $147.7

Web-first admin plane

运营总览

把客户、任务、模型、设备和内容发布放进同一个后台,但每次只处理一个管理场景。

退出登录
值班操作原则 先确认、再切换、全留痕

这不是架构说明,而是管理员处理客户、计费、权限和模型资源时必须遵守的操作边界。

01
敏感操作只在 Web 后台完成

关停、退款、权限变更、客户代管必须在后台执行;Telegram、飞书、钉钉只用于通知、审批提醒和人工确认。

02
模型和供应商切换必须留痕

通过“模型资源池”或“路由设置”切换;记录操作者、供应商、失败原因、流量比例和降级路径。

03
管理员调策略,不手动改队列

Superbrain 负责路由,Hermes Worker 执行任务,NATS 派发设备;管理员只调整规则、阈值和人工确认。

当前生效 审计记录开启
付费客户128Pro 86 · Max 31 · Enterprise 11查看客户账户 本月 billed units42.8B云端计费 · 本地模型 0x进入使用量统计 活跃任务31852 个等待 HITL 确认查看状态监控 模型接入点11官方 API 3 · 代理 / 中转 7 · 私有池 1管理模型资源池 连接器实例1,90427 个 token 即将过期查看连接器 Vault 待审内容41专家、Skill、工作流候选进入审核队列

Business board

单日营收趋势

05/22 05/23 05/24 05/25 05/26 05/27 05/28 今天

柱形代表单日净营收,绿色线代表付费转化率;用于判断增长来自新客户还是高价值套餐。

¥86.4K今日净营收 +18.7%较 7 日均值 ¥674ARPU 9支付异常待查

Model mix

模型调用分布

42.8B billed units
  • DeepSeek 文字处理42%
  • GPT 5.5 编程/推理31%
  • Gemini 图像设计17%
  • 本地隐私模型10%

Quota risk

客户配额风险

3 个接近上限
Luma Commerce91%
Northstar Export82%
周米拉74%
Helium Studio63%

Incident queue

实时异常队列

7 条待处理
  1. US-GEM-02403 / region_error,已暂停自动流量
  2. JP-GPT-Relay-BP95 1460ms,保持 10% canary
  3. Slack token27 个连接器 token 7 天内过期
  4. Hermes Worker1 台 GPU worker 离线 7 分钟

Runtime health

状态监控、故障定位和公司级 AI 辅助

降级运行
值班入口 管理员点开后应该先看什么
根因优先,而不是指标堆叠
01

关联 task_id、actor_id、workspace_id、connector_instance_id。

02

查看最近 15 分钟错误样本、失败分类和 fallback 结果。

03

确认影响客户、任务类型,以及是否触发 HITL 或 CostGuard。

04

打开推荐 Runbook、相似事故和可执行下一步。

数据细节整体状态
降级运行

当前不是全站故障,而是模型代理、Hermes Worker 和连接器凭证三条链路同时出现局部风险。管理员应先确认是否存在重试风暴,再定位 stuck WorkItem 和 token 刷新失败。

关联模块
Model Gateway / LiteLLM、Hermes Worker、Connector Vault
关键数据
fallback 12% · stuck WorkItem 8 · connector token refresh 27
Trace 入口
INC-20260529-0842 · task_class=agent-plan · failure_class=timeout/429
建议动作
先在模型代理里看 provider attempts,再打开 Hermes Worker stuck 列表,最后按 provider/scope 处理连接器续权。
Gateway / BFF99.98% · P95 184ms展开
当前症状
5xx 低,WebSocket 心跳稳定。
排查入口
route、actor_id、workspace_id、BFF trace。
注意
浏览器永远不能持有后端 bearer token。
PostgreSQL / pgvector连接池 61% · 索引 42ms展开
当前症状
连接池未满,pgvector 查询正常。
排查入口
slow query、lock wait、vacuum、embedding index lag。
注意
记忆检索慢会让 AI 助手答非所问。
NATS JetStreamlag 2,184 · 重试 47展开
当前症状
agent-plan 队列积压,content-ops 正常。
排查入口
subject、consumer、retry_class、dead letter。
注意
重试风暴会放大模型成本和用户等待。
Model Gateway / LiteLLM429 burst · fallback 12%展开
当前症状
JP-GPT-Relay-B 降级,CN-DS 池稳定。
排查入口
provider attempts、failure_class、fallback、CostGuard。
注意
盲目重试会烧预算,应先触发成本守卫。
Hermes Worker3 台离线 · 8 个 stuck展开
当前症状
3 台离线,8 个 WorkItem 超过 20 分钟。
排查入口
worker_id、skill_version、sandbox_exit、last_heartbeat。
注意
高风险技能失败不能自动重跑外部提交动作。
Connector Vault27 个 token 待刷新展开
当前症状
Slack / Gmail refresh token 失败上升。
排查入口
provider_id、scope、ConnectorAuditLog、OAuth callback。
注意
刷新失败不要自动扩大权限,必须走用户重新授权。
Auth / SessionSSO 正常 · 3 个异常登录展开
当前症状
SSO 正常,3 个异常地理位置提醒。
排查入口
login_attempt、actor_id、admin_impersonation、session ttl。
注意
客服代看客户资料要单独写审计。
Device Mesh534 在线 · 17 离线展开
当前症状
17 台离线,其中 3 台为 GPU Worker。
排查入口
device_id、last_seen、route、capability、fallback policy。
注意
隐私任务本地不可用时不能静默切云端。
最近事件可点击查看事件数据细节

Route control

模型网关、客户分流和故障切换策略

规则列表按客户类型、任务类型和隐私边界决定运行路径
运行路径请求如何经过模型网关、供应商接入点和隐私区域
DeepSeek 文字池42%
GPT 5.5 代码池31%
Gemini 图像池17%
本地隐私池10%
健康探测DNS / TLS / `/v1/models` / 100 tokens smoke task
失败分类401/403、429、timeout、region_error、model_not_found
自动切换连续 3 次失败或 P95 超阈值,进入备用池

Model resource pool

模型资源池工作台

左侧只做筛选和选择,右侧完成主备切换与人工接管。 供应商包含官方 API、代理 / 中转和私有池。探测结果只更新健康分数和路由建议,不会自动切换客户流量。
11接入点
3官方 API
7代理 / 中转
1私有池
5能力池
96.4%综合连通率
2降级中
DeepSeek-Official官方 API · text/long-context 文字处理官方 API · 45% 流量 99.2%连通率 · 188ms 正常
CN-DS-01DeepSeek Expert · 代理 / 中转 文字处理备用 1 · 35% 流量 98.7%连通率 · 212ms 正常
CN-DS-02DeepSeek Expert · backup key pool 文字处理备用 2 · 20% 流量 99.1%连通率 · 236ms 正常
GPT5.5-Official官方 API · code/reasoning 编程官方 API · 54% 流量 97.1%连通率 · 780ms 正常
US-GPT-Relay-AGPT 5.5 high · code/reasoning 编程备用 1 · 28% 流量 96.2%连通率 · 840ms 正常
JP-GPT-Relay-BGPT 5.5 xhigh · agent-plan 超高推理备用 3 · 已降级 92.8%连通率 · 1460ms 降级
EU-GPT-Relay-CGPT 5.5 high · enterprise route 编程备用 2 · EU canary 97.8%连通率 · 1180ms 正常
Gemini-Official官方 API · design/multimodal 图像设计官方 API · 58% 流量 98.0%连通率 · 920ms 正常
SG-GEM-01Gemini image · design/multimodal 图像设计备用 1 · 24% 流量 97.4%连通率 · 980ms 正常
US-GEM-02Gemini image · backup route 图像设计备用 2 · 暂停 88.4%连通率 · 1800ms 暂停
Private-CN-1Ollama / Qwen local · private 隐私任务本地主站 99.1%连通率 · 68ms 正常

API keys

客户 API Key 与供应商凭证

管理逻辑

左侧用于海量检索、筛选和选择对象;右侧处理当前 Key 的编辑、熔断、明文查看、禁用、轮换和探测。所有高风险动作先进入审批中心,不在列表里直接生效。

9,732客户 Key
31熔断或限流中
13供应商凭证
0明文查看待审批
客户 Key 是客户接入我们平台的凭证,数量会很大;默认按最近使用和风险排序,客服可用客户名、UID 或 Prefix 快速定位。
客户 / 工作区 Key 名称 Prefix 状态 熔断 最后使用 操作
Northstar ExportORG-100482 · Enterprise northstar-prod sk-8fa2... 生效中 关闭 2026-05-28 14:27
Luma CommerceORG-100517 · Pro luma-monitor sk-11d9... 生效中 开启 2026-05-28 13:58
Vertex AuditORG-100231 · Enterprise vertex-audit sk-e45d... 只读 关闭 -
Grain RoboticsORG-100619 · Enterprise grain-worker sk-72ac... 限流 开启 2026-05-28 12:41
显示 4 / 9,732

Selected object

查看详情

选择上方 Key 后,这里展示对象详情;点击编辑、禁用、查看、熔断、轮换或探测会打开独立操作弹窗。
northstar-prod 客户 API Key 生效中
客户 / 工作区
Northstar Export · ORG-100482
Prefix
sk-8fa2...
权限范围
生产调用、客户任务、模型路由
速率上限
20,000 req / hour
IP 策略
已限制:CN office、VPC egress
创建记录
2026-03-18 · ops@karmabox
熔断状态
关闭
审计摘要
最近查看:无 · 最近变更:May 28 13:02
当前操作 低风险 · 只读

风险等级由系统按动作类型、对象范围、当前流量、Key 状态和近期异常自动评定;管理员只能补充原因或申请更高审批。

客户 Key 操作

当前选中 northstar-prod,可查看详情或进入具体操作流程。

Request logs

请求日志工作台

实时采样
排障逻辑

先用时间、客户、模型和异常类型缩小范围;左侧只负责定位请求,右侧展示 trace、路由、供应商、成本和错误证据,并从右侧发起观察、审批或切流动作。

9.42M今日请求
97.6%成功率
842 msP95 首包
¥0.018平均 1K 成本
213失败需复核
最近 24 分钟请求质量 成功率轻微回落,主要来自 US-GPT-Relay-A timeout 和 Gemini region_error。
显示 4 / 9.42M

Approval center

审批工作台

5 个待处理
审批中心只负责敏感动作的授权和留痕。 草稿保存在提交管理员的草稿箱,不会进入审批队列,也不会改变线上 Key、路由或供应商凭证;提交后才进入队列,通过后仍需执行并写入审计。
  1. 1草稿箱提交人可继续编辑或删除
  2. 2审批队列按系统风险匹配授权等级
  3. 3驳回回流意见回到提交人处理
  4. 4执行审计通过后手动执行并记录
当前账号:ops@karmabox · Ops lead 列表只负责选中审批单,真实动作在右侧详情完成。
审批事项状态风险提交 / 权限SLA
禁用 Keynorthstar-prod · ORG-100482 待审批 高风险 · 需要确认影响 ops@karmaboxSecurity owner 12 分钟内
明文查看申请northstar-prod · TICKET-8244 待第二审批人 高风险 · 双人审批 lin@karmabox双人审批 28 分钟内
供应商凭证轮换US-GPT-Relay-A · canary 3% 待执行 高风险 · 需回滚窗口 ops@karmaboxSecurity owner 23:30 前
熔断策略luma-monitor · 需补充成本证据 已驳回 中风险 · 立即生效草稿 ops@karmaboxOps lead 回到提交人
禁用 Key 草稿bluebell-school · Bluebell School 草稿未提交 中风险 · 等待补充原因 ops@karmaboxOps lead 未提交

Usage operations

使用量、成本和配额工作台

7 个账户需处理
统计口径

这里不直接改线上权限。先确认客户、套餐、billed units、真实成本、支付状态和异常来源,再从右侧发起加配额、限流、账单核对或审批草稿。

42.8B本月 billed units云端模型计费口径
¥184K本月模型成本+12.4% vs 上周
¥316K确认收入Stripe / 支付宝 / 微信
10.4%本地模型分流企业私有池贡献 6.2%
7接近配额3 个企业、4 个个人
2支付待核对回调延迟或补单
近 8 日趋势Billed units / 成本
05/28 05/29 05/30 05/31 06/01 06/02 06/03 今天
成本来源模型与供应商分布
按今日成本排序
GPT 5.5 high / xhigh¥78.4K
DeepSeek Expert¥36.7K
Gemini image¥24.2K
本地 / 私有 Worker0x units
显示 6 / 9,732

Customer directory

客户目录、客服搜索和权限边界

显示 8 / 9,732

支持注册名、显示名、邮箱、手机号尾号、UID、Org ID、企业域名、工单号、订单号。

状态
套餐
队列

Sales intake

联系销售与深智诊断入站

官网联系销售、深智问答和注册后的可选诊断都会先沉淀为客户画像;销售在这里查看需求、生成回复、分派负责人,必要时再转实施评估或售后处理。

新线索 18 · 待回复 6
排序:最近客服活动优先 每页 50 · 第 1 / 195 页
客户类型套餐 / 状态本月用量最近问题管理动作
Northstar Export注册名 northstar_admin · ORG-100982SSO · 审计导出 · 私有连接器企业Enterprise 接近配额82%T-8421 · 发票与配额确认
Helium Studio注册名 helium_ops · WS-22041内容发布 · CRM 写入 · Slack 过期团队 / 小微Max 异常峰值63%T-8399 · Webhook 失败重试
Vertex Legal注册名 vertex_admin · ORG-100421私有模型 · KMS Vault · 长审计企业Enterprise 正常47%T-8102 · DPA 附件归档
Luma Commerce注册名 kai_luma · WS-11872电商监控 · 表格写入 · Notion 正常团队 / 小微Pro 需扩容91%T-8416 · Slack 授权过期
陈若安注册名 chen_ruoan · UID-774201代码助手 · GitHub · 本地设备 1 台个人Pro Trial 试用中36%T-8384 · 登录设备确认
Grain Robotics注册名 grain_cto · ORG-100619GPU Worker · 代码沙箱 · 私有池企业Enterprise 正常39%T-8244 · Worker 离线已恢复
周米拉注册名 mira_zhou · UID-661902内容草稿 · Notion · 邮件只读个人Free 支付待确认74%T-8372 · 订单回调未入账
Bluebell School注册名 bluebell_admin · WS-19022课程编排 · Google Workspace 待复核团队 / 小微Pro 冻结28%T-8361 · 学生资料权限复核

Device mesh

设备网格、派发队列和本地隐私任务

17 台离线
运维口径

设备网格要先看在线设备、任务派发、连接方式和隐私边界。敏感任务的本地设备不可用时,不自动回云端,必须走人工确认或客户策略。

736注册设备Mac / PC / Worker / 硬件盒子
683在线设备92.8% 可派发
17离线需复核6 台影响隐私任务
128运行中任务NATS 派发队列
5HITL 阻塞等待手机 / Web 确认
0x本地计费私有 Worker 不计云 units
拓扑分布在线设备与任务占比
最近 15 分钟
Mac / PC436 在线 · 61% 任务
GPU Worker42 在线 · 22% 重任务
手机 App208 在线 · 审批 / 通知
KarmaBox 硬件56 在线 · 本地常驻
HITL 通道人工确认入口
阻塞 5
WebSocket 手机 App Telegram 飞书待接入 钉钉待接入 企业微信待接入
显示 5 / 736

Connector Vault

连接器授权、Token 刷新和权限边界

27 个 token 待刷新
处理原则

连接器异常要按 Provider、客户、scope、回调和 refresh token 失败类型拆开看。后台只展示状态和审计证据,不展示密钥明文;扩大权限、暂停写入和重新授权都必须留痕。

Vault coverage OAuth / App token
1,904

授权实例覆盖个人、企业工作区和 App Installation;后台只看状态、scope、刷新记录和审计证据。

密钥不明文展示365 天审计留存
Provider health刷新失败与待处理分布
最近 24 小时
Slack17 待刷新
Gmail8 待刷新
GitHub正常
Notion2 待刷新
Permission matrix权限动作边界
Fail closed
读取repo / drive / channel 草稿PR draft / 邮件草稿 写入审批后评论 / 表格写入 高风险发送 / 部署 / 外部提交
显示 5 / 1,904

Expert content

专家、行业包、知识库和工作流审核

41 个待处理
发布原则

专家内容不是文案库。发布前必须同时检查 Expert YAML、知识库来源、工作流节点、工具权限、试跑结果和客户影响;高风险外部动作必须进入审批。

Published library32 个行业包
128

已发布专家、专家团和行业包。点击下面指标可以进入对应队列、查看风险、试跑结果和发布证据。

版本可回滚发布需留痕
Publish pipeline内容发布四段检查
Fail closed
Quality risks待处理风险分布
最近 7 天
显示 5 / 128

Automation

工作流、Webhook、定时任务和产出物治理

9 个等待人审
运行原则

自动化不是无人值守黑盒。每条链路都要能看到触发源、输入映射、工具权限、人审节点、输出物、失败退避和审计记录;外部写入、发送、部署类动作必须 fail closed。

Automation planeVWF / WH / SCH
96

运行中的工作流、Webhook、定时任务和记忆归档策略。点击指标可进入对应队列和右侧详情。

HMAC 验签幂等键Run lock
Execution path触发到交付的六段链路
可点击定位
显示 5 / 96

Commerce operations

订阅、订单、发票、兑换和赔付

12 个待财务复核
资金原则

所有涉及客户资金、余额、token 流量、订阅天数和发票的动作都必须有订单、支付回调、审批人、执行人和审计记录;赔付只允许通过草稿和审批执行。

Money ledger订单 / 发票 / 赔付
¥184.7K

今日待确认资金流水,覆盖订阅购买、企业月结、兑换码和客户赔付。

不直接改余额审批后执行全量审计
显示 5 / 703

After-sales desk

订阅、发票、兑换和赔付售后处理

18 个待回复
处理原则

客户资金相关售后必须能关联订单、发票、兑换记录、用量证据、赔付草稿和客服回复。任何补偿、退款或订阅天数调整都先进入审批和审计。

Support ledgerSLA / evidence / reply
64

打开中的售后工单,覆盖购买订阅、发票、兑换、退款和故障赔付。

SLA 计时证据链回访记录
显示 5 / 64

Frontend experience

前端体验、购买页和动作策略

8 个策略在线
配置原则

用户端只展示清晰结果,后台配置形象、动作、购买订阅页文案、灰度实验和回滚策略;价格、权益和发票入口不能写死在前端。

购买订阅页管理套餐卡片、待定价格、购物车空态、发票入口、兑换入口和安全提示。
形象素材库官方形象、照片生成模板、宠物形象、授权灵感形象;每个素材绑定版本、许可和可见人群。
动作包管理Rive、Lottie、Live2D、VRM 动作按场景编排,用户端只看到自然反馈。
灰度与回滚按套餐、地区、设备性能和实验组灰度;每次策略变更保留操作者和回滚条件。

Skill registry

Skill 注册、人审、权限和租户安全

6 个高风险待审
安全原则

Skill 不是普通插件。每个 Skill 必须声明 manifest、工具权限、外部动作、数据边界、sandbox smoke 证据和 HITL 策略;高风险动作必须审批后执行。

github_pr_review通过 manifest 检查,缺少 Docker smoke 证据;PR 评论属于写入动作。
browser_auto_submit包含外部提交动作,必须绑定 HITL policy 和敏感数据确认。
tenant_boundary检查 Supabase Auth、httpOnly cookie、BFF user_id 覆盖和项目空间隔离。
admin_audit专家发布、connector provider、skill promote、赔付和订阅调整都要求管理员权限。

Execution queue

审批后执行、失败重试和回滚队列

9 个待执行
执行原则

审批中心只决定能不能做,执行中心负责把批准动作真正写入系统,并追踪执行状态、失败原因、重试次数、回滚窗口和审计编号。

Action runnerapproved changes
27

等待执行或需要复核的后台动作,覆盖账户、Key、资金、路由、连接器和 Skill 发布。

审批后执行失败可重试回滚留痕

Risk watch

滥用、盗号、异常兑换和成本风险

14 个高风险
风控口径

风险等级由系统规则、异常检测和人工复核共同形成:系统先给分,管理员可补充证据和人工定级;冻结、关停和 Key 禁用仍需审批或双人确认。

Risk scoreabuse / fraud / cost
83

最高风险事件来自 API Key 异常调用、兑换码批量撞库、企业账号异地登录和模型成本突增。

系统评分人工复核证据留存

Config registry

套餐、阈值、公告和灰度配置

42 个配置在线
配置原则

价格、配额、模型探测阈值、公告模板、功能灰度和地区策略都不能硬写在前端。配置中心保存版本、差异、灰度范围、审批状态和回滚点。

价格与权益Free / Pro / Max / Enterprise 的价格、试用、兑换、发票入口和权益说明。资金页承接
Provider 阈值连通率、P95、429 burst、fallback 成本和主备切换条件。资源池承接
前端公告购买页、登录页、状态页、支付异常和维护公告模板。体验页承接
地区与隐私数据驻留、审计周期、跨区禁用、企业白名单和 DPA 模板。合规页承接

Compliance reports

隐私请求、审计导出和经营报表

7 个待归档
合规原则

隐私、审计、DPA、删除请求、经营报表和财务证据需要统一留档。合规页不直接修改客户权益,只生成证据包、分派负责人、触发审批和导出报表。

Evidence packprivacy / audit / finance
19

本周需要归档的证据包,覆盖企业审计、数据导出、删除请求、DPA 附件和经营报表。

可追溯可导出权限分级