Files
zclaw_openfang/skills/.playbooks/phase-6-operate.md
iven d64903ba21 feat(skills): complete multi-agent collaboration framework
## Skills Ecosystem (60+ Skills)
- Engineering: 7 skills (ai-engineer, backend-architect, etc.)
- Testing: 8 skills (reality-checker, evidence-collector, etc.)
- Support: 6 skills (support-responder, analytics-reporter, etc.)
- Design: 7 skills (ux-architect, brand-guardian, etc.)
- Product: 3 skills (sprint-prioritizer, trend-researcher, etc.)
- Marketing: 4+ skills (growth-hacker, content-creator, etc.)
- PM: 5 skills (studio-producer, project-shepherd, etc.)
- Spatial: 6 skills (visionos-spatial-engineer, etc.)
- Specialized: 6 skills (agents-orchestrator, etc.)

## Collaboration Framework
- Coordination protocols (handoff-templates, agent-activation)
- 7-phase playbooks (Discovery → Operate)
- Standardized skill template for consistency

## Quality Improvements
- Each skill now includes: Identity, Mission, Workflow, Deliverable Format
- Collaboration triggers define when to invoke other agents
- Success metrics provide measurable quality standards

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-15 03:07:31 +08:00

6.8 KiB
Raw Blame History

Phase 6: Operate Playbook

运营阶段 - 持续监控、维护、优化


阶段目标

确保系统稳定运行,持续监控性能,快速响应问题,推动持续改进。

输入文档

从 Phase 5 接收:

  1. 生产部署确认
  2. 监控配置
  3. 发布报告
  4. 已知问题列表

激活 Agents

Agent 角色 触发条件
Infrastructure Maintainer 基础设施维护 持续
Support Responder 用户支持 按需
Performance Benchmarker 性能监控 定时/告警
Analytics Reporter 数据分析 每周
Legal Compliance Checker 合规检查 每月

运营活动

1. 日常监控 (Daily)

Infrastructure Maintainer 执行:

## Daily Health Check

### 系统健康
| 指标 | 当前值 | 阈值 | 状态 |
|------|--------|------|------|
| 可用性 | [值] | > 99.9% | ✅/⚠️/❌ |
| 错误率 | [值] | < 0.1% | ✅/⚠/❌ |
| P95 延迟 | [] | < 200ms | ✅/⚠/❌ |
| CPU 使用 | [] | < 70% | ✅/⚠/❌ |
| 内存使用 | [] | < 80% | ✅/⚠/❌ |
| 磁盘使用 | [] | < 80% | ✅/⚠/❌ |

### 告警回顾
- [日期] [告警类型] - [处理状态]
- [日期] [告警类型] - [处理状态]

### 备份验证
- 数据库备份: 
- 文件备份: 
- 配置备份: 

2. 周报 (Weekly)

Analytics Reporter 执行:

## Weekly Operations Report

### 关键指标趋势
| 指标 | 本周 | 上周 | 变化 |
|------|------|------|------|
| DAU | [值] | [值] | [±%] |
| 请求量 | [值] | [值] | [±%] |
| 错误率 | [值] | [值] | [±%] |
| 平均延迟 | [值] | [值] | [±%] |

### 事件摘要
- 总事件: [数量]
- P0: [数量]
- P1: [数量]
- P2: [数量]
- MTTR: [平均恢复时间]

### 用户反馈
- 新工单: [数量]
- 解决: [数量]
- 待处理: [数量]
- 满意度: [评分]

### 下周计划
1. [计划项 1]
2. [计划项 2]

3. 事件响应 (On-Demand)

事件分级:

级别 定义 响应时间 升级时间
P0 服务完全不可用 5 分钟 30 分钟
P1 核心功能受影响 15 分钟 1 小时
P2 部分功能受影响 1 小时 4 小时
P3 小问题/建议 1 工作日 1 周

事件处理流程:

┌─────────────────────────────────────────────────────────────┐
│                    Incident Response Flow                    │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   告警触发                                                   │
│      │                                                      │
│      ▼                                                      │
│   ┌─────────────┐                                           │
│   │ 确认影响    │ ← 评估范围和严重程度                       │
│   └──────┬──────┘                                           │
│          │                                                  │
│          ▼                                                  │
│   ┌─────────────┐                                           │
│   │ 建立渠道    │ ← 创建 Slack channel / 会议室             │
│   └──────┬──────┘                                           │
│          │                                                  │
│          ▼                                                  │
│   ┌─────────────┐                                           │
│   │ 止血措施    │ ← 快速恢复服务 (回滚/重启/切换)           │
│   └──────┬──────┘                                           │
│          │                                                  │
│          ▼                                                  │
│   ┌─────────────┐                                           │
│   │ 根因分析    │ ← 确定根本原因                             │
│   └──────┬──────┘                                           │
│          │                                                  │
│          ▼                                                  │
│   ┌─────────────┐                                           │
│   │ 永久修复    │ ← 防止再次发生                             │
│   └──────┬──────┘                                           │
│          │                                                  │
│          ▼                                                  │
│   ┌─────────────┐                                           │
│   │ 事后复盘    │ ← 文档化经验教训                           │
│   └─────────────┘                                           │
│                                                             │
└─────────────────────────────────────────────────────────────┘

4. 合规检查 (Monthly)

Legal Compliance Checker 执行:

  • 数据保留政策执行
  • 隐私政策更新
  • 安全补丁应用
  • 访问权限审查
  • 合规报告生成

持续改进

技术债务管理

## Tech Debt Register

| # | 项目 | 影响 | 优先级 | 计划 Sprint |
|---|------|------|--------|-------------|
| 1 | [债务描述] | High | P1 | Sprint X |
| 2 | [债务描述] | Medium | P2 | Sprint Y |

性能优化机会

  • 识别慢查询
  • 监控资源使用趋势
  • 评估新技术方案

自动化维护

定时任务

任务 频率 执行者
日志轮转 每日 Infrastructure Maintainer
备份验证 每日 Infrastructure Maintainer
安全扫描 每周 Security Engineer
依赖更新 每月 DevOps Automator
成本审查 每月 Finance Tracker

升级触发

当出现以下情况时,考虑启动新的迭代:

  • 用户需求积压超过阈值
  • 技术债务影响开发效率
  • 性能下降超过 20%
  • 安全漏洞需要修复
  • 新功能需求

持续时间: 持续进行 升级路径: 启动 Phase 0-1 进行新功能开发