Files
zclaw_openfang/skills/.playbooks/phase-6-operate.md
iven d64903ba21 feat(skills): complete multi-agent collaboration framework
## Skills Ecosystem (60+ Skills)
- Engineering: 7 skills (ai-engineer, backend-architect, etc.)
- Testing: 8 skills (reality-checker, evidence-collector, etc.)
- Support: 6 skills (support-responder, analytics-reporter, etc.)
- Design: 7 skills (ux-architect, brand-guardian, etc.)
- Product: 3 skills (sprint-prioritizer, trend-researcher, etc.)
- Marketing: 4+ skills (growth-hacker, content-creator, etc.)
- PM: 5 skills (studio-producer, project-shepherd, etc.)
- Spatial: 6 skills (visionos-spatial-engineer, etc.)
- Specialized: 6 skills (agents-orchestrator, etc.)

## Collaboration Framework
- Coordination protocols (handoff-templates, agent-activation)
- 7-phase playbooks (Discovery → Operate)
- Standardized skill template for consistency

## Quality Improvements
- Each skill now includes: Identity, Mission, Workflow, Deliverable Format
- Collaboration triggers define when to invoke other agents
- Success metrics provide measurable quality standards

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-15 03:07:31 +08:00

199 lines
6.8 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Phase 6: Operate Playbook
> 运营阶段 - 持续监控、维护、优化
---
## 阶段目标
确保系统稳定运行,持续监控性能,快速响应问题,推动持续改进。
## 输入文档
从 Phase 5 接收:
1. 生产部署确认
2. 监控配置
3. 发布报告
4. 已知问题列表
## 激活 Agents
| Agent | 角色 | 触发条件 |
|-------|------|----------|
| **Infrastructure Maintainer** | 基础设施维护 | 持续 |
| **Support Responder** | 用户支持 | 按需 |
| **Performance Benchmarker** | 性能监控 | 定时/告警 |
| **Analytics Reporter** | 数据分析 | 每周 |
| **Legal Compliance Checker** | 合规检查 | 每月 |
## 运营活动
### 1. 日常监控 (Daily)
**Infrastructure Maintainer 执行**:
```markdown
## Daily Health Check
### 系统健康
| 指标 | 当前值 | 阈值 | 状态 |
|------|--------|------|------|
| 可用性 | [值] | > 99.9% | ✅/⚠️/❌ |
| 错误率 | [值] | < 0.1% | ✅/⚠/❌ |
| P95 延迟 | [] | < 200ms | ✅/⚠/❌ |
| CPU 使用 | [] | < 70% | ✅/⚠/❌ |
| 内存使用 | [] | < 80% | ✅/⚠/❌ |
| 磁盘使用 | [] | < 80% | ✅/⚠/❌ |
### 告警回顾
- [日期] [告警类型] - [处理状态]
- [日期] [告警类型] - [处理状态]
### 备份验证
- 数据库备份:
- 文件备份:
- 配置备份:
```
### 2. 周报 (Weekly)
**Analytics Reporter 执行**:
```markdown
## Weekly Operations Report
### 关键指标趋势
| 指标 | 本周 | 上周 | 变化 |
|------|------|------|------|
| DAU | [值] | [值] | [±%] |
| 请求量 | [值] | [值] | [±%] |
| 错误率 | [值] | [值] | [±%] |
| 平均延迟 | [值] | [值] | [±%] |
### 事件摘要
- 总事件: [数量]
- P0: [数量]
- P1: [数量]
- P2: [数量]
- MTTR: [平均恢复时间]
### 用户反馈
- 新工单: [数量]
- 解决: [数量]
- 待处理: [数量]
- 满意度: [评分]
### 下周计划
1. [计划项 1]
2. [计划项 2]
```
### 3. 事件响应 (On-Demand)
**事件分级**:
| 级别 | 定义 | 响应时间 | 升级时间 |
|------|------|----------|----------|
| P0 | 服务完全不可用 | 5 分钟 | 30 分钟 |
| P1 | 核心功能受影响 | 15 分钟 | 1 小时 |
| P2 | 部分功能受影响 | 1 小时 | 4 小时 |
| P3 | 小问题/建议 | 1 工作日 | 1 周 |
**事件处理流程**:
```
┌─────────────────────────────────────────────────────────────┐
│ Incident Response Flow │
├─────────────────────────────────────────────────────────────┤
│ │
│ 告警触发 │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 确认影响 │ ← 评估范围和严重程度 │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 建立渠道 │ ← 创建 Slack channel / 会议室 │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 止血措施 │ ← 快速恢复服务 (回滚/重启/切换) │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 根因分析 │ ← 确定根本原因 │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 永久修复 │ ← 防止再次发生 │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 事后复盘 │ ← 文档化经验教训 │
│ └─────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
```
### 4. 合规检查 (Monthly)
**Legal Compliance Checker 执行**:
- [ ] 数据保留政策执行
- [ ] 隐私政策更新
- [ ] 安全补丁应用
- [ ] 访问权限审查
- [ ] 合规报告生成
## 持续改进
### 技术债务管理
```markdown
## Tech Debt Register
| # | 项目 | 影响 | 优先级 | 计划 Sprint |
|---|------|------|--------|-------------|
| 1 | [债务描述] | High | P1 | Sprint X |
| 2 | [债务描述] | Medium | P2 | Sprint Y |
```
### 性能优化机会
- 识别慢查询
- 监控资源使用趋势
- 评估新技术方案
## 自动化维护
### 定时任务
| 任务 | 频率 | 执行者 |
|------|------|--------|
| 日志轮转 | 每日 | Infrastructure Maintainer |
| 备份验证 | 每日 | Infrastructure Maintainer |
| 安全扫描 | 每周 | Security Engineer |
| 依赖更新 | 每月 | DevOps Automator |
| 成本审查 | 每月 | Finance Tracker |
## 升级触发
当出现以下情况时,考虑启动新的迭代:
- 用户需求积压超过阈值
- 技术债务影响开发效率
- 性能下降超过 20%
- 安全漏洞需要修复
- 新功能需求
---
**持续时间**: 持续进行
**升级路径**: 启动 Phase 0-1 进行新功能开发