feat(skills): complete multi-agent collaboration framework

## Skills Ecosystem (60+ Skills)
- Engineering: 7 skills (ai-engineer, backend-architect, etc.)
- Testing: 8 skills (reality-checker, evidence-collector, etc.)
- Support: 6 skills (support-responder, analytics-reporter, etc.)
- Design: 7 skills (ux-architect, brand-guardian, etc.)
- Product: 3 skills (sprint-prioritizer, trend-researcher, etc.)
- Marketing: 4+ skills (growth-hacker, content-creator, etc.)
- PM: 5 skills (studio-producer, project-shepherd, etc.)
- Spatial: 6 skills (visionos-spatial-engineer, etc.)
- Specialized: 6 skills (agents-orchestrator, etc.)

## Collaboration Framework
- Coordination protocols (handoff-templates, agent-activation)
- 7-phase playbooks (Discovery → Operate)
- Standardized skill template for consistency

## Quality Improvements
- Each skill now includes: Identity, Mission, Workflow, Deliverable Format
- Collaboration triggers define when to invoke other agents
- Success metrics provide measurable quality standards

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
iven
2026-03-15 03:07:31 +08:00
parent 0139b20e5a
commit d64903ba21
65 changed files with 12021 additions and 11 deletions

View File

@@ -0,0 +1,198 @@
# Phase 6: Operate Playbook
> 运营阶段 - 持续监控、维护、优化
---
## 阶段目标
确保系统稳定运行,持续监控性能,快速响应问题,推动持续改进。
## 输入文档
从 Phase 5 接收:
1. 生产部署确认
2. 监控配置
3. 发布报告
4. 已知问题列表
## 激活 Agents
| Agent | 角色 | 触发条件 |
|-------|------|----------|
| **Infrastructure Maintainer** | 基础设施维护 | 持续 |
| **Support Responder** | 用户支持 | 按需 |
| **Performance Benchmarker** | 性能监控 | 定时/告警 |
| **Analytics Reporter** | 数据分析 | 每周 |
| **Legal Compliance Checker** | 合规检查 | 每月 |
## 运营活动
### 1. 日常监控 (Daily)
**Infrastructure Maintainer 执行**:
```markdown
## Daily Health Check
### 系统健康
| 指标 | 当前值 | 阈值 | 状态 |
|------|--------|------|------|
| 可用性 | [值] | > 99.9% | ✅/⚠️/❌ |
| 错误率 | [值] | < 0.1% | ✅/⚠/❌ |
| P95 延迟 | [] | < 200ms | ✅/⚠/❌ |
| CPU 使用 | [] | < 70% | ✅/⚠/❌ |
| 内存使用 | [] | < 80% | ✅/⚠/❌ |
| 磁盘使用 | [] | < 80% | ✅/⚠/❌ |
### 告警回顾
- [日期] [告警类型] - [处理状态]
- [日期] [告警类型] - [处理状态]
### 备份验证
- 数据库备份:
- 文件备份:
- 配置备份:
```
### 2. 周报 (Weekly)
**Analytics Reporter 执行**:
```markdown
## Weekly Operations Report
### 关键指标趋势
| 指标 | 本周 | 上周 | 变化 |
|------|------|------|------|
| DAU | [值] | [值] | [±%] |
| 请求量 | [值] | [值] | [±%] |
| 错误率 | [值] | [值] | [±%] |
| 平均延迟 | [值] | [值] | [±%] |
### 事件摘要
- 总事件: [数量]
- P0: [数量]
- P1: [数量]
- P2: [数量]
- MTTR: [平均恢复时间]
### 用户反馈
- 新工单: [数量]
- 解决: [数量]
- 待处理: [数量]
- 满意度: [评分]
### 下周计划
1. [计划项 1]
2. [计划项 2]
```
### 3. 事件响应 (On-Demand)
**事件分级**:
| 级别 | 定义 | 响应时间 | 升级时间 |
|------|------|----------|----------|
| P0 | 服务完全不可用 | 5 分钟 | 30 分钟 |
| P1 | 核心功能受影响 | 15 分钟 | 1 小时 |
| P2 | 部分功能受影响 | 1 小时 | 4 小时 |
| P3 | 小问题/建议 | 1 工作日 | 1 周 |
**事件处理流程**:
```
┌─────────────────────────────────────────────────────────────┐
│ Incident Response Flow │
├─────────────────────────────────────────────────────────────┤
│ │
│ 告警触发 │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 确认影响 │ ← 评估范围和严重程度 │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 建立渠道 │ ← 创建 Slack channel / 会议室 │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 止血措施 │ ← 快速恢复服务 (回滚/重启/切换) │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 根因分析 │ ← 确定根本原因 │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 永久修复 │ ← 防止再次发生 │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 事后复盘 │ ← 文档化经验教训 │
│ └─────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
```
### 4. 合规检查 (Monthly)
**Legal Compliance Checker 执行**:
- [ ] 数据保留政策执行
- [ ] 隐私政策更新
- [ ] 安全补丁应用
- [ ] 访问权限审查
- [ ] 合规报告生成
## 持续改进
### 技术债务管理
```markdown
## Tech Debt Register
| # | 项目 | 影响 | 优先级 | 计划 Sprint |
|---|------|------|--------|-------------|
| 1 | [债务描述] | High | P1 | Sprint X |
| 2 | [债务描述] | Medium | P2 | Sprint Y |
```
### 性能优化机会
- 识别慢查询
- 监控资源使用趋势
- 评估新技术方案
## 自动化维护
### 定时任务
| 任务 | 频率 | 执行者 |
|------|------|--------|
| 日志轮转 | 每日 | Infrastructure Maintainer |
| 备份验证 | 每日 | Infrastructure Maintainer |
| 安全扫描 | 每周 | Security Engineer |
| 依赖更新 | 每月 | DevOps Automator |
| 成本审查 | 每月 | Finance Tracker |
## 升级触发
当出现以下情况时,考虑启动新的迭代:
- 用户需求积压超过阈值
- 技术债务影响开发效率
- 性能下降超过 20%
- 安全漏洞需要修复
- 新功能需求
---
**持续时间**: 持续进行
**升级路径**: 启动 Phase 0-1 进行新功能开发