## Skills Ecosystem (60+ Skills) - Engineering: 7 skills (ai-engineer, backend-architect, etc.) - Testing: 8 skills (reality-checker, evidence-collector, etc.) - Support: 6 skills (support-responder, analytics-reporter, etc.) - Design: 7 skills (ux-architect, brand-guardian, etc.) - Product: 3 skills (sprint-prioritizer, trend-researcher, etc.) - Marketing: 4+ skills (growth-hacker, content-creator, etc.) - PM: 5 skills (studio-producer, project-shepherd, etc.) - Spatial: 6 skills (visionos-spatial-engineer, etc.) - Specialized: 6 skills (agents-orchestrator, etc.) ## Collaboration Framework - Coordination protocols (handoff-templates, agent-activation) - 7-phase playbooks (Discovery → Operate) - Standardized skill template for consistency ## Quality Improvements - Each skill now includes: Identity, Mission, Workflow, Deliverable Format - Collaboration triggers define when to invoke other agents - Success metrics provide measurable quality standards Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
199 lines
6.8 KiB
Markdown
199 lines
6.8 KiB
Markdown
# Phase 6: Operate Playbook
|
||
|
||
> 运营阶段 - 持续监控、维护、优化
|
||
|
||
---
|
||
|
||
## 阶段目标
|
||
|
||
确保系统稳定运行,持续监控性能,快速响应问题,推动持续改进。
|
||
|
||
## 输入文档
|
||
|
||
从 Phase 5 接收:
|
||
1. 生产部署确认
|
||
2. 监控配置
|
||
3. 发布报告
|
||
4. 已知问题列表
|
||
|
||
## 激活 Agents
|
||
|
||
| Agent | 角色 | 触发条件 |
|
||
|-------|------|----------|
|
||
| **Infrastructure Maintainer** | 基础设施维护 | 持续 |
|
||
| **Support Responder** | 用户支持 | 按需 |
|
||
| **Performance Benchmarker** | 性能监控 | 定时/告警 |
|
||
| **Analytics Reporter** | 数据分析 | 每周 |
|
||
| **Legal Compliance Checker** | 合规检查 | 每月 |
|
||
|
||
## 运营活动
|
||
|
||
### 1. 日常监控 (Daily)
|
||
|
||
**Infrastructure Maintainer 执行**:
|
||
|
||
```markdown
|
||
## Daily Health Check
|
||
|
||
### 系统健康
|
||
| 指标 | 当前值 | 阈值 | 状态 |
|
||
|------|--------|------|------|
|
||
| 可用性 | [值] | > 99.9% | ✅/⚠️/❌ |
|
||
| 错误率 | [值] | < 0.1% | ✅/⚠️/❌ |
|
||
| P95 延迟 | [值] | < 200ms | ✅/⚠️/❌ |
|
||
| CPU 使用 | [值] | < 70% | ✅/⚠️/❌ |
|
||
| 内存使用 | [值] | < 80% | ✅/⚠️/❌ |
|
||
| 磁盘使用 | [值] | < 80% | ✅/⚠️/❌ |
|
||
|
||
### 告警回顾
|
||
- [日期] [告警类型] - [处理状态]
|
||
- [日期] [告警类型] - [处理状态]
|
||
|
||
### 备份验证
|
||
- 数据库备份: ✅
|
||
- 文件备份: ✅
|
||
- 配置备份: ✅
|
||
```
|
||
|
||
### 2. 周报 (Weekly)
|
||
|
||
**Analytics Reporter 执行**:
|
||
|
||
```markdown
|
||
## Weekly Operations Report
|
||
|
||
### 关键指标趋势
|
||
| 指标 | 本周 | 上周 | 变化 |
|
||
|------|------|------|------|
|
||
| DAU | [值] | [值] | [±%] |
|
||
| 请求量 | [值] | [值] | [±%] |
|
||
| 错误率 | [值] | [值] | [±%] |
|
||
| 平均延迟 | [值] | [值] | [±%] |
|
||
|
||
### 事件摘要
|
||
- 总事件: [数量]
|
||
- P0: [数量]
|
||
- P1: [数量]
|
||
- P2: [数量]
|
||
- MTTR: [平均恢复时间]
|
||
|
||
### 用户反馈
|
||
- 新工单: [数量]
|
||
- 解决: [数量]
|
||
- 待处理: [数量]
|
||
- 满意度: [评分]
|
||
|
||
### 下周计划
|
||
1. [计划项 1]
|
||
2. [计划项 2]
|
||
```
|
||
|
||
### 3. 事件响应 (On-Demand)
|
||
|
||
**事件分级**:
|
||
|
||
| 级别 | 定义 | 响应时间 | 升级时间 |
|
||
|------|------|----------|----------|
|
||
| P0 | 服务完全不可用 | 5 分钟 | 30 分钟 |
|
||
| P1 | 核心功能受影响 | 15 分钟 | 1 小时 |
|
||
| P2 | 部分功能受影响 | 1 小时 | 4 小时 |
|
||
| P3 | 小问题/建议 | 1 工作日 | 1 周 |
|
||
|
||
**事件处理流程**:
|
||
|
||
```
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ Incident Response Flow │
|
||
├─────────────────────────────────────────────────────────────┤
|
||
│ │
|
||
│ 告警触发 │
|
||
│ │ │
|
||
│ ▼ │
|
||
│ ┌─────────────┐ │
|
||
│ │ 确认影响 │ ← 评估范围和严重程度 │
|
||
│ └──────┬──────┘ │
|
||
│ │ │
|
||
│ ▼ │
|
||
│ ┌─────────────┐ │
|
||
│ │ 建立渠道 │ ← 创建 Slack channel / 会议室 │
|
||
│ └──────┬──────┘ │
|
||
│ │ │
|
||
│ ▼ │
|
||
│ ┌─────────────┐ │
|
||
│ │ 止血措施 │ ← 快速恢复服务 (回滚/重启/切换) │
|
||
│ └──────┬──────┘ │
|
||
│ │ │
|
||
│ ▼ │
|
||
│ ┌─────────────┐ │
|
||
│ │ 根因分析 │ ← 确定根本原因 │
|
||
│ └──────┬──────┘ │
|
||
│ │ │
|
||
│ ▼ │
|
||
│ ┌─────────────┐ │
|
||
│ │ 永久修复 │ ← 防止再次发生 │
|
||
│ └──────┬──────┘ │
|
||
│ │ │
|
||
│ ▼ │
|
||
│ ┌─────────────┐ │
|
||
│ │ 事后复盘 │ ← 文档化经验教训 │
|
||
│ └─────────────┘ │
|
||
│ │
|
||
└─────────────────────────────────────────────────────────────┘
|
||
```
|
||
|
||
### 4. 合规检查 (Monthly)
|
||
|
||
**Legal Compliance Checker 执行**:
|
||
|
||
- [ ] 数据保留政策执行
|
||
- [ ] 隐私政策更新
|
||
- [ ] 安全补丁应用
|
||
- [ ] 访问权限审查
|
||
- [ ] 合规报告生成
|
||
|
||
## 持续改进
|
||
|
||
### 技术债务管理
|
||
|
||
```markdown
|
||
## Tech Debt Register
|
||
|
||
| # | 项目 | 影响 | 优先级 | 计划 Sprint |
|
||
|---|------|------|--------|-------------|
|
||
| 1 | [债务描述] | High | P1 | Sprint X |
|
||
| 2 | [债务描述] | Medium | P2 | Sprint Y |
|
||
```
|
||
|
||
### 性能优化机会
|
||
|
||
- 识别慢查询
|
||
- 监控资源使用趋势
|
||
- 评估新技术方案
|
||
|
||
## 自动化维护
|
||
|
||
### 定时任务
|
||
|
||
| 任务 | 频率 | 执行者 |
|
||
|------|------|--------|
|
||
| 日志轮转 | 每日 | Infrastructure Maintainer |
|
||
| 备份验证 | 每日 | Infrastructure Maintainer |
|
||
| 安全扫描 | 每周 | Security Engineer |
|
||
| 依赖更新 | 每月 | DevOps Automator |
|
||
| 成本审查 | 每月 | Finance Tracker |
|
||
|
||
## 升级触发
|
||
|
||
当出现以下情况时,考虑启动新的迭代:
|
||
|
||
- 用户需求积压超过阈值
|
||
- 技术债务影响开发效率
|
||
- 性能下降超过 20%
|
||
- 安全漏洞需要修复
|
||
- 新功能需求
|
||
|
||
---
|
||
|
||
**持续时间**: 持续进行
|
||
**升级路径**: 启动 Phase 0-1 进行新功能开发
|