## Skills Ecosystem (60+ Skills) - Engineering: 7 skills (ai-engineer, backend-architect, etc.) - Testing: 8 skills (reality-checker, evidence-collector, etc.) - Support: 6 skills (support-responder, analytics-reporter, etc.) - Design: 7 skills (ux-architect, brand-guardian, etc.) - Product: 3 skills (sprint-prioritizer, trend-researcher, etc.) - Marketing: 4+ skills (growth-hacker, content-creator, etc.) - PM: 5 skills (studio-producer, project-shepherd, etc.) - Spatial: 6 skills (visionos-spatial-engineer, etc.) - Specialized: 6 skills (agents-orchestrator, etc.) ## Collaboration Framework - Coordination protocols (handoff-templates, agent-activation) - 7-phase playbooks (Discovery → Operate) - Standardized skill template for consistency ## Quality Improvements - Each skill now includes: Identity, Mission, Workflow, Deliverable Format - Collaboration triggers define when to invoke other agents - Success metrics provide measurable quality standards Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
6.8 KiB
6.8 KiB
Phase 6: Operate Playbook
运营阶段 - 持续监控、维护、优化
阶段目标
确保系统稳定运行,持续监控性能,快速响应问题,推动持续改进。
输入文档
从 Phase 5 接收:
- 生产部署确认
- 监控配置
- 发布报告
- 已知问题列表
激活 Agents
| Agent | 角色 | 触发条件 |
|---|---|---|
| Infrastructure Maintainer | 基础设施维护 | 持续 |
| Support Responder | 用户支持 | 按需 |
| Performance Benchmarker | 性能监控 | 定时/告警 |
| Analytics Reporter | 数据分析 | 每周 |
| Legal Compliance Checker | 合规检查 | 每月 |
运营活动
1. 日常监控 (Daily)
Infrastructure Maintainer 执行:
## Daily Health Check
### 系统健康
| 指标 | 当前值 | 阈值 | 状态 |
|------|--------|------|------|
| 可用性 | [值] | > 99.9% | ✅/⚠️/❌ |
| 错误率 | [值] | < 0.1% | ✅/⚠️/❌ |
| P95 延迟 | [值] | < 200ms | ✅/⚠️/❌ |
| CPU 使用 | [值] | < 70% | ✅/⚠️/❌ |
| 内存使用 | [值] | < 80% | ✅/⚠️/❌ |
| 磁盘使用 | [值] | < 80% | ✅/⚠️/❌ |
### 告警回顾
- [日期] [告警类型] - [处理状态]
- [日期] [告警类型] - [处理状态]
### 备份验证
- 数据库备份: ✅
- 文件备份: ✅
- 配置备份: ✅
2. 周报 (Weekly)
Analytics Reporter 执行:
## Weekly Operations Report
### 关键指标趋势
| 指标 | 本周 | 上周 | 变化 |
|------|------|------|------|
| DAU | [值] | [值] | [±%] |
| 请求量 | [值] | [值] | [±%] |
| 错误率 | [值] | [值] | [±%] |
| 平均延迟 | [值] | [值] | [±%] |
### 事件摘要
- 总事件: [数量]
- P0: [数量]
- P1: [数量]
- P2: [数量]
- MTTR: [平均恢复时间]
### 用户反馈
- 新工单: [数量]
- 解决: [数量]
- 待处理: [数量]
- 满意度: [评分]
### 下周计划
1. [计划项 1]
2. [计划项 2]
3. 事件响应 (On-Demand)
事件分级:
| 级别 | 定义 | 响应时间 | 升级时间 |
|---|---|---|---|
| P0 | 服务完全不可用 | 5 分钟 | 30 分钟 |
| P1 | 核心功能受影响 | 15 分钟 | 1 小时 |
| P2 | 部分功能受影响 | 1 小时 | 4 小时 |
| P3 | 小问题/建议 | 1 工作日 | 1 周 |
事件处理流程:
┌─────────────────────────────────────────────────────────────┐
│ Incident Response Flow │
├─────────────────────────────────────────────────────────────┤
│ │
│ 告警触发 │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 确认影响 │ ← 评估范围和严重程度 │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 建立渠道 │ ← 创建 Slack channel / 会议室 │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 止血措施 │ ← 快速恢复服务 (回滚/重启/切换) │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 根因分析 │ ← 确定根本原因 │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 永久修复 │ ← 防止再次发生 │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ 事后复盘 │ ← 文档化经验教训 │
│ └─────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
4. 合规检查 (Monthly)
Legal Compliance Checker 执行:
- 数据保留政策执行
- 隐私政策更新
- 安全补丁应用
- 访问权限审查
- 合规报告生成
持续改进
技术债务管理
## Tech Debt Register
| # | 项目 | 影响 | 优先级 | 计划 Sprint |
|---|------|------|--------|-------------|
| 1 | [债务描述] | High | P1 | Sprint X |
| 2 | [债务描述] | Medium | P2 | Sprint Y |
性能优化机会
- 识别慢查询
- 监控资源使用趋势
- 评估新技术方案
自动化维护
定时任务
| 任务 | 频率 | 执行者 |
|---|---|---|
| 日志轮转 | 每日 | Infrastructure Maintainer |
| 备份验证 | 每日 | Infrastructure Maintainer |
| 安全扫描 | 每周 | Security Engineer |
| 依赖更新 | 每月 | DevOps Automator |
| 成本审查 | 每月 | Finance Tracker |
升级触发
当出现以下情况时,考虑启动新的迭代:
- 用户需求积压超过阈值
- 技术债务影响开发效率
- 性能下降超过 20%
- 安全漏洞需要修复
- 新功能需求
持续时间: 持续进行 升级路径: 启动 Phase 0-1 进行新功能开发