# Phase 6: Operate Playbook > 运营阶段 - 持续监控、维护、优化 --- ## 阶段目标 确保系统稳定运行,持续监控性能,快速响应问题,推动持续改进。 ## 输入文档 从 Phase 5 接收: 1. 生产部署确认 2. 监控配置 3. 发布报告 4. 已知问题列表 ## 激活 Agents | Agent | 角色 | 触发条件 | |-------|------|----------| | **Infrastructure Maintainer** | 基础设施维护 | 持续 | | **Support Responder** | 用户支持 | 按需 | | **Performance Benchmarker** | 性能监控 | 定时/告警 | | **Analytics Reporter** | 数据分析 | 每周 | | **Legal Compliance Checker** | 合规检查 | 每月 | ## 运营活动 ### 1. 日常监控 (Daily) **Infrastructure Maintainer 执行**: ```markdown ## Daily Health Check ### 系统健康 | 指标 | 当前值 | 阈值 | 状态 | |------|--------|------|------| | 可用性 | [值] | > 99.9% | ✅/⚠️/❌ | | 错误率 | [值] | < 0.1% | ✅/⚠️/❌ | | P95 延迟 | [值] | < 200ms | ✅/⚠️/❌ | | CPU 使用 | [值] | < 70% | ✅/⚠️/❌ | | 内存使用 | [值] | < 80% | ✅/⚠️/❌ | | 磁盘使用 | [值] | < 80% | ✅/⚠️/❌ | ### 告警回顾 - [日期] [告警类型] - [处理状态] - [日期] [告警类型] - [处理状态] ### 备份验证 - 数据库备份: ✅ - 文件备份: ✅ - 配置备份: ✅ ``` ### 2. 周报 (Weekly) **Analytics Reporter 执行**: ```markdown ## Weekly Operations Report ### 关键指标趋势 | 指标 | 本周 | 上周 | 变化 | |------|------|------|------| | DAU | [值] | [值] | [±%] | | 请求量 | [值] | [值] | [±%] | | 错误率 | [值] | [值] | [±%] | | 平均延迟 | [值] | [值] | [±%] | ### 事件摘要 - 总事件: [数量] - P0: [数量] - P1: [数量] - P2: [数量] - MTTR: [平均恢复时间] ### 用户反馈 - 新工单: [数量] - 解决: [数量] - 待处理: [数量] - 满意度: [评分] ### 下周计划 1. [计划项 1] 2. [计划项 2] ``` ### 3. 事件响应 (On-Demand) **事件分级**: | 级别 | 定义 | 响应时间 | 升级时间 | |------|------|----------|----------| | P0 | 服务完全不可用 | 5 分钟 | 30 分钟 | | P1 | 核心功能受影响 | 15 分钟 | 1 小时 | | P2 | 部分功能受影响 | 1 小时 | 4 小时 | | P3 | 小问题/建议 | 1 工作日 | 1 周 | **事件处理流程**: ``` ┌─────────────────────────────────────────────────────────────┐ │ Incident Response Flow │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 告警触发 │ │ │ │ │ ▼ │ │ ┌─────────────┐ │ │ │ 确认影响 │ ← 评估范围和严重程度 │ │ └──────┬──────┘ │ │ │ │ │ ▼ │ │ ┌─────────────┐ │ │ │ 建立渠道 │ ← 创建 Slack channel / 会议室 │ │ └──────┬──────┘ │ │ │ │ │ ▼ │ │ ┌─────────────┐ │ │ │ 止血措施 │ ← 快速恢复服务 (回滚/重启/切换) │ │ └──────┬──────┘ │ │ │ │ │ ▼ │ │ ┌─────────────┐ │ │ │ 根因分析 │ ← 确定根本原因 │ │ └──────┬──────┘ │ │ │ │ │ ▼ │ │ ┌─────────────┐ │ │ │ 永久修复 │ ← 防止再次发生 │ │ └──────┬──────┘ │ │ │ │ │ ▼ │ │ ┌─────────────┐ │ │ │ 事后复盘 │ ← 文档化经验教训 │ │ └─────────────┘ │ │ │ └─────────────────────────────────────────────────────────────┘ ``` ### 4. 合规检查 (Monthly) **Legal Compliance Checker 执行**: - [ ] 数据保留政策执行 - [ ] 隐私政策更新 - [ ] 安全补丁应用 - [ ] 访问权限审查 - [ ] 合规报告生成 ## 持续改进 ### 技术债务管理 ```markdown ## Tech Debt Register | # | 项目 | 影响 | 优先级 | 计划 Sprint | |---|------|------|--------|-------------| | 1 | [债务描述] | High | P1 | Sprint X | | 2 | [债务描述] | Medium | P2 | Sprint Y | ``` ### 性能优化机会 - 识别慢查询 - 监控资源使用趋势 - 评估新技术方案 ## 自动化维护 ### 定时任务 | 任务 | 频率 | 执行者 | |------|------|--------| | 日志轮转 | 每日 | Infrastructure Maintainer | | 备份验证 | 每日 | Infrastructure Maintainer | | 安全扫描 | 每周 | Security Engineer | | 依赖更新 | 每月 | DevOps Automator | | 成本审查 | 每月 | Finance Tracker | ## 升级触发 当出现以下情况时,考虑启动新的迭代: - 用户需求积压超过阈值 - 技术债务影响开发效率 - 性能下降超过 20% - 安全漏洞需要修复 - 新功能需求 --- **持续时间**: 持续进行 **升级路径**: 启动 Phase 0-1 进行新功能开发