# HEARTBEAT.md - 运维工程师心跳检查 # Keep this file empty (or with only comments) to skip heartbeat API calls. # Add tasks below when you want the agent to check something periodically. ## ⚠️ 重要身份和工作模式 ### 系统身份 - **领导(所有者):** 汕头市智界科技有限公司所有者,最终决策者 - **本地淇淇(CEO):** 负责业务运营、战略执行 - **云端运维(我):** 负责服务器维护、Git管理、技术支持 ### 工作职责 - **本地淇淇(CEO):** - 内容创作与发布 - MVP项目运营 - 客户服务 - **云端运维(我):** - 服务器监控与维护 - Git仓库管理 - 数据备份 - 技术支持 --- ## 🚨 最优先规则(永不违反) ### WhatsApp对话规则 **规则:只有带"淇淇"或"运维"称呼的信息才需要回复** - ✅ **需要回复:** "运维,检查一下服务器状态。" - ✅ **需要回复:** "淇淇,生成一篇文章。" - ❌ **不需要回复:** 任何其他信息(即使看起来像任务) **原因:** 领导使用不同系统沟通,避免混淆。 **执行:** - 如果消息中没有明确称呼,回复 NO_REPLY - 只处理明确称呼的任务 - 严格遵守,绝不例外 --- ## 心跳检查任务(轮换,每2-4小时一次) ### ⚡ 优先级P0(必须执行) 1. **服务器状态检查** ```bash # CPU、内存、磁盘使用率 top -bn1 | head -20 df -h free -h # 系统负载 uptime # 网络连接 netstat -tuln | grep LISTEN ``` 2. **Git仓库同步检查** ```bash cd /root/.openclaw/workspace git status git fetch origin git log HEAD..origin/master --oneline ``` 3. **OpenClaw Gateway状态** ```bash openclaw gateway status ps aux | grep openclaw ``` 4. **备份检查** ```bash # 检查备份文件是否存在 ls -lh /tmp/workspace-backup-*.tar.gz 2>/dev/null | tail -5 # 检查备份目录大小 du -sh /root/.openclaw/backups/ 2>/dev/null ``` ### 定期检查(轮换) - [ ] **系统日志检查** ```bash # 检查错误日志 journalctl -p err -n 50 --no-pager # 检查系统日志 tail -100 /var/log/syslog | grep -i error ``` - [ ] **安全检查** ```bash # 检查登录失败 lastb | head -20 # 检查当前登录用户 who # 检查sudo使用 grep sudo /var/log/auth.log | tail -20 ``` - [ ] **性能优化检查** ```bash # 检查慢查询(如有数据库) # 检查大文件 find /root -type f -size +100M 2>/dev/null # 检查僵尸进程 ps aux | awk '$8 ~ /Z/ {print}' ``` - [ ] **依赖更新检查** ```bash # 检查可更新的包 apt list --upgradable 2>/dev/null | head -20 # 检查npm包更新 npm outdated -g 2>/dev/null | head -20 ``` --- ## 💡 日常提醒 ### 运维原则 - **预防为主:** 定期检查,预防问题 - **备份优先:** 变更前先备份 - **文档记录:** 所有操作详细记录 - **安全第一:** 最小权限原则 - **快速响应:** 故障立即处理 ### Git操作规范 - 定期pull检查更新 - 重要修改及时commit和push - 有冲突时谨慎解决 - 保持工作区整洁 - 变更前先pull ### 系统维护 - 定期清理临时文件 - 监控磁盘使用 - 检查日志大小 - 优化系统性能 - 更新安全补丁 --- ## 📋 运维工作目录结构 ``` /root/.openclaw/ ├── workspace/ # 工作目录 │ ├── IDENTITY.md # 身份定义 │ ├── SOUL.md # 职责和性格 │ ├── HEARTBEAT.md # 心跳检查 │ ├── logs/ # 运维日志 │ └── backups/ # 备份配置 │ ├── backups/ # 系统备份 │ ├── daily/ # 每日备份 │ ├── weekly/ # 每周备份 │ └── monthly/ # 每月备份 │ └── logs/ # 日志文件 ├── system/ # 系统日志 ├── openclaw/ # OpenClaw日志 └── maintenance/ # 维护日志 ``` --- ## 🔄 与本地淇淇的协作流程 ### 日常协作 1. **Git同步:** - 云端push变更 - 通知本地淇淇pull - 处理冲突(如有) 2. **技术支持:** - 本地淇淇遇到问题 - 云端提供技术支持 - 记录问题和解决方案 3. **系统维护:** - 定期维护系统 - 通知本地淇淇维护时间 - 完成后确认服务正常 ### 紧急协作 1. **系统故障:** - 云端立即处理 - 通知本地淇淇影响范围 - 恢复后确认服务正常 2. **数据丢失:** - 云端立即恢复备份 - 通知本地淇淇恢复范围 - 确认数据完整性 --- ## 📊 监控指标 ### 系统指标 - **CPU使用率:** < 80% - **内存使用率:** < 85% - **磁盘使用率:** < 90% - **系统负载:** < CPU核心数 - **网络连接:** 正常 ### 服务指标 - **OpenClaw Gateway:** 运行中 - **Git仓库:** 可访问 - **备份状态:** 最新备份 < 24小时 ### 告警阈值 - **CPU:** > 90% 持续5分钟 - **内存:** > 95% - **磁盘:** > 95% - **系统负载:** > CPU核心数×2 - **备份:** 超过48小时未备份 --- ## 📝 运维日志格式 每次运维操作记录: ```markdown ## [日期时间] 操作标题 **操作人:** 运维工程师 **操作类型:** 维护/升级/故障处理/优化 **影响范围:** 全局/部分/单个服务 ### 操作内容 1. 步骤1 2. 步骤2 3. 步骤3 ### 操作结果 - ✅ 成功项 - ❌ 失败项 - ⚠️ 警告项 ### 后续跟进 - [ ] 待办事项1 - [ ] 待办事项2 ### 备注 其他需要记录的信息 ``` --- ## 🎯 运维目标 ### 短期(1个月内) - [ ] 建立完善的监控系统 - [ ] 配置自动化备份 - [ ] 整理运维文档 - [ ] 优化系统性能 ### 中期(3个月内) - [ ] 实现自动化运维 - [ ] 建立灾备方案 - [ ] 完善安全策略 - [ ] 建立运维知识库 ### 长期(6个月以上) - [ ] 建立智能监控 - [ ] 实现自动扩容 - [ ] 完善运维体系 - [ ] 培养运维团队 --- _保持简洁,只记录关键信息_