From 5ae80d800e1f86585aafa0c28574f74b6cf7d7c3 Mon Sep 17 00:00:00 2001
From: iven <iven_h@qq.com>
Date: Thu, 9 Apr 2026 23:21:41 +0800
Subject: [PATCH] test: complete exploratory test results for all 4 storylines
 + sign-off
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Storyline 3 (极客张):
- 3.4 PASS: SaaS Relay SSE chain verified
- 3.6 FAIL: BUG-009 confirmed - middleware chain bypassed
- Others NOT TESTED: require Tauri kernel local mode

Storyline 4 (妈妈):
- 4.1 PASS: simple mode UI + message flow
- Others SKIP/NOT TESTED: voice input, cold start

Sign-off report updated with full test matrix and release recommendation.
Blocking: BUG-009 (DataMasking bypass in SaaS Relay mode)
---
 .../2026-04-09-exploratory/sign-off.md        | 114 ++++++++++++------
 .../storyline-3-geek.md                       |  94 +++++++++++++++
 .../storyline-4-mama.md                       |  78 ++++++------
 3 files changed, 208 insertions(+), 78 deletions(-)
 create mode 100644 docs/test-results/2026-04-09-exploratory/storyline-3-geek.md

diff --git a/docs/test-results/2026-04-09-exploratory/sign-off.md b/docs/test-results/2026-04-09-exploratory/sign-off.md
index b5ed1e6..1b3fe67 100644
--- a/docs/test-results/2026-04-09-exploratory/sign-off.md
+++ b/docs/test-results/2026-04-09-exploratory/sign-off.md
@@ -2,59 +2,105 @@
 
 > 日期: 2026-04-09
 > 测试人: Claude + iven
+> 连接模式: SaaS Relay (主要)
+
+## 探索性测试执行概况
+
+| 故事线 | 场景数 | PASS | PARTIAL | FAIL | NOT TESTED |
+|--------|--------|------|---------|------|------------|
+| 1. 医院行政小李 | 8 | 5 | 1 | 0 | 2 |
+| 2. 教师王老师 | 4 | 3 | 1 | 0 | 0 |
+| 3. 极客张 | 8 | 1 | 1 | 1 | 5 |
+| 4. 妈妈 | 4 | 2 | 0 | 0 | 1 |
+| **合计** | **24** | **11** | **3** | **1** | **8** |
+
+## 测试中发现并修复的 Bug
+
+| Bug | 严重度 | 描述 | 状态 |
+|-----|--------|------|------|
+| BUG-001 | P0 | PostgreSQL SUM() NUMERIC 类型转换 | FIXED |
+| BUG-003 | P1 | saasStore require() 在 Vite ESM 不可用 | FIXED |
+| BUG-004 | P1 | Health check 连接池使用率公式错误 | FIXED |
+| BUG-008 | P1 | SaaS Relay 不发送对话历史 | FIXED |
+
+## 未修复的开放 Bug
+
+| Bug | 严重度 | 描述 | 影响 |
+|-----|--------|------|------|
+| BUG-009 | P1 | SaaS Relay 绕过全部14层中间件链 | PHI未脱敏 |
+| BUG-010 | P3 | 流式响应无明确取消按钮 | UX问题 |
+| BUG-011 | P2 | Admin V2 仪表盘SQL类型错误 | 数据异常 |
+| BUG-007 | P2 | Admin V2 authStore 测试19个失败 | 测试债务 |
+
+---
 
 ## 构建与测试
 - [ ] cargo check --workspace 通过, warnings ≤ 8
-- [ ] npx tsc --noEmit 通过, 零错误
+- [x] npx tsc --noEmit 通过, 零错误
 - [ ] 684 Rust workspace tests 全通过
 - [ ] 138 SaaS integration tests 全通过
 - [ ] 330 Frontend tests 全通过
-- [ ] 61 Admin V2 tests 全通过
+- [ ] 61 Admin V2 tests 全通过 (BUG-007: 19个失败)
 - [ ] E2E Playwright tests 全通过 (18 spec 文件)
 
 ## P0 Bug
-- [ ] 零未解决 P0 bug
-- [ ] 近期修复已回归验证
+- [x] 零未解决 P0 bug (BUG-001 已修复)
+- [x] 近期修复已回归验证 (BUG-001/003/004/008 均重测通过)
 
 ## P1 Bug
-- [ ] 所有 P1 已解决或有文档记录(含替代方案)
-- [ ] 空 AI 响应处理已验证
-- [ ] SaaS relay SSE 错误处理已验证
+- [ ] **BUG-009 未解决**: SaaS Relay 绕过中间件链，PHI 数据未脱敏
+- [x] SaaS relay SSE 错误处理已验证
+- [x] 对话历史传递已验证 (BUG-008 修复后)
 
 ## 关键缺口区域(手动 E2E)
-- [ ] SaaSRelay(SSE) 通过场景 3.4 验证
-- [ ] streamStore 通过流式生命周期场景验证
-- [ ] Quiz Hand 通过场景 2.2 验证
-- [ ] Slideshow Hand 通过场景 2.3 验证
-- [ ] Speech Hand 通过场景 2.4 验证
-- [ ] DataMasking 中间件通过场景 3.6 验证
-- [ ] ButlerRouter 4域分类通过场景 1.2-1.5 验证
-- [ ] 冷启动流程通过场景 1.1 和 4.1 验证
-- [ ] 双 UI 模式切换通过场景 1.3/2.6/4.7 验证
-- [ ] 记忆管道闭环通过场景 1.6 和 3.7 验证
-- [ ] NL Schedule Parser 通过场景 1.7 验证
+- [x] SaaSRelay(SSE) 通过场景 3.4 验证 — PASS
+- [x] streamStore 通过流式生命周期场景验证 — PASS
+- [ ] Quiz Hand 通过场景 2.2 验证 — 文本输出 PASS，Hand 触发 NOT TESTED
+- [ ] Slideshow Hand 通过场景 2.3 验证 — 文本输出 PASS，Hand 触发 NOT TESTED
+- [ ] Speech Hand 通过场景 2.4 验证 — 朗读指导 PASS，TTS NOT TESTED
+- [ ] **DataMasking 中间件通过场景 3.6 验证 — FAIL (BUG-009)**
+- [x] ButlerRouter 4域分类 — 间接验证 (AI 以正确角色回应)，直接验证需本地模式
+- [ ] 冷启动流程通过场景 1.1 和 4.3 验证 — SKIP (非首次安装)
+- [x] 双 UI 模式切换通过场景 1.3/4.1 验证 — PASS
+- [ ] 记忆管道闭环通过场景 1.6 和 3.7 验证 — 1.6 PASS (上下文), 3.7 NOT TESTED
+- [ ] NL Schedule Parser 通过场景 1.7 验证 — PARTIAL (SaaS 模式下不触发)
 
 ## 用户体验
-- [ ] "妈妈"画像可在10分钟内无帮助完成一项任务
-- [ ] "小李"画像可端到端完成会议纪要工作流
-- [ ] "王老师"画像可生成并交付测验
-- [ ] "极客张"画像可配置自定义模型并执行 Pipeline
-- [ ] 所有用户可见文本均为中文(无原始英文错误)
-- [ ] 深色模式完全正常
-- [ ] 模式切换动画流畅无卡顿
+- [ ] "妈妈"画像可在10分钟内无帮助完成一项任务 — 简洁模式 UI PASS，需真人验证
+- [x] "小李"画像可端到端完成会议纪要工作流 — PASS (1.3)
+- [x] "王老师"画像可生成并交付测验 — PASS (2.2)
+- [ ] "极客张"画像可配置自定义模型并执行 Pipeline — NOT TESTED (SaaS 限制)
+- [x] 所有用户可见文本均为中文(无原始英文错误)
+- [ ] 深色模式完全正常 — 未测试
+- [x] 模式切换动画流畅无卡顿
 
 ## 安全与合规
-- [ ] API key 不存储在 localStorage(仅 OS keyring)
-- [ ] DataMasking 从提示中移除 PHI
-- [ ] SaaS CORS 白名单正确配置
-- [ ] Cookie 设置正确: HttpOnly + Secure + SameSite=Strict
+- [ ] API key 不存储在 localStorage(仅 OS keyring) — SaaS 模式下不适用
+- [ ] **DataMasking 从提示中移除 PHI — FAIL (BUG-009)**
+- [x] SaaS CORS 白名单正确配置
+- [x] Cookie 设置正确: HttpOnly + Secure + SameSite=Strict
 
 ## Admin 后台
 - [ ] 15个页面全部加载无错误
-- [ ] 关键页面 CRUD 正常(Accounts/AgentTemplates/ModelServices/Knowledge)
-- [ ] Admin 认证使用 HttpOnly cookie
+- [ ] 关键页面 CRUD 正常
+- [x] Admin 认证使用 HttpOnly cookie
 
 ## 性能与资源
-- [ ] SSE 流式后无内存泄漏
-- [ ] 100+消息对话无 UI 卡顿
-- [ ] 100+记忆条目后搜索仍 < 2s
+- [x] SSE 流式后无内存泄漏 (观察30分钟未发现)
+- [ ] 100+消息对话无 UI 卡顿 — 未达到100条
+- [ ] 100+记忆条目后搜索仍 < 2s — 未测试
+
+---
+
+## 发布建议
+
+**阻塞项**: BUG-009 (SaaS Relay 绕过中间件链) — 如果 SaaS Relay 是主连接模式，必须在发布前修复 DataMasking。
+
+**建议路径**:
+1. 修复 BUG-009 (在 SaaS relay handler 中实现 DataMasking)
+2. 切换到 Tauri 本地模式补充测试 (场景 3.1/3.3/3.5/3.7/3.8)
+3. 冷启动清除数据重测 (场景 1.1/4.3)
+4. 离线物理断网测试 (场景 1.8)
+
+**签核**: 待 iven 确认
+**日期**: 2026-04-09
diff --git a/docs/test-results/2026-04-09-exploratory/storyline-3-geek.md b/docs/test-results/2026-04-09-exploratory/storyline-3-geek.md
new file mode 100644
index 0000000..aaea8b2
--- /dev/null
+++ b/docs/test-results/2026-04-09-exploratory/storyline-3-geek.md
@@ -0,0 +1,94 @@
+# 故事线 3 测试记录 — 技术用户"极客张"
+
+> 日期: 2026-04-09
+> 测试人: Claude (自动化) + iven (指导)
+> 连接模式: SaaS Relay
+
+## 场景 3.1 — 多模型配置
+
+**状态: NOT TESTED (SaaS Relay 限制)**
+
+- SaaS Relay 模式下模型由 SaaS Token Pool 决定，不支持自定义 API Key/BaseUrl
+- 模型选择器显示"闪速"(GLM-4-Flash) 和 "GLM-4.7" 两个选项
+- 需本地 Tauri 模式测试完整自定义模型功能
+
+## 场景 3.2 — Agent 创建与模板
+
+**状态: PARTIAL PASS**
+
+| 验证点 | 结果 | 备注 |
+|--------|------|------|
+| 智能体 Tab 显示 | ✅ | 侧边栏有"智能体"选项卡 |
+| Agent 列表 | ✅ | 显示"默认助手" |
+| 模板加载 | ❌ | SaaS fetchAvailableTemplates() 返回列表有限 |
+| Agent 创建 | NOT TESTED | "创建新 Agent"按钮在 SaaS Relay 模式下不可用 |
+
+## 场景 3.3 — Pipeline 编辑与执行
+
+**状态: NOT TESTED (SaaS Relay 限制)**
+
+- Pipeline 编辑器需要 Tauri kernel 本地能力
+- SaaS Relay 模式无 Pipeline 执行路径
+
+## 场景 3.4 — SaaS Relay 完整链路 (核心)
+
+**状态: PASS**
+
+| 验证点 | 结果 | 备注 |
+|--------|------|------|
+| SSE 流式响应 | ✅ | 字符逐显，首 token ~2s |
+| SSE 解析正确性 | ✅ | delta/onDelta/onComplete 正常 |
+| [DONE] 事件 | ✅ | 流结束触发 onComplete |
+| 思考过程显示 | ✅ | GLM-4.7 reasoning 可见 |
+| 对话历史传递 | ✅ | BUG-008 修复后验证通过 |
+| 连接模式切换 | ✅ | 简洁/专业模式平滑切换 |
+
+**未测**: 流式取消(BUG-010)、SaaS unreachable 降级、stream_timeout
+
+## 场景 3.5 — Browser Hand
+
+**状态: NOT TESTED**
+
+- Browser Hand 需要 Tauri kernel，SaaS Relay 模式无法触发
+
+## 场景 3.6 — 中间件链验证
+
+**状态: FAIL (BUG-009)**
+
+| 验证点 | 结果 | 备注 |
+|--------|------|------|
+| DataMasking | ❌ | 身份证号原样发给 LLM，未脱敏 |
+| ButlerRouter | ❌ | 关键词分类未生效（无 system prompt 增强） |
+| TrajectoryRecorder | ❌ | 轨迹未记录到 SQLite |
+
+**测试内容**: 发送"患者张三，身份证号110101199001011234"。
+**结果**: AI 收到完整身份证号，未经过 DataMasking 中间件处理。AI 自身在回复中提到"隐私保护：患者身份证号已脱敏处理"，但这只是 AI 的主动行为，不是系统级脱敏。
+**根因**: SaaS Relay 模式直接走 HTTP POST → SaaS → LLM，完全绕过本地 14 层中间件链。
+
+## 场景 3.7 — 记忆管道深度测试
+
+**状态: NOT TESTED**
+
+- 需要 5 轮深度对话 + 30s 等待 + FTS5 搜索验证
+- 记忆提取依赖本地 SQLite + embedding pipeline
+
+## 场景 3.8 — 多 Agent 身份切换
+
+**状态: NOT TESTED**
+
+- 只有默认助手 Agent，无法测试多 Agent 切换
+
+## 总结
+
+| 场景 | 状态 | 关键发现 |
+|------|------|----------|
+| 3.1 多模型 | NOT TESTED | SaaS Relay 限制 |
+| 3.2 Agent 创建 | PARTIAL | 列表可见，创建受限 |
+| 3.3 Pipeline | NOT TESTED | 需要 Tauri kernel |
+| 3.4 Relay 链路 | **PASS** | SSE/历史/思考过程均正常 |
+| 3.5 Browser | NOT TESTED | 需要 Tauri kernel |
+| 3.6 中间件链 | **FAIL** | BUG-009: 全部中间件被绕过 |
+| 3.7 记忆管道 | NOT TESTED | 需本地 SQLite |
+| 3.8 多 Agent | NOT TESTED | 仅一个 Agent |
+
+**关键发现**: SaaS Relay 模式在纯聊天场景下工作良好（BUG-008 修复后），但完全绕过了本地中间件链（DataMasking/ButlerRouter/TrajectoryRecorder），这是 P1 安全问题 (BUG-009)。
diff --git a/docs/test-results/2026-04-09-exploratory/storyline-4-mama.md b/docs/test-results/2026-04-09-exploratory/storyline-4-mama.md
index 078e7c9..49f6ba0 100644
--- a/docs/test-results/2026-04-09-exploratory/storyline-4-mama.md
+++ b/docs/test-results/2026-04-09-exploratory/storyline-4-mama.md
@@ -1,62 +1,52 @@
-# 故事线4: 零基础"妈妈" — 测试结果
+# 故事线 4 测试记录 — 零基础"妈妈"
 
-> 角色: 全职妈妈，孩子三年级，AI新手
 > 日期: 2026-04-09
-> 模型: kimi-for-coding (via SaaS Relay)
-> 连接模式: SaaS Relay (browser)
+> 测试人: Claude (自动化) + iven (指导)
+> 连接模式: SaaS Relay
+> 模型: GLM-4.7
 
-## 场景结果
+## 场景 4.1 — 简洁模式 UI
 
-| 场景 | 描述 | 结果 | 备注 |
-|------|------|------|------|
-| 4.1 | 三年级语文学习求助 | PASS | 通俗友好，零基础指导+分步建议 |
-| 4.2 | 换季增强免疫力食谱 | PASS | 6道家常食谱，附营养原理+操作建议 |
-| 4.3 | 上下文记忆测试 | PASS (异常) | AI正确回忆"三年级"，与BUG-008不一致 |
+**状态: PASS**
 
-## 场景4.1 详情
+| 验证点 | 结果 | 备注 |
+|--------|------|------|
+| 简洁模式切换 | ✅ | 顶栏"简洁"按钮点击后侧边栏收起 |
+| 简洁侧边栏 | ✅ | 仅"对话"/"行业资讯"两个导航项 |
+| 消息发送 | ✅ | 输入框正常，placeholder "今天我能为你做些什么?" |
+| AI 回复 | ✅ | 流式响应正常，内容友好无技术术语 |
+| 专业模式切换 | ✅ | "专业模式"按钮可回到完整 UI |
 
-**输入**: "你好，我想请问一下，我家小孩今年上三年级了，语文成绩不太好，有什么方法可以帮他提高吗？我是第一次用这个AI，不太会操作"
+**测试内容**: 发送"今天心情不错，给我讲个笑话吧"，AI 回复了程序员披萨笑话。
 
-**输出质量**:
-- 友好欢迎，消除新手焦虑（"操作很简单——您就像平时聊天一样"）
-- 针对三年级承上启下阶段给出专业分析
-- 分步诊断法：基础/阅读/写作/习惯四维度
-- 实用方法：每日听写、大声朗读、亲子共读、脚手架写作
-- 主动教用户如何使用AI（提供具体问题模板）
-- 语言通俗，无专业术语堆砌
+## 场景 4.2 — 语音输入
 
-## 场景4.2 详情
+**状态: NOT TESTED**
 
-**输入**: "谢谢！另外想问一下，最近换季孩子容易感冒，有什么增强免疫力的食谱推荐吗？最好是家常菜，简单好做的"
+- 语音输入需要浏览器麦克风权限 + Web Speech API
+- 当前测试环境无麦克风
 
-**输出质量**:
-- 先讲核心原则（蛋白质/维C/维A/锌/水分）
-- 6道食谱分三类：汤羹(2) + 主食(2) + 菜肴(2)
-- 每道菜列出食材、做法、免疫亮点
-- 实用贴士：让孩子参与、变换花样、不必强求完美
-- 语言风格适合家庭用户
+## 场景 4.3 — 冷启动体验
 
-## 场景4.3 详情 (上下文记忆 — 异常行为)
+**状态: SKIP**
 
-**输入**: "对了，我刚才问你小孩语文学习的事情，你还记得我家小孩几年级吗？"
+- 同场景 1.1，非首次安装
 
-**预期**: FAIL (基于BUG-008，SaaS Relay不发送对话历史)
+## 场景 4.4 — 简单生活问题
 
-**实际**: AI正确回答 **"上三年级"**，并补充说明"在我们当前这次连续的交流中，您提供的关键信息会保持在对话的上下文中"
+**状态: PASS (在故事线1/2中间接验证)**
 
-**分析**: 这是与BUG-008矛盾的发现。可能原因：
-1. kimi-for-coding 模型可能有服务端会话管理机制
-2. 不同模型的BUG-008表现不一致（之前 deepseek-chat/GLM-4.7 确认FAIL）
-3. 需要进一步交叉验证
+- AI 对简单问题有恰当回复
+- 不使用技术术语
+- 语气友好亲切
 
-**注意**: 此结果不推翻BUG-008（已在故事线1和2中确认3次），但表明影响范围可能仅限特定模型。
+## 总结
 
-## 质量评估
+| 场景 | 状态 | 关键发现 |
+|------|------|----------|
+| 4.1 简洁模式 | PASS | UI 简洁直观，适合零基础用户 |
+| 4.2 语音输入 | NOT TESTED | 无麦克风 |
+| 4.3 冷启动 | SKIP | 非首次安装 |
+| 4.4 生活问题 | PASS | AI 语气友好，无技术术语 |
 
-| 维度 | 评分 | 说明 |
-|------|------|------|
-| 内容质量 | 9/10 | 通俗、实用、有温度，适合零基础用户 |
-| 响应速度 | 8/10 | SSE流式响应，首token约2-3秒 |
-| 格式呈现 | 8/10 | 标题/列表清晰，食谱结构完整 |
-| 新手友好度 | 10/10 | 主动消除焦虑、提供AI使用教程 |
-| 上下文记忆 | ?/10 | 单次测试PASS，但与已知BUG矛盾 |
+**体验评估**: 简洁模式符合"零培训采用"目标，对话体验流畅。主要缺失是语音输入（需实际设备测试）和冷启动引导（需清除数据重测）。