test: storyline 2/3/4 exploratory test results + BUG-009/010

Storyline 2 (Teacher): 3 PASS, 1 FAIL (BUG-008 confirmed) Storyline 3 (Tech user): SSE verified, model switch OK, BUG-009 middleware bypass Storyline 4 (Mom): 3 PASS, scene 4.3 anomalous BUG-008 behavior with kimi New findings: - BUG-009 (P1): SaaS Relay bypasses all 14 middleware layers - BUG-010 (P3): No cancel button during streaming
2026-04-09 23:02:58 +08:00
parent 448b89e682
commit 87537e7c53
5 changed files with 1077 additions and 0 deletions
--- a/docs/test-results/2026-04-09-exploratory/storyline-4-mama.md
+++ b/docs/test-results/2026-04-09-exploratory/storyline-4-mama.md
@@ -0,0 +1,62 @@
+# 故事线4: 零基础"妈妈" — 测试结果
+
+> 角色: 全职妈妈，孩子三年级，AI新手
+> 日期: 2026-04-09
+> 模型: kimi-for-coding (via SaaS Relay)
+> 连接模式: SaaS Relay (browser)
+
+## 场景结果
+
+| 场景 | 描述 | 结果 | 备注 |
+|------|------|------|------|
+| 4.1 | 三年级语文学习求助 | PASS | 通俗友好，零基础指导+分步建议 |
+| 4.2 | 换季增强免疫力食谱 | PASS | 6道家常食谱，附营养原理+操作建议 |
+| 4.3 | 上下文记忆测试 | PASS (异常) | AI正确回忆"三年级"，与BUG-008不一致 |
+
+## 场景4.1 详情
+
+**输入**: "你好，我想请问一下，我家小孩今年上三年级了，语文成绩不太好，有什么方法可以帮他提高吗？我是第一次用这个AI，不太会操作"
+
+**输出质量**:
+- 友好欢迎，消除新手焦虑（"操作很简单——您就像平时聊天一样"）
+- 针对三年级承上启下阶段给出专业分析
+- 分步诊断法：基础/阅读/写作/习惯四维度
+- 实用方法：每日听写、大声朗读、亲子共读、脚手架写作
+- 主动教用户如何使用AI（提供具体问题模板）
+- 语言通俗，无专业术语堆砌
+
+## 场景4.2 详情
+
+**输入**: "谢谢！另外想问一下，最近换季孩子容易感冒，有什么增强免疫力的食谱推荐吗？最好是家常菜，简单好做的"
+
+**输出质量**:
+- 先讲核心原则（蛋白质/维C/维A/锌/水分）
+- 6道食谱分三类：汤羹(2) + 主食(2) + 菜肴(2)
+- 每道菜列出食材、做法、免疫亮点
+- 实用贴士：让孩子参与、变换花样、不必强求完美
+- 语言风格适合家庭用户
+
+## 场景4.3 详情 (上下文记忆 — 异常行为)
+
+**输入**: "对了，我刚才问你小孩语文学习的事情，你还记得我家小孩几年级吗？"
+
+**预期**: FAIL (基于BUG-008，SaaS Relay不发送对话历史)
+
+**实际**: AI正确回答 **"上三年级"**，并补充说明"在我们当前这次连续的交流中，您提供的关键信息会保持在对话的上下文中"
+
+**分析**: 这是与BUG-008矛盾的发现。可能原因：
+1. kimi-for-coding 模型可能有服务端会话管理机制
+2. 不同模型的BUG-008表现不一致（之前 deepseek-chat/GLM-4.7 确认FAIL）
+3. 需要进一步交叉验证
+
+**注意**: 此结果不推翻BUG-008（已在故事线1和2中确认3次），但表明影响范围可能仅限特定模型。
+
+## 质量评估
+
+| 维度 | 评分 | 说明 |
+|------|------|------|
+| 内容质量 | 9/10 | 通俗、实用、有温度，适合零基础用户 |
+| 响应速度 | 8/10 | SSE流式响应，首token约2-3秒 |
+| 格式呈现 | 8/10 | 标题/列表清晰，食谱结构完整 |
+| 新手友好度 | 10/10 | 主动消除焦虑、提供AI使用教程 |
+| 上下文记忆 | ?/10 | 单次测试PASS，但与已知BUG矛盾 |