test: storyline 2/3/4 exploratory test results + BUG-009/010
Some checks failed
CI / Lint & TypeCheck (push) Has been cancelled
CI / Unit Tests (push) Has been cancelled
CI / Build Frontend (push) Has been cancelled
CI / Rust Check (push) Has been cancelled
CI / Security Scan (push) Has been cancelled
CI / E2E Tests (push) Has been cancelled

Storyline 2 (Teacher): 3 PASS, 1 FAIL (BUG-008 confirmed)
Storyline 3 (Tech user): SSE verified, model switch OK, BUG-009 middleware bypass
Storyline 4 (Mom): 3 PASS, scene 4.3 anomalous BUG-008 behavior with kimi

New findings:
- BUG-009 (P1): SaaS Relay bypasses all 14 middleware layers
- BUG-010 (P3): No cancel button during streaming
This commit is contained in:
iven
2026-04-09 23:02:58 +08:00
parent 448b89e682
commit 87537e7c53
5 changed files with 1077 additions and 0 deletions

View File

@@ -0,0 +1,70 @@
# 故事线2: 教师"王老师" — 测试结果
> 角色: 初中语文老师
> 日期: 2026-04-09
> 模型: kimi-for-coding (via SaaS Relay)
> 连接模式: SaaS Relay (browser)
## 场景结果
| 场景 | 描述 | 结果 | 备注 |
|------|------|------|------|
| 2.1 | 《背影》教学方案设计 | PASS | 2课时完整方案含教学目标/重难点/活动设计/分层作业 |
| 2.2 | 阅读理解选择题出题 | PASS | 5道高质量选择题附参考答案和设计说明 |
| 2.3 | PPT结构规划 | PASS | 15页完整PPT结构4大部分含设计建议 |
| 2.4 | 上下文记忆测试 | FAIL (BUG-008) | AI无法记忆先前对话将《背影》PPT误解为"高效沟通的艺术" |
## 场景2.1 详情
**输入**: "你好,我是初中语文老师王老师,下周要讲《背影》这篇课文,能帮我设计一个教学方案吗?"
**输出质量**:
- 教学目标完整(知识/过程/情感三维)
- 教学重难点明确
- 2课时安排合理
- "细节放大镜"活动设计有创意
- 情感变化图引导到位
- 分层作业设计考虑周全
## 场景2.2 详情
**输入**: "帮我出5道关于《背影》的阅读理解选择题适合初二学生。"
**输出质量**:
- 5题涵盖内容理解、细节把握、主题分析
- 答案 C/C/A/B/C 正确
- 干扰项设计合理
- 附加设计说明
## 场景2.3 详情
**输入**: "帮我规划一下《背影》这课的PPT结构列出每一页的标题和要点内容。"
**输出质量**:
- 15页结构分4部分
- 从导入→品析→升华→练习的递进设计
- 含视觉风格、配色、动画建议
- 龙应台《目送》引文作封底升华
## 场景2.4 详情 (BUG-008 复现)
**输入**: "把刚才的PPT大纲整理一下帮我把第一页封面和第二页学习目标的具体内容写出来包括可以配什么图片"
**预期**: 基于《背影》PPT大纲生成封面和学习目标页内容
**实际**: AI回复"高效沟通的艺术与技巧"封面页内容,完全丢失《背影》上下文
**根因**: BUG-008 — `saas-relay-client.ts:125` 只发送当前消息,不发送对话历史:
```typescript
messages: [{ role: 'user', content: message }], // 只有当前消息
```
## 质量评估
| 维度 | 评分 | 说明 |
|------|------|------|
| 内容质量 | 9/10 | 单轮对话质量极高,专业、详细、有创意 |
| 响应速度 | 8/10 | SSE流式响应首token约2-3秒 |
| 格式呈现 | 9/10 | Markdown格式完善标题/列表/加粗使用得当 |
| 上下文记忆 | 0/10 | 完全无记忆 (BUG-008) |
| 用户体验 | 6/10 | 单轮体验好,多轮交互断裂严重 |