qwen3:4b 默认启用 thinking 模式,流式 API 中 content 字段始终为空, 所有 token 消耗在 thinking 上。修复方案: - 对 qwen3 模型改用非流式 API,从 content 中剥离 <think... 块 - 将清理后的内容按句子/段落分块模拟流式输出 - 自动提升 qwen3 的 num_predict 至 4096 确保 thinking + 回复完整 - 流式解析中跳过空 content chunk - 新增 strip_think_block 函数及 5 个单元测试