Draft MVP V1.0

AI 传染病调查系统

面向疾控一线流调人员的 AI 智能调查工具。通过 AI 智能对话采集、自动化数据结构化及传播链可视化，将调查员从「听、判断、追问、记录」的一心四用中解放出来，专注于建立信任与判断异常。全栈国产私有化部署，满足数据不出境、国产替代、等保合规三项政府硬约束。

产品阶段 · MVP 规划

文档状态 · Draft

目标平台 · PC 端为主（网络稳定）

部署方式 · 政府私有化部署

核心用户 · 疾控一线流调人员

产品负责人 · AI 产品经理

一、文档概述

1.1 项目背景

传统传染病调查依赖人工电话问询，单次调查耗时约 90 分钟。调查员在通话过程中需同时完成「听、判断、追问、记录」四件事，认知负载过重，导致信息采集效率低、数据标准化程度差、多部门协同困难。

本产品由 AI 在后台完成记录、结构化与追问，让调查员专注于建立信任与判断异常。

1.2 产品目标

目标	说明
效率目标	单次流调时长从 90 分钟压缩至 40 分钟，效率提升约 50%
质量目标	信息采集完整率从 60% 提升至 85%，显著改善数据质量
合规目标	全量国产私有化部署，满足数据不出境、国产替代、等保合规三项政府硬约束

1.3 目标用户

疾控中心一线流调人员。核心特征：以电话问询为主要工作方式、工作环境网络稳定（PC 端为主）、对数据准确性要求高、普遍缺乏 AI 工具使用经验。因此产品交互需简洁直观、降低学习成本。

二、功能需求

本版本包含九大功能模块，覆盖从语音采集、智能对话、信息抽取到传播链分析的完整流调链路。点击下方模块可在左侧原型中查看对应界面。

2.1 ASR

语音实时转录

2.2 LLM

基础对话引擎

2.3 追问

智能追问

2.4 NER

信息抽取

2.5 JSON

结构化与报告

2.6 图谱

传播链分析

2.7 RAG

疾病知识库

2.8 评估

评估与迭代

2.9 兜底

人工介入节点

2.1 语音实时转录（ASR）

功能描述：电话接入后，将被调者语音实时转录为文字，调查员无需手动记录。
技术方案：Whisper 模型本地私有化部署，适配 8kHz 电话音质及方言场景。
性能要求：中文识别准确率 ≥ 90%，转录延迟控制在可接受范围。
选型理由：开源免授权费、数据不出境，满足政府数据主权要求。

2.2 基础对话引擎

功能描述：LLM 理解被调者回答，判断回答了哪个字段、信息是否完整，驱动多轮对话。
技术方案：基于 Qwen2-72B，采用 Prompt 四层架构（角色层、流程层、约束层、Few-shot 层）。
核心设计：将标准流调问卷结构隐式编码进对话逻辑，实现字段自动覆盖。

2.3 智能追问

功能描述：自动识别字段缺失或表达模糊，生成自然的追问话术，引导被调者补全信息。
技术方案：规则引擎校验字段完整性 + LLM 生成自然语言话术的双层机制。

示例：被调者回答「大概上周」时，规则识别日期模糊，LLM 追问「具体是上周几」。该追问时追问准确、不该追问时不冗余打扰，是压缩调查时长的核心能力。

2.4 信息抽取（NER）

功能描述：从对话文本中提取结构化实体：日期、地点、人名、症状、接触关系等。
技术方案：MacBERT NER 做实时粗提取 + LLM 做语义校验与歧义消解的双层架构。
选型理由：MacBERT 中文医疗语料预训练，速度快、成本低；LLM 弥补语境理解不足。

2.5 数据结构化与报告

功能描述：将非结构化对话自动转化为标准 JSON，输出格式兼容 CDC 报告标准。
核心逻辑：制定字段强制校验规则与时序重建逻辑，日期归一化为 YYYY-MM-DD。
校验规则：地点拆分为省、市、区三级；异常值自动标红，不确定信息标注 uncertain。

2.6 传播链分析

功能描述：基于多条流调记录自动构建传播关系图谱，识别密接人员。
技术方案：Neo4j 图数据库存储，支持多跳关系查询，三代以内密接溯源。
可视化输出：生成传播链拓扑图与风险热力地图，辅助溯源与管控决策。

2.7 RAG 疾病知识库

功能描述：为 LLM 提供专业知识支撑，使回答有依据而非依赖参数记忆。
技术方案：BGE 向量模型 + Milvus 向量数据库，将诊断标准、流调模板向量化检索。
工作流程：对话中识别病种后实时检索对应追问字段清单与诊断标准，注入 LLM 上下文。

2.8 评估体系与迭代闭环

功能描述：从零搭建对话质量、信息提取、溯源准确、效率四维评估体系。
评估集：构建 500+ 条脱敏标注评估集，覆盖多病种、多场景。
迭代机制：建立「低分样本回捞 → 专家标注 → 两周迭代 → 灰度放量」的持续优化闭环。

2.9 人工介入节点

功能描述：调查员界面始终提供「一键接管」按钮，可随时切换到人工对话。
触发逻辑：简单规则触发提醒——被调者连续 3 次答非所问、信息严重矛盾、对话跑偏。
设计原则：AI 判断不必 100% 准确，人工兜底保证全流程可控。

三、技术架构与选型

全栈采用国产可私有化方案，第一选型原则为满足政府三项硬约束：数据不出境、国产替代、等保合规。

层级	选型	用途
语音识别 ASR	Whisper	电话语音实时转录，本地部署
对话引擎 LLM	Qwen2-72B	多轮对话、意图理解、追问生成
信息抽取 NER	MacBERT + LLM 校验	实体识别与语义校验双层架构
向量化	BGE	疾病知识库向量化
向量数据库	Milvus	RAG 知识库实时检索
图数据库	Neo4j	传播链存储与多跳溯源
追问控制	规则引擎	字段完整性校验（非模型）

3.1 关键架构决策

工程原则：能用规则解决的不用模型，能用小模型解决的不用大模型，平衡速度、成本与准确
微调策略：MVP 阶段 LLM 以 Prompt Engineering 为主，模型微调作为后期优化方向
备选方案：传播链存储如客户对国产化要求极严，可用国产 NebulaGraph 替代 Neo4j

四、单次流调核心流程

电话接入，调查员与被调者建立对话
Whisper 实时转录被调者语音为文字
LLM 理解回答，判断填充了哪个字段
MacBERT 抽取实体，LLM 校验歧义
规则引擎检测字段缺口，LLM 生成追问话术
异常场景触发，调查员一键接管（兜底）
对话结束，自动生成结构化 JSON 供调查员确认
多条记录汇聚，Neo4j 构建传播链图谱

整个流程中，调查员只需专注「建立信任、判断异常」，听、懂、问、记四件事全部由 AI 在后台完成。

五、验收指标

指标维度	基线	目标值
单次流调时长	90 分钟	40 分钟（提升约 50%）
日均处理量	—	提升约 3 倍
信息采集完整率	60%	85%
漏报率	—	降低约 10%
意图识别准确率	—	内部评估集约 90%
用户满意度	—	4.5 / 5

注：以上指标需对照项目真实数据最终确认。意图识别准确率建议表述为「内部评估集上约 90%」，并明确评估集规模与意图分类数量，以应对评审追问。

六、范围与边界

6.1 本版本包含

上述九大功能模块为本版本完整交付范围，覆盖语音采集、智能对话、信息抽取、数据结构化、传播链分析、知识库检索、评估迭代与人工兜底的全链路能力。

6.2 明确不做

最终流行病学因果判断——AI 仅提供证据与可能性，结论由持证专家确认
信息真伪核实——被调者说谎或记错，AI 无法识别，仅记录其陈述
情绪分类模型——本版本以简单规则替代，不引入独立情绪模型
罕见/新型病种的特异性追问——超出知识库范围时转人工补充

6.3 AI 能力边界说明

AI 负责「听、懂、问、记」，人工负责「建立信任、判断异常、最终决策」。被调者情绪失控、信息明显矛盾、流行病学最终判断、新型病种特殊字段四类场景，必须由人工接管——这是设计阶段即确定的边界，而非能力缺陷。

评审自查清单

九大功能模块全部覆盖
技术选型完整（7 项，均满足三项硬约束）
NER 双层架构（MacBERT + LLM 校验）说明清晰
追问双层机制（规则 + LLM）分工明确
结构化 JSON 校验规则（标红 / uncertain）已定义
人工介入四类触发场景已明确
验收指标含基线与目标值
验收指标对照真实数据最终确认（待执行）
评估集规模与意图分类数量明确（待执行）