AI 传染病调查系统
一、文档概述
1.1 项目背景
传统传染病调查依赖人工电话问询,单次调查耗时约 90 分钟。调查员在通话过程中需同时完成「听、判断、追问、记录」四件事,认知负载过重,导致信息采集效率低、数据标准化程度差、多部门协同困难。
本产品由 AI 在后台完成记录、结构化与追问,让调查员专注于建立信任与判断异常。
1.2 产品目标
| 目标 | 说明 |
|---|---|
| 效率目标 | 单次流调时长从 90 分钟压缩至 40 分钟,效率提升约 50% |
| 质量目标 | 信息采集完整率从 60% 提升至 85%,显著改善数据质量 |
| 合规目标 | 全量国产私有化部署,满足数据不出境、国产替代、等保合规三项政府硬约束 |
1.3 目标用户
疾控中心一线流调人员。核心特征:以电话问询为主要工作方式、工作环境网络稳定(PC 端为主)、对数据准确性要求高、普遍缺乏 AI 工具使用经验。因此产品交互需简洁直观、降低学习成本。
二、功能需求
本版本包含九大功能模块,覆盖从语音采集、智能对话、信息抽取到传播链分析的完整流调链路。点击下方模块可在左侧原型中查看对应界面。
2.1 语音实时转录(ASR)
功能描述:电话接入后,将被调者语音实时转录为文字,调查员无需手动记录。
技术方案:Whisper 模型本地私有化部署,适配 8kHz 电话音质及方言场景。
性能要求:中文识别准确率 ≥ 90%,转录延迟控制在可接受范围。
选型理由:开源免授权费、数据不出境,满足政府数据主权要求。
2.2 基础对话引擎
功能描述:LLM 理解被调者回答,判断回答了哪个字段、信息是否完整,驱动多轮对话。
技术方案:基于 Qwen2-72B,采用 Prompt 四层架构(角色层、流程层、约束层、Few-shot 层)。
核心设计:将标准流调问卷结构隐式编码进对话逻辑,实现字段自动覆盖。
2.3 智能追问
功能描述:自动识别字段缺失或表达模糊,生成自然的追问话术,引导被调者补全信息。
技术方案:规则引擎校验字段完整性 + LLM 生成自然语言话术的双层机制。
2.4 信息抽取(NER)
功能描述:从对话文本中提取结构化实体:日期、地点、人名、症状、接触关系等。
技术方案:MacBERT NER 做实时粗提取 + LLM 做语义校验与歧义消解的双层架构。
选型理由:MacBERT 中文医疗语料预训练,速度快、成本低;LLM 弥补语境理解不足。
2.5 数据结构化与报告
功能描述:将非结构化对话自动转化为标准 JSON,输出格式兼容 CDC 报告标准。
核心逻辑:制定字段强制校验规则与时序重建逻辑,日期归一化为 YYYY-MM-DD。
校验规则:地点拆分为省、市、区三级;异常值自动标红,不确定信息标注 uncertain。
2.6 传播链分析
功能描述:基于多条流调记录自动构建传播关系图谱,识别密接人员。
技术方案:Neo4j 图数据库存储,支持多跳关系查询,三代以内密接溯源。
可视化输出:生成传播链拓扑图与风险热力地图,辅助溯源与管控决策。
2.7 RAG 疾病知识库
功能描述:为 LLM 提供专业知识支撑,使回答有依据而非依赖参数记忆。
技术方案:BGE 向量模型 + Milvus 向量数据库,将诊断标准、流调模板向量化检索。
工作流程:对话中识别病种后实时检索对应追问字段清单与诊断标准,注入 LLM 上下文。
2.8 评估体系与迭代闭环
功能描述:从零搭建对话质量、信息提取、溯源准确、效率四维评估体系。
评估集:构建 500+ 条脱敏标注评估集,覆盖多病种、多场景。
迭代机制:建立「低分样本回捞 → 专家标注 → 两周迭代 → 灰度放量」的持续优化闭环。
2.9 人工介入节点
功能描述:调查员界面始终提供「一键接管」按钮,可随时切换到人工对话。
触发逻辑:简单规则触发提醒——被调者连续 3 次答非所问、信息严重矛盾、对话跑偏。
设计原则:AI 判断不必 100% 准确,人工兜底保证全流程可控。
三、技术架构与选型
全栈采用国产可私有化方案,第一选型原则为满足政府三项硬约束:数据不出境、国产替代、等保合规。
| 层级 | 选型 | 用途 |
|---|---|---|
| 语音识别 ASR | Whisper | 电话语音实时转录,本地部署 |
| 对话引擎 LLM | Qwen2-72B | 多轮对话、意图理解、追问生成 |
| 信息抽取 NER | MacBERT + LLM 校验 | 实体识别与语义校验双层架构 |
| 向量化 | BGE | 疾病知识库向量化 |
| 向量数据库 | Milvus | RAG 知识库实时检索 |
| 图数据库 | Neo4j | 传播链存储与多跳溯源 |
| 追问控制 | 规则引擎 | 字段完整性校验(非模型) |
3.1 关键架构决策
- 工程原则:能用规则解决的不用模型,能用小模型解决的不用大模型,平衡速度、成本与准确
- 微调策略:MVP 阶段 LLM 以 Prompt Engineering 为主,模型微调作为后期优化方向
- 备选方案:传播链存储如客户对国产化要求极严,可用国产 NebulaGraph 替代 Neo4j
四、单次流调核心流程
- 电话接入,调查员与被调者建立对话
- Whisper 实时转录被调者语音为文字
- LLM 理解回答,判断填充了哪个字段
- MacBERT 抽取实体,LLM 校验歧义
- 规则引擎检测字段缺口,LLM 生成追问话术
- 异常场景触发,调查员一键接管(兜底)
- 对话结束,自动生成结构化 JSON 供调查员确认
- 多条记录汇聚,Neo4j 构建传播链图谱
五、验收指标
| 指标维度 | 基线 | 目标值 |
|---|---|---|
| 单次流调时长 | 90 分钟 | 40 分钟(提升约 50%) |
| 日均处理量 | — | 提升约 3 倍 |
| 信息采集完整率 | 60% | 85% |
| 漏报率 | — | 降低约 10% |
| 意图识别准确率 | — | 内部评估集约 90% |
| 用户满意度 | — | 4.5 / 5 |
六、范围与边界
6.1 本版本包含
上述九大功能模块为本版本完整交付范围,覆盖语音采集、智能对话、信息抽取、数据结构化、传播链分析、知识库检索、评估迭代与人工兜底的全链路能力。
6.2 明确不做
- 最终流行病学因果判断——AI 仅提供证据与可能性,结论由持证专家确认
- 信息真伪核实——被调者说谎或记错,AI 无法识别,仅记录其陈述
- 情绪分类模型——本版本以简单规则替代,不引入独立情绪模型
- 罕见/新型病种的特异性追问——超出知识库范围时转人工补充
6.3 AI 能力边界说明
评审自查清单
- 九大功能模块全部覆盖
- 技术选型完整(7 项,均满足三项硬约束)
- NER 双层架构(MacBERT + LLM 校验)说明清晰
- 追问双层机制(规则 + LLM)分工明确
- 结构化 JSON 校验规则(标红 / uncertain)已定义
- 人工介入四类触发场景已明确
- 验收指标含基线与目标值
- 验收指标对照真实数据最终确认(待执行)
- 评估集规模与意图分类数量明确(待执行)