双盲实验是检验医疗GPT的唯一标准_热议

百模大战，人间荒诞。

国内通用大模型谁能胜出，还不太好说。如果站在历史维度回看，医疗垂类大模型里，倒是有一件小事反被低估，值得念叨一篇。

算是国内第一次，AI医生和真人医生的双盲实验。

主笔/ 村口有牛

文章架构师/ 立立

出品/ 良医财经

01.

双盲实验。

盲在医疗试验中是一种基本工具，可以排除参与者有意识的或者下意识的偏好。

双盲实验，指的是研究对象和研究者，都不了解试验分组情况，而是由设计者来安排和控制全部过程。这样可以过滤掉医生和病人的主观偏见、心理暗示，造成对药物的影响。

药物的双盲是一种过程复杂、耗时久的验证，但这是目前确认疗效唯一有效的方法。

02.

2023年6月30日，成都高新海尔森医院，120多位真实患者，四川大学华西医院10位主治及以上医师以及医联AI医生，进行了一次特别的双盲实验。

诊疗过程：

患者先与医助沟通病情，医助通过线上文字输入的方式，分别传达给AI医生与真人医生，完成多轮沟通。医生开具检查单或诊断，患者可直接在医院现场完成检查，随后，患者携检查结果进行复诊，得到临床诊断及治疗方案。

全程AI医生与真人医生，进行互不干涉的独立诊断。

结果评定：

问诊结束后，来自北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授，针对91份有效病例进行审核，通过7个评价维度进行打分。真人医生综合得分为7.5分，AI医生的综合得分为7.2分，双方结果一致性达到了96%。

03.

这个结果是超乎预期的。

其一，AI医生虽然“输了”，但差距并不大；

其二，根据患者主诉，AI医生诊断出了不属于就诊科室的疾病，并给出其他具备可能性的判断，其知识面已经超过一些经验不是很充足的真人医生；

其三，这是AI医生首次，在诊断尚不明确时给患者开具必要的医学检查项目，并根据患者返回的检查数据，进行准确的疾病诊断，以及设计后续疾病治疗方案。

医学是一门严肃的学科，极其强调有效性和一致性，可以说MedGPT达到了一定水准。

04.

其实，谷歌也做了一个类似的实验。

今年5月，谷歌发布了Med-PaLM 2，它在美国医疗执照考试（USMLE）中能得到86.5分。

但在多家诊所内测试实验中，和普通医生相比，其回答相对一致性只有72.9%，是唯一一项没有被认可的基准测试。

为什么国内医联能做到，而谷歌暂未能实现，与AI底层技术无关，这里面有三个原因。

05.

第一个原因：医疗数据优势。

基于Transformer架构，大模型的底层原理差不多，主要还是知识库的训练，国内像医联这样的互联网医院，已经成熟运行数年之久，积累了大量有效的医疗问诊数据。

MedGPT模型参数高达1000亿，训练所用医学文本数据有20亿条，临床诊疗数据多达800万条，并由众多医生进行调优。

如图，语料都是源自真实问诊。

第二个原因：一致性机制。

为了解决通用大语言模型，在医疗应用场景的不足，MedGPT进行了几项特殊优化，包括：

引入模型算法的一致性校验机制，在为患者输出正式答案之前，会先经过临床医学规则校验，确保医学准确性；

多维度的诊疗准确性评测体系，包括问诊、诊断、治疗、康复四个阶段的不同指标；

基于专家评议的真实医生诊疗一致性对标机制。

06.

第三个原因：布局AI医疗多年。

2017年，医疗大数据清洗结构化能力建立；

2018年，应用NLP/CV等AI技术；

2019年，针对单病种/分阶段AI诊疗模型；

2021年，初步形成互联网医疗AI诊疗系统；

医联在赛道上深耕数年，始终⽆法实现⾃然顺畅的「全流程AI疾病诊疗」，直到Transformer的出现，补全了医疗AI的全脑模型结构。

07.

AI医生的诊疗价值。

AI在药物研发、医学影像方面，早已落地应用并取得成果，但更令人兴奋的，是生成式AI在临床诊疗全流程的探索。

诊前阶段：增强对患者疾病的预测，提升分诊导诊的准确性；诊中阶段：基于患者的病历、症状和疾病历史等多模态数据，提供辅助诊断、指导治疗方案和预后方案；诊后阶段：减轻医务人员负担，7×24小时回答患者关于病情、药物副作用、预防措施等问题。

基本得到公认，成熟只是时间问题。

08.

AI医生的商业价值。

国内甚至全球医疗，最主要的矛盾还是医生患者的供需关系不平衡，尤其是高端医生资源。

经验医疗范式之下，无论线上线下服务，都强依赖于好医生的供给，有效/可及/便宜是个「绝对不可能三角」。

AI医生就能解决这个问题，按照目前财务预测，在同等服务水平下，AI医生比人工医生的成本降低90%。

比如，国外Carbon Health推出了一种AI工具，可以根据医生病人之间的对话，自动生成诊断记录，比医生自己操作快12分钟，旧金山的一家诊所表示，使用工具后就诊病人数量增加了30%。

09.

医联的野心稍微有点大。

专门搞了一个MedGPT Plugin应用平台（即将上线），你可以理解医疗版的App Store，整合了自营和第三方超过1000种多模态能力。

官方对外宣称，到今年底，MedGPT将把覆盖疾病数量（ICD10亚目）从目前的100类提升到300类，能够覆盖的患者就诊人次，占比从60%提升到80%。

虽然医联这个双盲实验超越了预期，虽然MedGPT为行业定义了标准，甚至重新点燃了资本对赛道的信心，据说多家VC在排队拜访王仕锐。

但到目前为止，以上只是实验，还没到临床实用阶段，仍需反复论证迭代过程。

10.

特别能理解，很多老板都很亢奋。

就像一直在练童子功，始终没有破障，突然的技术跃迁，等于打开了任督二脉。

就像在荆棘丛中走了很久，被扎得浑身是血泡，终于到了山顶，又看见更远的主峰。

就像你念念不忘的科幻故事，提前融入了生活，成为了触手可及的现实。

互联网医疗干了这么多年，AI研发投了那么多钱，各家都在带着镣铐跳舞，一切的学费都没白交，一切的弯路都刻在基因里，又到了直道冲刺的时候。

——狭路相逢信者胜。

聚热点 juredian

双盲实验是检验医疗GPT的唯一标准

【歌词】初夏(炼金术) / 歌手...

幸福的作文400字

【歌词】キミモノガタリ / 歌手...

最新