百模大战,人间荒诞。
国内通用大模型谁能胜出,还不太好说。如果站在历史维度回看,医疗垂类大模型里,倒是有一件小事反被低估,值得念叨一篇。
算是国内第一次,AI医生和真人医生的双盲实验。
主笔/ 村口有牛
文章架构师/ 立立
出品/ 良医财经
01.
双盲实验。
盲在医疗试验中是一种基本工具,可以排除参与者有意识的或者下意识的偏好。
双盲实验,指的是研究对象和研究者,都不了解试验分组情况,而是由设计者来安排和控制全部过程。这样可以过滤掉医生和病人的主观偏见、心理暗示,造成对药物的影响。
药物的双盲是一种过程复杂、耗时久的验证,但这是目前确认疗效唯一有效的方法。
02.
2023年6月30日,成都高新海尔森医院,120多位真实患者,四川大学华西医院10位主治及以上医师以及医联AI医生,进行了一次特别的双盲实验。
诊疗过程:
患者先与医助沟通病情,医助通过线上文字输入的方式,分别传达给AI医生与真人医生,完成多轮沟通。医生开具检查单或诊断,患者可直接在医院现场完成检查,随后,患者携检查结果进行复诊,得到临床诊断及治疗方案。
全程AI医生与真人医生,进行互不干涉的独立诊断。
结果评定:
问诊结束后,来自北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授,针对91份有效病例进行审核,通过7个评价维度进行打分。真人医生综合得分为7.5分,AI医生的综合得分为7.2分,双方结果一致性达到了96%。
03.
这个结果是超乎预期的。
其一,AI医生虽然“输了”,但差距并不大;
其二,根据患者主诉,AI医生诊断出了不属于就诊科室的疾病,并给出其他具备可能性的判断,其知识面已经超过一些经验不是很充足的真人医生;
其三,这是AI医生首次,在诊断尚不明确时给患者开具必要的医学检查项目,并根据患者返回的检查数据,进行准确的疾病诊断,以及设计后续疾病治疗方案。
医学是一门严肃的学科,极其强调有效性和一致性,可以说MedGPT达到了一定水准。
04.
其实,谷歌也做了一个类似的实验。
今年5月,谷歌发布了Med-PaLM 2,它在美国医疗执照考试(USMLE)中能得到86.5分。
但在多家诊所内测试实验中,和普通医生相比,其回答相对一致性只有72.9%,是唯一一项没有被认可的基准测试。
为什么国内医联能做到,而谷歌暂未能实现,与AI底层技术无关,这里面有三个原因。
05.
第一个原因:医疗数据优势。
基于Transformer架构,大模型的底层原理差不多,主要还是知识库的训练,国内像医联这样的互联网医院,已经成熟运行数年之久,积累了大量有效的医疗问诊数据。
MedGPT模型参数高达1000亿,训练所用医学文本数据有20亿条,临床诊疗数据多达800万条,并由众多医生进行调优。
如图,语料都是源自真实问诊。
第二个原因:一致性机制。
为了解决通用大语言模型,在医疗应用场景的不足,MedGPT进行了几项特殊优化,包括:
引入模型算法的一致性校验机制,在为患者输出正式答案之前,会先经过临床医学规则校验,确保医学准确性;
多维度的诊疗准确性评测体系,包括问诊、诊断、治疗、康复四个阶段的不同指标;
基于专家评议的真实医生诊疗一致性对标机制。
06.
第三个原因:布局AI医疗多年。
2017年,医疗大数据清洗结构化能力建立;
2018年,应用NLP/CV等AI技术;
2019年,针对单病种/分阶段AI诊疗模型;
2021年,初步形成互联网医疗AI诊疗系统;
医联在赛道上深耕数年,始终⽆法实现⾃然顺畅的「全流程AI疾病诊疗」,直到Transformer的出现,补全了医疗AI的全脑模型结构。
07.
AI医生的诊疗价值。
AI在药物研发、医学影像方面,早已落地应用并取得成果,但更令人兴奋的,是生成式AI在临床诊疗全流程的探索。
诊前阶段:增强对患者疾病的预测,提升分诊导诊的准确性;诊中阶段:基于患者的病历、症状和疾病历史等多模态数据,提供辅助诊断、指导治疗方案和预后方案;诊后阶段:减轻医务人员负担,7×24小时回答患者关于病情、药物副作用、预防措施等问题。
基本得到公认,成熟只是时间问题。
08.
AI医生的商业价值。
国内甚至全球医疗,最主要的矛盾还是医生患者的供需关系不平衡,尤其是高端医生资源。
经验医疗范式之下,无论线上线下服务,都强依赖于好医生的供给,有效/可及/便宜是个「绝对不可能三角」。
AI医生就能解决这个问题,按照目前财务预测,在同等服务水平下,AI医生比人工医生的成本降低90%。
比如,国外Carbon Health推出了一种AI工具,可以根据医生病人之间的对话,自动生成诊断记录,比医生自己操作快12分钟,旧金山的一家诊所表示,使用工具后就诊病人数量增加了30%。
09.
医联的野心稍微有点大。
专门搞了一个MedGPT Plugin应用平台(即将上线),你可以理解医疗版的App Store,整合了自营和第三方超过1000种多模态能力。
官方对外宣称,到今年底,MedGPT将把覆盖疾病数量(ICD10亚目)从目前的100类提升到300类,能够覆盖的患者就诊人次,占比从60%提升到80%。
虽然医联这个双盲实验超越了预期,虽然MedGPT为行业定义了标准,甚至重新点燃了资本对赛道的信心,据说多家VC在排队拜访王仕锐。
但到目前为止,以上只是实验,还没到临床实用阶段,仍需反复论证迭代过程。
10.
特别能理解,很多老板都很亢奋。
就像一直在练童子功,始终没有破障,突然的技术跃迁,等于打开了任督二脉。
就像在荆棘丛中走了很久,被扎得浑身是血泡,终于到了山顶,又看见更远的主峰。
就像你念念不忘的科幻故事,提前融入了生活,成为了触手可及的现实。
互联网医疗干了这么多年,AI研发投了那么多钱,各家都在带着镣铐跳舞,一切的学费都没白交,一切的弯路都刻在基因里,又到了直道冲刺的时候。
——狭路相逢信者胜。