聚热点 juredian

双盲实验是检验医疗GPT的唯一标准

百模大战,人间荒诞。

国内通用大模型谁能胜出,还不太好说。如果站在历史维度回看,医疗垂类大模型里,倒是有一件小事反被低估,值得念叨一篇。

算是国内第一次,AI医生和真人医生的双盲实验。

主笔/ 村口有牛

文章架构师/ 立立

出品/ 良医财经

01.

双盲实验。

盲在医疗试验中是一种基本工具,可以排除参与者有意识的或者下意识的偏好。

双盲实验,指的是研究对象和研究者,都不了解试验分组情况,而是由设计者来安排和控制全部过程。这样可以过滤掉医生和病人的主观偏见、心理暗示,造成对药物的影响。

药物的双盲是一种过程复杂、耗时久的验证,但这是目前确认疗效唯一有效的方法。

02.

2023年6月30日,成都高新海尔森医院,120多位真实患者,四川大学华西医院10位主治及以上医师以及医联AI医生,进行了一次特别的双盲实验。

诊疗过程:

患者先与医助沟通病情,医助通过线上文字输入的方式,分别传达给AI医生与真人医生,完成多轮沟通。医生开具检查单或诊断,患者可直接在医院现场完成检查,随后,患者携检查结果进行复诊,得到临床诊断及治疗方案。

全程AI医生与真人医生,进行互不干涉的独立诊断。

结果评定:

问诊结束后,来自北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授,针对91份有效病例进行审核,通过7个评价维度进行打分。真人医生综合得分为7.5分,AI医生的综合得分为7.2分,双方结果一致性达到了96%。

03.

这个结果是超乎预期的。

其一,AI医生虽然“输了”,但差距并不大;

其二,根据患者主诉,AI医生诊断出了不属于就诊科室的疾病,并给出其他具备可能性的判断,其知识面已经超过一些经验不是很充足的真人医生

其三,这是AI医生首次,在诊断尚不明确时给患者开具必要的医学检查项目,并根据患者返回的检查数据,进行准确的疾病诊断,以及设计后续疾病治疗方案。

医学是一门严肃的学科,极其强调有效性和一致性,可以说MedGPT达到了一定水准。

04.

其实,谷歌也做了一个类似的实验。

今年5月,谷歌发布了Med-PaLM 2,它在美国医疗执照考试(USMLE)中能得到86.5分。

但在多家诊所内测试实验中,和普通医生相比,其回答相对一致性只有72.9%,是唯一一项没有被认可的基准测试。

为什么国内医联能做到,而谷歌暂未能实现,与AI底层技术无关,这里面有三个原因。

05.

第一个原因:医疗数据优势。

基于Transformer架构,大模型的底层原理差不多,主要还是知识库的训练,国内像医联这样的互联网医院,已经成熟运行数年之久,积累了大量有效的医疗问诊数据。

MedGPT模型参数高达1000亿,训练所用医学文本数据有20亿条,临床诊疗数据多达800万条,并由众多医生进行调优。

如图,语料都是源自真实问诊。

第二个原因:一致性机制。

为了解决通用大语言模型,在医疗应用场景的不足,MedGPT进行了几项特殊优化,包括:

引入模型算法的一致性校验机制,在为患者输出正式答案之前,会先经过临床医学规则校验,确保医学准确性;

多维度的诊疗准确性评测体系,包括问诊、诊断、治疗、康复四个阶段的不同指标;

基于专家评议的真实医生诊疗一致性对标机制。

06.

第三个原因:布局AI医疗多年。

2017年,医疗大数据清洗结构化能力建立;

2018年,应用NLP/CV等AI技术;

2019年,针对单病种/分阶段AI诊疗模型;

2021年,初步形成互联网医疗AI诊疗系统;

医联在赛道上深耕数年,始终⽆法实现⾃然顺畅的「全流程AI疾病诊疗」,直到Transformer的出现,补全了医疗AI的全脑模型结构。

07.

AI医生的诊疗价值。

AI在药物研发、医学影像方面,早已落地应用并取得成果,但更令人兴奋的,是生成式AI在临床诊疗全流程的探索。

诊前阶段:增强对患者疾病的预测,提升分诊导诊的准确性;诊中阶段:基于患者的病历、症状和疾病历史等多模态数据,提供辅助诊断、指导治疗方案和预后方案;诊后阶段:减轻医务人员负担,7×24小时回答患者关于病情、药物副作用、预防措施等问题。

基本得到公认,成熟只是时间问题。

08.

AI医生的商业价值。

国内甚至全球医疗,最主要的矛盾还是医生患者的供需关系不平衡,尤其是高端医生资源。

经验医疗范式之下,无论线上线下服务,都强依赖于好医生的供给,有效/可及/便宜是个「绝对不可能三角」。

AI医生就能解决这个问题,按照目前财务预测,在同等服务水平下,AI医生比人工医生的成本降低90%。

比如,国外Carbon Health推出了一种AI工具,可以根据医生病人之间的对话,自动生成诊断记录,比医生自己操作快12分钟,旧金山的一家诊所表示,使用工具后就诊病人数量增加了30%。

09.

医联的野心稍微有点大。

专门搞了一个MedGPT Plugin应用平台(即将上线),你可以理解医疗版的App Store,整合了自营和第三方超过1000种多模态能力。

官方对外宣称,到今年底,MedGPT将把覆盖疾病数量(ICD10亚目)从目前的100类提升到300类,能够覆盖的患者就诊人次,占比从60%提升到80%。

虽然医联这个双盲实验超越了预期,虽然MedGPT为行业定义了标准,甚至重新点燃了资本对赛道的信心,据说多家VC在排队拜访王仕锐。

但到目前为止,以上只是实验,还没到临床实用阶段,仍需反复论证迭代过程。

10.

特别能理解,很多老板都很亢奋。

就像一直在练童子功,始终没有破障,突然的技术跃迁,等于打开了任督二脉。

就像在荆棘丛中走了很久,被扎得浑身是血泡,终于到了山顶,又看见更远的主峰。

就像你念念不忘的科幻故事,提前融入了生活,成为了触手可及的现实。

互联网医疗干了这么多年,AI研发投了那么多钱,各家都在带着镣铐跳舞,一切的学费都没白交,一切的弯路都刻在基因里,又到了直道冲刺的时候。

——狭路相逢信者胜。

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:检验  检验词条  唯一  唯一词条  实验  实验词条  医疗  医疗词条  标准  标准词条  
热闻

 《犬之力》:草木皆兵的秘密

观看《犬之力》的感受犹如一个孩童在难以入睡的夜晚听老祖母平淡地讲睡前故事,一开始听着昏昏欲睡,但很快发现故事中似乎充满了谜团,好奇心死死地拽着你的睡神,竟然将其...(展开)

热闻

 蓝天救援队的资金从哪里来?

资金来源:蓝天没有任何收费服务或救援项目,资金来源主要为政府对紧急救援服务的行政采购(用于救援行动中的公共费用、装备采购、维护和社会服务项目执行)、社会捐赠(没...(展开)