千禧年后的第二个十年,移动医疗、人工智能等前沿技术的发展唤起医疗数据的需求。作为算法、算力、数据三要素中最常见但又最难获取的要素,医疗数据彼时仍以碎片化、非标准化的形态分散于医院各个系统中。为了寻找智能模型所需的养料,大量科技医疗创业公司找到三级医院进行合作,在帮助医院进行数据治理的同时,打造智慧化的临床应用。
医院科室的参与、政策对于信息化建设的强制要求,合力促使医院围绕互联互通、智慧医院等方向开启规模化建设。不少医院开始打造医院大数据中心、科研级大数据平台,完成了医疗大数据基础设施的构造,也与企业合作开发了不少智慧化的应用。
但在2019年中美贸易争端开启后,包含个人私密信息医疗数据成为关注重点之一。由于对此类数据进行治理、集成、应用存在一定泄露风险,医院与企业的合作目的开始转变。
为避免政策风险带来的不确定性,不少医院期望大数据及其研究结果以医院范围为界限展开,使得医疗大数据的研究重心转向医院科研需求。此趋势下,医疗大数据产业转化一定程度减少,医疗大数据行业发展整体放慢。
不过,政治因素并非钳制医疗大数据发展的唯一因素,更需关注的是该类建设投资回报及参与度问题。
对于绝大多数而言医院而言,院内外规范化的IT建设是一项难以计量回报的投资,在缺乏合适的工具估算大数据建设的产出时,医院对于相关投资仍然持有保守态度。
此外,要让该项建设发挥价值,医院动用资金支持仅是一部分,更重要的是医院深入了解医疗大数据建设内容,将系统与业务有效融合,才能构造行之有效的大数据体系。
从目前来看,院内已存在各类标准推动医疗数据的互通互认、治理应用,但还需完整做好每一类场景全流程数据的收集、清洗、归纳、存储都一系列步骤,形成多模态、跨流程、可服务于应用的大数据,真正将医疗数据沉淀下来。但就目前而言,医院缺乏积极性,去实践全流程、高参与度的数据治理。
将数据的“生产要素”属性应用起来或是上述种种问题的解决之道。毕竟,只有将医疗大数据的被动应用转变为主动管理,才谈得上用好医疗大数据,才有几乎触及数据的“流通”。
挖掘数据的“生产要素”价值:政策技术双重助力
自2020年4月,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,将“数据”列为劳动力、土地、资本等之外的第五大生产要素后,几乎每隔一段时间都会新增大数据的利好政策,推动这一行业的发展。
具体而言,2021年11月,《“十四五”大数据产业发展规划》提出了一个精确的总体目标,要求“到2025年我国大数据产业测算规模突破3万亿元,年均复合增长率保持25%左右,创新力强、附加值高、自主可控的现代化大数据产业体系基本形成。”
2022年12月,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(后简称:数据二十条)对外发布则以构建基础制度为目标,从数据产权、流通交易、收益分配、安全治理等四个方面,对制定数据基础制度进行了全面部署,最终构建公平与效率相统一的数据要素按贡献参与分配的制度。
2023年3月,国家数据局组建完毕,中央网络安全和信息化委员会办公室、国家发展和改革委员会共同管理,两大机构将在后续协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等。
图片来源:蛋壳研究院
技术方面的迭代同样推动人们重新审视数据这一生产要素的价值。2022年末,大语言模型(LLM)ChatGPT的火热带动人们重新审视人工智能的价值,并聚焦于背后支撑应用的技术生成式AI(Generative AI)。2023年开始,不少医疗IT公司、医疗AI公司、互联网医疗公司均已开发出自己的大语言模型,并尝试在医院场景之中开发各项新式AI应用。
拆解这一新兴人工智能仍是算法、算力、数据、知识四要素,但对于国内企业而言,算法部分均用的开源模型,算力可以根据需求购置GPU实现,知识可以通过向权威知识库购买或达成战略合作得到,唯独数据需要企业与医院达成合作,在脱敏、不出院的情况下训练模型。
政策与技术双向驱动,医疗大数据产业再度火热。如今,更多医院开始参与大数据基础及应用建设,大企业们也嗅到风向,广泛参与其中,为产业注入新的活力。
新一代医院数据中心拉开千亿市场序幕
要将数据有效的利用起来,第一步总是收集数据。伴随信息技术和网络技术的跨越式发展,现代医院的运营特征表现为医疗业务的智能化与应用部署的敏捷化,使得医院业务产生的信息朝着复杂化、专业化、海量化的方向发展,并对各系统之间的互联互通提出更高层级的要求。
此趋势下,围绕网络带宽、服务器性能、交换机处理能力等设备运行特征建设数据中心机房的思路无法应对新型数据结构下涌现的数据安全保障、线上业务支撑、数据资产管理等需求,亟需引入新的IT架构来应对新的业务对计算资源、存储资源、网络资源的新要求。
因此,部分医院开始转变信息化建设思路,借助云技术打造新一代医院数据中心,综合利用各类数据服务临床、决策和科研过程,提高医院管理的科学化、规范化、精细化水平。
新一代医院数据中心架构 (数据来源:蛋壳研究院、《新一代医院数据中心建设指导》)
传统大数据中心分为两类形式。一类是以业务支撑为主、整合电子病历的临床数据中心(CDR),其作用是支撑日常的医疗活动,收集与呈现医疗过程中的数据,绘制常规报表统计等。另一类以管理和科研为主的大数据中心,其作用是面向临床研究、医院管理与智能产品开发,满足科研、管理活动中的数据批量处理的挖掘与分析需求。
目前国内大部分全院级CDR完成了医院各业务数据的物理汇聚,但数据质量仍处于原始状态,对数据的深层架构与逻辑关系尚未进行梳理,针对现有CDR开展临床相关的数据分析挖掘仍具有极大困难。
此外,由于不同科研数据库一般采用自定义的数据模型,在建立多中心数据池、数据共享或数据合并时需要花费大量时间和资源进行数据映射和重新编码,一旦出错很容易导致计算机数据调用、分析过程和结果出现混乱。
要解决传统大数据中心存在的问题,新一代大数据中心应具备以下能力。
1. 满足医院创新业务需求。提供多种大数据应用开发工具并支撑大数据应用部署,例如利用NLP从海量电子病历数据中提取知识,辅助临床科研;利用深度学习从海量的医学影像中训练人工智能模型,辅助医生临床诊断。
2. 满足医院管理发展的需求。支撑人工智能应用为医院运营管理提供更深的洞察和更敏捷的反应;支撑实时流计算,能够应用大数据分析技术并将分析结果实时反馈到临床业务;支撑边缘计算与物联网技术实现智慧后勤。
3. 满足医院智慧应用配置需求。支持搭建安全、有弹性、可扩展的对外服务平台;支撑区块链等创新技术解决数据共享、流通、归集和安全问题。
4. 满足跨部门业务协同需求。支撑云网融合技术,能够在保证内外网间数据交换的安全性的前提下以打通院内系统、外部系统及云上系统,以实现医院业务的连续性。
5. 满足数据治理需求。可提供的全局数据服务需要覆盖数据标准管理、基础数据管理、数据采集、数据汇聚、数据深度加工、数据资产管理、数据质量管理、数据安全管理等对数据的全生命周期治理服务。
6. 满足数据服务需求。支撑医院内部实现系统互联互通和数据对接共享的需要;医院提升海量数据资源质量的需要,数据驱动医院进行科学决策的需要,面对数据安全风险的需要。
当然,除了建设新一代医院数据中心外,医院也需补全影像数据中心、临床科研数据库等基础设施的建设,进一步做好数据的治理归纳,已在后续的应用之中更好地发挥价值。
大语言模型,数据治理的新动力?
尽管NLP的发展有力推进了智慧医院的建设,但落在具体场景中,如自动书写病案、智能问诊、智能随访等,该技术仍然没有脱离关键词映射数据库的逻辑,没有能够真正做到智慧智能。
大语言模型(LLM)的出现能够一定程度解决现有技术面临的智能程度不够问题。在分析文本类信息时,LLM不仅能够从大量给定信息中找到任务需要的关键项,还能对未知信息进行预设,综合上下文做出推理。
相较于千亿级参数的通用大模型,医疗中文本类大模型的参数可控制于100万以内,包含文本与多模态影像的大模型参数可控制于500万内,因而非头部互联网公司也能参与医疗LLM的建设。
医疗大模型企业产业图谱(截至2023年9月20日,数据来源:蛋壳研究院)
不过,从概念到落地,现阶段的医疗LLM仍需解决两个问题。
一是部署。当企业将大模型部署至医院时,需要医院购置相应GPU驱动模型运行。通常而言,服务一个科室的应用需要的GPU成本在数千元左右,但要负担全院需求,医院可能划分百万元级的成本购置芯片,因此,要推动LLM应用大规模落地,一方面需要推动医院主动部署LLM运行环境,另一方面需要企业方优化模型,尽可能降低医院在基础设施方面付出的成本。
二是应用。目前基于LLM构建的智能应用仍然没有脱离传统医疗IT应用的范畴,如病案质控、智能问诊等,企业需要围绕医院需求构造“杀手级”应用,唤起医院购置的LLM的需求,进而实现LLM 的规模落地。
构建LLM需要的成本不菲,且需大量医疗数据,因而竞争仍存在于头部医疗IT企业与互联网企业间。由于LLM应用需置于医疗信息系统中,因而非医疗IT公司只能使用外挂的方式进入IT环境,操作流畅性受限,相较之下,拥有医疗信息管理系统的医疗IT公司占有优势。同时,LLM对于医院的架构要求严苛,能够支持AI应用的智能架构将比传统EA企业架构更好展现LLM的能力界限。
此外,现有的垂直医疗大模型几乎都是基于临床外的医疗数据培育而来。伴随行业竞争的不断加剧,临床数据这一要素或将重新回到LLM角逐的核心位置,进一步推动数据治理的进行。
应用级医疗大数据的交易可能
那么,从“生产要素”到“资产”,医疗数据还有多远?
与劳动力、资本等生产要素相似,医疗数据的价值体现于应用与流通过程。但无论是在数据平台间应用流转,还是未来他通过交易所变更归属主体,只要存在流动,必然会数据泄露、数据滥用等问题。因此,只有保障医疗数据流动的安全,才能保障医疗大数据产业的良性发展。
此外,一个稳定数据交易市场是保障数据流通效率的基础所在。因而必须构建数据的需求方和数据的拥有方的有效对接机制,形成稳定的上下游的关系,并为数据所有者提供获得专利权和著作权有国家知识产权保护等法律保护。
虽然国内已有不少大数据交易所开始运营,但数据要素流通市场整体形式仍较为单一,通过交易所挂牌数据较少,从量和质上都无法满足数据市场的需求。相较之下,大量的场外数据交易市场活跃,但缺乏有效监管和安全保障。
医疗方面,已有不少交易所将为“医疗卫生”数据设置交易品类,但绝大部分交易所该品类下并无供应商品,仅贵州大数据交易所上架了一款“儿童构音障碍早筛语音数据”的产品,售价25万元,仅交易两笔。
要实现从“生产要素”到“资产”的转变,数据交易市场必须建立以政府为主导、市场化的数据要素交易机构和服务平台组成的体系。数据供应方进行有效的数据归集、加工;外部机构搭建平台、辅助标准、提供安全;交易中心提供供需对接服务,实现数据升值、数据变现;监管机构保障市场监管和质控,营造良好的流通环境。
理想状态下的数据要素平台闭环(数据来源:蛋壳研究院)
总的来说,我国数据要素流通市场仍处于发展的初级阶段,在数据交易需求持续高涨的趋势下,一方面需要国家主导完善数据要素服务相关制度,引导培育数据要素交易市场,另一方面也需培养更多供应商丰富数据供应体系,并加大数据交易所传播力度,最终实现在有效市场支撑下的数据供需匹配,让各类数据要素高效安全地流通起来。