医疗大模型的生意经:一体机卖爆,医院实际使用场景却少

虎嗅网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

今年年初,国产大模型DeepSeek横空出世,并在医疗体系内掀起了巨大声浪。行业里几乎每天都有不同医院官宣接入DeepSeek大模型的消息发布,从最初的“全省首家”到后来的“全市80多家二级以上公立医院全部接入”。据不完全统计,3个多月时间里,国内已有上千家医院完成DeepSeek大模型在院端的本地化部署。


在众多医院的官方报道中,院端接入DeepSeek大模型后,能够全面提升传统AI的能效,应用场景主要集中在预问诊、临床辅助诊断、影像分析、个性化治疗及院内流程优化等环节。比如上海华山医院就曾披露称,在DeepSeek深度融入医院的核心信息系统后,高峰期患者的排队时长减少了40分钟,患者满意度提升了近10个百分点。


但一段时间后,以DeepSeek为代表的大语言模型在医院进行本地化部署的价值正在被重新评估。随着DeepSeek大模型在医院的不断普及,困惑、失望甚至质疑的声音也逐渐多了起来。


在《健闻咨询》的采访中,很多医院在实际使用中遇到了“模型用不起来,算力闲置,错误太多,临床反馈不敢用”等问题。某头部三甲医院的信息科主任更是直言,为了接入DeepSeek,医院光硬件就花了300万元,但落地的效果远远低于预期。


有知情人士透露,许多医院在算力配置上的经费审批已经缩减,“目前已经进入了冷静期”。


作为新一轮技术革命的底层构造,大模型已经在诸多领域自证价值。但对于医院场景来说,大模型能在哪些关键环节提供帮助,能帮助到何种程度,仍然是一个未解的命题。


一、医院纷纷尝鲜,但临床体感却不佳


据了解,深圳大学附属华南医院是全国首个完成DeepSeek-R1本地化部署的医院,时间是在今年2月7日前后,距离DeepSeek-R1模型发布的1月20日,仅仅过去了半个月。


在此之前,凭借ChatGPT的大热,大模型在医疗行业已经是一个被反复讨论的技术概念。部分资源丰富的头部医院早已下场,和相关的技术厂商围绕大模型的技术框架开展了一些有针对性的研发合作,比如将ChatGPT的对话能力用于互联网医院场景中的智能客服,减轻就医导诊的压力。


对于医院这样一个极度讲求效率的场所来说,大模型确实具有一定的适配性。最初级的几个场景包括线上预问诊、生成式电子病历以及院外的患者随访管理等。这些场景的共同特点是,需要用到大量的自然语言,容错率相对较高。再进一步看,当大模型学习了足够多的医学知识和病患数据后,它将能够在短时间内处理复杂的临床信息,为医生提供决策支持。


但在DeepSeek问世前,医院对于大模型还只停留在“感兴趣”的阶段,原因是,不同于其它使用者,医院的信息流中充斥着大量的患者数据,出于隐私保护和数据安全的考虑,这类数据只能在医院内网中运行。这也意味着,医院不太可能通过第三方的云端服务来外部调用大模型的算力,如果想用,就必须在院内安装服务器,进行本地化部署。而早期的大模型非常消耗算力资源,想要在医院这种高并发环境下顺畅运行,光硬件配置都在数百万到数千万元不等。


DeepSeek的出现彻底改变了这个局面。通过混合专家架构 (MoE) ,DeepSeek不仅可以降低40%以上的算力消耗,还能在推理精度上保持竞争力,这一优化使得医院在本地化部署大模型成为可能。“相比于OpenAI、Claude,在提供相似推理能力的前提下,DeepSeek的成本可以降到十分之一,甚至是二十分之一。”一位从事医疗信息化服务的资深人士表示。


多家医院的采购公告显示, 医院本地化部署DeepSeek的预算大致在几十万元到一百万元之间,其中70B和32B两种参数模型最受青睐 。这也符合联想医疗行业总监姚宇轩对医院不同层次匹配的模型参数的定义。他认为,个人使用DeepSeek只要7B即可,科室级应用不要超过70B,只有头部医院全流程应用可以选671B满血版,“但实际上我目前看到真正用到这么大模型的场景非常少,它更多还是支持小模型的并发。”


另一位行业人士宋坤 (化名) 则告诉《健闻咨询》,给医院做大模型的本地化部署,并没有太高的门槛,传统的医疗信息化服务公司都能做。据他所知,现在有不少互联网医疗公司也盯上了这块蛋糕,想来赚一笔块钱,其中一家业务量比较大的,收费标准是每家医院60万元,目前已经做了几十家,收入在短时间内就达到了千万元级。


“大部分所谓的本地化部署,就是在医院的HIS系统里开一个界面,让你可以和DeepSeek对话,完成查询检索的基本功能,这个和我们远程打开网页调用DeepSeek,在使用上没有任何区别。”宋坤表示,唯一的区别只是,通过私域服务器,医院内网的数据既不会公开,也不会被大模型公司收走。


这个说法也在东部沿海某头部三甲医院的信息科主任金浩 (化名) 那儿得到了应证。金浩表示,为了彰显医院的决心和地位,他们在几个月前就上了671B的满血版DeepSeek,光H100显卡就花了300万元,但试用下来,效果相当拉跨,“ 最大的问题就是错误一堆,医生不敢用,现在主要是用于写一些行政文件 。”


采访中,另一家南方三甲医院的信息科主任也表示,DeepSeek部署完成后,他们上的第一个应用是行政总值小助手,第二个应用是科研小助手,这两个应用的价值主要体现在医院的内部管理,和临床科室并没有太大关系。


二、寻求最佳落地场景


对于医院来说,理想的状况是,引入大模型这样的底层技术后,可以全面赋能院内的信息化系统,提升整体工作效率。


但事实上,这个设想基本不可能落地。主要原因在于,每家医院内部都有几十甚至上百个信息化系统,仅仅是让DeepSeek和这些系统逐个完成对接,就需要耗费极大的资源和人力。更大的问题在于,即便对接上了,这些系统中还存有大量非标准化的、质量参差不齐的数据,对这些数据进行清洗治理又是一个耗时巨大的工程。


而对于医院的管理者来说,对信息系统进行如此大范围的改造升级,本来就要承担风险。风险之一是,如果要动原来的系统,那就有可能在改造期间给医院运行带来未知的麻烦,一旦出了问题,谁来承担责任。风险之二是,新系统做出来了,它是不是真的能比原来更好用,或者说好用多少,这一点大家并没有共识。


所以大多数时候,医院部署完大模型后,就放在那儿了。 ”宋坤表示,据他的估算,这类现象在所有宣称完成大模型部署的医院中,出现得比较普遍。


另一个导致大模型在医院临床环节应用受阻的核心矛盾,在于大模型本身。大模型的技术底层是基于统计学习的概率响应,本质上来说,它并不能理解知识,只是根据某种概率原则,将互联网上的信息重新组合拼接,再转化成自然语言反馈出来。而互联网上的信息大多数是没有经过对错定义的,这就导致了大模型会出现幻觉。


“这种错误在其它地方还好,在医院里头是要出大问题的。”金浩告诉《健闻咨询》,他们早期让临床医生试用过,后来发现大模型响应回来的东西存在很多问题,导致后来医生这一端根本用不起来,“就是你本来自己做,2分钟就做完了,现在大模型搞出来,你还得花5分钟去校验、修改,那就没意义了嘛。”


针对大模型的这一弊端,金浩认为,最关键的还是要在后期做微调,要保证喂给它的语料,都是判定为对的知识,这样才能提升大模型在医学领域的专业程度。而这部分工作,既非预装医疗应用的一体机可以解决,也不是医疗信息化公司能够独立交付的,它需要临床医生和技术专家在一个漫长的周期里高频地沟通、碰撞、合作才有可能实现。


从投资回报的角度看,这显然不是一笔划算的买卖,但国内的一些头部医院已经开始了类似的探索。


上海仁济医院和蚂蚁集团合作,花一年多时间构建了国内首个临床专科推理数据集,这个针对泌尿外科的数据集包含了2132个问答对,对应25000多条诊疗依据和临床数据,每一条数据都经过仁济医院泌尿外科医生的确认。在高质量的语料喂养下,仁济医院的泌尿外科大模型的诊断准确率为69.81%,接近专科医生的水平。


此外,上海瑞金医院也携手华为,在年初发布了瑞智病理大模型RuiPath。据了解,瑞金医院从2021年就开始建设数字化智慧病理科,此次RuiPath的核心语料正是来自于瑞金医院病理科积累的百万级数字病理切片库。在由病理医生整理的常用问题测试中,RuiPath表现不俗,回答准确率在90%以上。


根据动脉网的统计,目前国内已经发布了22个专病专科垂直模型,这些模型均由顶级三甲医院主导研发,比如北京协和医院研发的罕见病大模型“协和·太初”、上海复旦大学附属中山医院的心血管专科大模型“观心”、华西医院的骨科大模型平台“DeepJoint”、山东齐鲁医院的急性胸痛大模型“齐鲁·心擎”等。


“大模型在医疗场景的落地,最终还是要直面临床痛点,遵循客观规律,专病专科大模型是目前业内认可度最高的方向之一。”宋坤表示,这类大模型虽然在前期会花费比较多的资源和代价,但一旦在临床端获得认可,就能创造巨大的经济价值和社会效益,“尤其是在分级诊疗的大方向下,未来所有基层医疗机构都会是它们的潜在客户。”


但至少在当下,对于争相部署大模型的医院来说,期待中的价值还远没有兑现。

随意打赏

提交建议
微信扫一扫,分享给好友吧。