医疗大数据临床应用的探索与实践

①引言
医疗工作流程中产生的结构化、非结构化文本、影像、电生理等数据越来越多地被医院信息系统收集和存储。不仅是医嘱、护理记录、药物使用等诊疗数据,而是所有医患角色、医疗设备、管理和服务人员在业务系统中产生的所有数据。在现代医院信息化管理的“电子化、信息化、数据化、智能化”要求下,临床数据存储量已可用TB甚至PB来计量。目前针对医院大数据应用可分两种:一是用于医院管理,如对业务运行情况、流程、用药等进行挖掘和分析;二是用于支持临床诊疗工作,如临床科学研究或实时临床辅助支持。医院决策系统是基于前者的应用,能够对医疗活动各环节进行整体评价分析,从而为决策者进行医护质量、医疗安全和综合运营等方面的管理和改进提供参考,如BI(Business Intelligence)系统的建设,这些内容许多医院在前期信息化建设过程中已有所实现。但数据对临床支持的应用,目前大部分医院还处于空白。
我国患者数量多,疾病谱系广,拥有世界上最大的病例样本库,然而相关的临床研究和治疗标准总体上落后于国际先进水平,其重要原因在于国内对医院临床数据的利用水平不高。主要表现在:一是大部分科研人员通过EXCEL等工具少量收集临床样本数据进行研究,导致数据支撑面小,难以形成有影响力的临床科研项目;二是医院临床数据的价值被埋没,不能利用临床数据进行临床决策支持;三是没有对医院本体的临床数据进行知识发现,没有把临床数据转化为知识。当前的医疗过程更多是依赖经验医学,而不是数据驱动的科学医学。
②我院临床数据利用的主要形式
第三军医大学西南医院2015年完成门急诊量376万人次,住院收容12.9万人次,自1997年大规模数字化医院建设以来,已积累超过400TB的临床数据资源。2012年开始,医院在完成医院管理决策支持系统(BI)升级应用后,与中科院重庆绿色智能研究院、中科院软件所、上海柯林布瑞信息技术公司、万方数据等单位合作,大力推动临床数据中心(CDR,Clinic Data Repository)和诊疗辅助决策支持(CDSS,Clinic Diagnosis Support System)等信息系统建设。通过对患者诊疗数据的整理,建立相应模型,利用计算机技术实现定性分析和定量分析,并可与治疗指南、医学文献进行整合关联,通过以医院本体大数据知识库为核心,以指南文献为辅助的医学知识库,为临床提供知识支撑。目前,西南医院重点开展了以下方面的临床数据利用工作。
2.1、 基于临床医疗数据的科研信息平台。 在临床过程中有的放矢的完成临床科研需要的数据收集,为下一步数据利用分析做好准备。临床科研信息平台是以医院临床大数据为核心,为满足临床数据的分类、汇总和分析,建立科研电子数据采集系统、科研数据元管理系统、研究对象管理系统、单病种库系统等,为临床科研医生提供数据和工具支持。包括临床数据采集、数据元管理、科研对象管理和病种库管理等功能。
2.1.1、 科研电子数据采集 。除从业务信息系统采集临床结构化和非结构化数据外,还支持可定义的eCRF(electonic Case Report Form,电子病例报告表)表单功能,提供文本、表格、单选、复选等各种表单元素;表单数据组的定义,支持数据组元素与CDR数据源的匹配设置;表单的数据分析与统计;科研项目及阶段管理,配置多中心的科研项目。
2.1.2、 数据元管理 。学科数据元字典的导入、导出,以及人工维护学科数据元字典。支持对数据元的值域、允许值、是否必填项等有关信息进行配置。将数据元与临床数据中心的数据元进行适配,以实现eCRF数据表单录入时的数据自动填充。
2.1.3、 科研对象管理 。管理、维护入/排条件,形成入组方案并应用于科研过程中。对入组病例进行多中心、内外网等多源头的数据源管理。对研究对象进行主数据的配置与管理,支持同一研究对象参与多个科研项目。
2.1.4、 病种库管理 。科研单病种库的建设,支持病种诊断集管理,病种库的科研特性数据存储。多维度条件的病例筛选与入出库管理,病例队列的集合运算。患者通过移动终端录入的随访数据也可统一采集到科研平台。
2.2、 临床大数据搜索引擎 。初衷是希望能像操作谷歌、百度一样简便,对包括病程记录在内的非结构化与结构化病历资料一起关联检索,满足各种复杂条件的筛选和统计分析,并即时加入到个人临床科研信息管理平台。构建临床大数据搜索引擎,首先要建立临床专业语料库,通过snomed、ICD10、药典库、院内诊断库形成院内的临床专业语料库,建立临床病历分词的语料基础。二是实现专业语料训练机,通过分词技术及词频算对,对院内电子病历、检查报告等文字性的源数据进行分析,按词频高低列出在专业语料库未收录的新专业名词,并进行收录,形成符合院内实际专业语料库。三是通过Mapreduce进行数据读取,使用SOLR、Lucene进行关键词匹配与搜索,实现跨数据域、异构数据的快速搜索,支持多条件关联检索等。
2.3、 临床循证知识推送系统 。结合诊疗环节,在充分利用既往临床诊疗经验数据的基础上进行知识发现与推送,相关有4个应用模块,即临床循证知识推送系统、知识库搜索、知识库管理、分科决策主题配置。利用计算机技术对本院历史病例进行搜集、整理、分析,在诊疗过程中提供全方位提示。在医生输入相关诊断后,在各诊疗环节可自动弹出相关提示。提示内容包括本院临床数据分析结果,以及相关临床指南、临床研究结果和药物特性,如本院历史病例的总数、性别比例、年龄分布、职业分布、手术率、好转率、死亡率、并发症、不良反应情况、用药情况和关联的检查检验情况等。这种设计结合临床实际,使历史诊疗过程数据转化为宝贵的诊疗经验,对临床知识的传承和应用意义重大[9]。在临床治疗方案的选择中,可列出相关治疗方案的比例,便于比较分析临床效果。
2.4、 临床诊疗决策系统(CDSS) 。该系统是指针对医学问题利用计算机、知识库和各种算法模型,通过人机交互方式改善和提高诊疗决策效率的系统。分析现行的CDSS建模过程,一般包括贝叶斯网络、人工神经网络、遗传算法、产生式规则系统、逻辑条件、因果概率网络等基本方法。医学知识和疾病的复杂性导致在设计CDSS时需考虑很多内部和外部因素,目前正朝人工智能方向发展。随着知识更新越来越快,学科的交叉融合越来越紧密,医生时间越来越少,对“指南”的学习滞后和理解偏差导致了疗效差异。因此,亟需新的理论、技术和方法加以解决。西南医院与中科院重庆研究院合作开发大数据量化风险基础上的诊疗决策支持系统,辅助精准医疗的实施。通过计算机学习医学指南内容,融合众多顶尖的国内外医学资源,实现准确的信息提取与展现、多层次的内容管理体系,以及个性化的人机交互界面与丰富的内容呈现,从而辅助医生进行知识学习更新和临床诊疗。
2.5、 基于超算平台的基因数据检测和分析 。基因检测和分析的基本原理是在碱基互补配对原则下,通过分子杂交和聚合酶链式反应(PCR)等对目标基因的核苷酸进行识别,定量和定性分析,从而检测结果。基因组数据量庞大,基因数据分析要求计算机系统具有更强大的运算能力。依托中科院重庆研究院的超算平台,西南医院的科研医护人员针对生物遗传基因检测和分析等方面开展了相关计算和研究,实现形式包括BWA序列比对、Picard序列出具处理、GATK基因分析、VCF结果数据呈现等。经过一年多的应用实践,共处理和分析两万余份生物样本,使用超算CPU超过6000机时,为西南医院的科研和临床应用提供了重要支撑。
③基础工作与关键技术
3.1、 临床大数据中心集成技术研究及医学术语集的建立 。构建临床大数据中心是将医院分散在各业务系统的零散数据进行集中化处理。主要参考国际HL7 标准、《电子病历数据组与数据元》《中国医院信息基本数据集标准1.0版》等规范,建立临床数据中心标准数据模型,通过ETL(Extract-Transform-Load,数据的抽取、转换与加载)技术对原始数据进行抽取、转换、清洗并转存到标准化的数据模型中,形成集中存储的临床数据集。此数据集与临床业务数据实时同步,为临床诊疗、科研、提供数据服务支撑。医院临床大数据中心整合多个来源的临床数据,提供以患者为中心的集中式的临床数据存储库。通过受控医学词汇表(CMV,controlled medical vocabulary)保证对临床数据语义理解的一致,以提高数据中心的数据质量。
3.2、 临床电子病历数据的分词处理及句法分析 。病历是患者在医院诊断治疗全过程的原始记录,贯穿于患者在医院就诊的各个环节,临床数据中大量有意义的数据就蕴含在电子病历数据中。科研人员需通过关键字或组合条件来搜索电子病历数据。然而,常见的自然语言分词及句法树库在对医学专业的名词进行处理时,会破坏原有的专业词义,这样会严重影响搜索效果。因此,如何通过自然语言与医学专业术语相结合,形成科学合理的分词及句法分析算法显得尤为重要。这就需要结合Snomed、ICD10等专业词库进行分词处理及句法分析,并通过语料训练机进行不断扩展。
3.3、 异构临床数据搜索引擎的实现 。医院临床数据往往是异构的,有关系型数据库表、XML、文本、图像等,临床大数据搜索引擎的关键在于解决快速搜索蕴藏在各类异构数据的关键信息。如通过Mapreduce进行数据的分布式读取,使用Net Lucene进行关键词匹配,实现跨数据域、异构数据的快速搜索。
④展望
大数据的深入应用对生物医学研究的手段方法带来革命性改变。生物医学研究领域常使用统计学方法来处理和分析科学实验或者临床研究的数据,为分析结果的准确性,实验分析抽取样本的数量越来越大,而云计算、云存储等信息技术与医学的结合使临床研究获得大数据更加方便和迅捷,临床医学及流行病学的研究开始基于网络、云计算、大数据存储和大数据样本进行。下一步,我院将通过大数据挖掘及机器学习技术如Mohout等,对积累的大样本临床数据进行更深入挖掘,使其蕴含的大量临床知识更好的服务于临床工作,如找出症状与诊断、术式与预后、用药与不良反应、患者个体差异与同一诊疗方案效果等规律,把规律“总结”成知识,并提供给医生,通过分析总结资深专家的诊疗过程与方案,形成我院基于大数据的“专家知识库”,实现临床知识传承。同时,结合基因测序与诊疗等,探索如何通过大数据技术促进精准医疗的实现方法与路径。
2017 年 8 月 25 日 , 亿欧将举办 “ 破壁 · 融合 亿欧 2017 中国大健康产业升级峰会 ” 。本次峰会将重点关注大健康产业升级、行业变革与创新。活动三大亮点 :1 、会上发起成立 “ 大健康产业联盟 ”,2 、亿欧智库将发布《 AI+ 医疗行业报告》 ,3 、 “ 大健康产业领军 50 人 ” 专题片震撼首发 ! 行业变革势不可挡 , 产业创新方兴未艾。欢迎您报名参会 , 峰会链接 : http://www.iyiou.com/post/ad/id/264