您所在的位置:首页 > hc3i推荐 > 专家专栏 >  【独家】精准医学大数据平台关键技术研究
【独家】精准医学大数据平台关键技术研究
  • 2017-01-04 10:32
  • 作者:神州数码信息服务股份有限公司 王士泉
  • 来源:中国数字医疗网

摘要 目的: 随着医疗机构信息化程度提高和生物医学基础研究、转化医学研究的深入,建设精准医学大数据平台成为必须,本文对精准医学大数据平台关键技术进行探索。方法:通过对精准医学大数据平台建设内容进行分析,明确其技术路线,设计总体技术架构,并对关键技术难点进行论述。结果:针对精准医学大数据平台信息获取、存储、处理与分析、基础平台以及应用几方面,设计出精准医学大数据平台的解决方案。结论:利用的大数据分布式存储和Hadoop技术以及影像融合分析、基因变异点比对分析等手段,设计集成医疗数据和组学数据的精准医疗大数据平台,为实现精准医疗大数据的临床诊疗研究及决策支持提供技术支撑。

关键词 精准医学;数据中心;大数据;Hadoop;决策支持

Precision Construction Content and Key Technology's Medical Data Platform

WANG Shi-quan *

DC ITS Limited ,Beijing ,100080

Abstract Objective With the level of information to improve medical and bio-medical research foundation, the conversion depth medical research, the construction of large precise medical data platform is a must, this article accurate medical big data platform to explore key technologies. Method Through large data platform for building accurate medical content analysis, to clarify its technical route, the overall technical architecture design, and the key technical problems are discussed. Results Get big data platform for accurate medical information, storage, processing and analysis, basic platform and application aspects, design accurate medical solutions for big data platform. Conclusions Utilization of Big Data and Hadoop distributed storage technology and image fusion analysis, comparative analysis of genetic variation points and other means, accurate design healthcare big data platform to integrate medical data and genomics data, medical research for the realization of large precise medical data and clinical decision support to provide technical support.

Key words:?Precision Medical; Data center; Big Data; Hadoop; Policy support

引言

随着医院信息化程度提高和生物医学基础研究、转化医学研究的深入,临床信息和组学数据日益增长却缺乏融合贯通,已成为制约临床诊疗和精准医学研究发展的瓶颈。同时,缺乏生物本体与医学本体融合的技术规范,缺少精准医学大数据的标准化体系及其安全规范和技术架构。为了有效解决临床数据和组学数据的数据难以融合融通的带来的挑战,亟需构建精准医学大数据平台,并设计其大数据标准化体系及安全规范和技术架构。利用精准医学大数据平台提供的技术支撑能力,对接入医疗机构业务系统中的海量临床数据进行获取、存储、处理与分析、构建数据中心、知识库、分析模型库。同时平台还提供数据样本资源库管理、预测/决策模型、数据分析算法库、应用开发工具集、多类应用接口等众多服务,为开展精准医学大数据领域应用研究提供工具支持。精准医学的大数据平台的价值显而易见,笔者根据科研工作实践与信息系统设计经验,对精准医学大数据平台应构建的内容与关键技术环节做出分析,供科研人员参考。[1]

1精准医学大数据平台建设内容分析

精准医学大数据平台建设内容,涵盖数据的采集、录入、保存、索引、提取、安全性、共享形式、信息服务模式,以及全过程的质量控制。[2]并针对各类肿瘤、心血管疾病、呼吸系统疾病、代谢性疾病、神经精神类疾病等,集成电子病历、医学影像、临床检验数据等多类型数据,开展上述疾病大数据的处理、存储、分析和应用研究。核心建设内容如下图1所示:

图1精准医学大数据平台核心建设内容

如上图1,精准医学大数据平台建设主要包括精准医学大数据获取、存储、处理与分析、平台构建以及典型应用五项内容。

1.1 精准医学大数据获取

采用多种数据录入形式或数据库接口完成病例资料的采集和录入,根据不同病种注册登记研究的个性化需求,实现①人工采集录入,②结构化及半结构化病例登记表格的自动识别录入,③支持多种格式的数据库数据导入。同时,完成标准化精准医学数据定义与接口规范制定、精准医学数据质量提升和分布式精准医学数据采集的研究,实现精准医学大数据的自动、网络化、标准化的采集及预处理。[3]

1.2 精准医学大数据存储与检索

包括设计精准医学临床数据库与生物样本库的大数据存储模型,建立精准医学大数据中心,实现精准医学大数据快速索引查询和数据集加载,实现基于HL7规范的临床数据整合。

1.3 精准医学大数据处理与分析

通过汇聚国内外几十个重点精准医学数据库,完成非结构化复杂数据处理、数据结构分布探索和分布式分析模型构建的研究,实现大规模分布式精准医学数据挖掘方法和工具的研发,并重点针对精准医学的临床表型、生化监测、影像资料、系谱和遗传监测等内容建立知识库和分析模型库,实现基于医学术语词典、同义词词典的非结构化病历数据深度分析。

1.4 精准医学大数据平台构建

完成精准医学大数据平台软件系统的开发,实现先进的数据存储与软件计算架构,满足临床及研究的应用要求;开发精准医疗大数据可视化工具,通过松耦合的方式集成在平台中,用于临床数据与精准医疗基因组数据的汇交展示。[4]

1.5 精准医学大数据应用

实现精准医学大数据应用功能研发,包括影像融合分析、影像数据挖据、基因数据比对等,提升临床诊疗应用水平,发布基于样本分布的我国精准医学的发病率、患病率及死亡率等宏观数据。

由于精准医学大数据领域研究内容广泛,本文限于篇幅,仅对精准医学大数据平台软件体系架构进行重点说明。对于标准化精准医学数据定义与接口规范规则,精准医学术语库、临床信息与大规模组学数据的表述以及组学模型,基因-疾病-预后关系等分析模型等细节,不在此阐述。

2精准医学大数据平台技术要求分析

精准医学大数据平台在研发上应遵循现有医学标准,设计医学数据上多层次,多维度的安全保护措施,采用针对融合数据特点的大数据存储方法和数据传输方式,并提供查询检索和浏览等应用,以及开发以精准诊疗为目标的深度数据挖掘和机器学习算法。笔者认为,精准医学大数据平台建设应符合下列技术要求:

(1)精准医学大数据平台,应是一个基于SOA(Service-Oriented Architecture)架构的基础性支撑平台,在平台提供的技术以及业务组件上,能够开发多个管理、检索、计算和处理医学大数据的应用系统。

(2)平台具有长期稳定的PB级以上的云存储与云计算资源支持。能够实现分布式文件存储,分布式计算框架以及NoSQL 数据库,实现大数据安全存储和高性能计算,具备容量动态扩充和容灾能力。

(3)所建立的技术平台保证7×24 小时不间断工作,可满足3000人次以上的稳定并发检索和计算需求。

(4)安全体系贯穿于精准医学大数据平台的每个层次,以确保符合标准医学数据的安全获取、存储、传输和处理,并建立不低于2份的精准医学大数据平台安全备份和镜像系统。

3精准医学大数据平台总体技术架构

精准医学大数据平台是支持下一代企业级计算关键技术的大数据处理平台,我们将其分为五个层次,包括数据源、获取层、数据层、能力层与应用层。如下图2所示:

图2精准医学大数据平台总体技术架构图

如上图2,获取层支持从多数据源的异构数据进行实时数据集成,提供分布式环境下的ESB总线,通过ESB能够与第三方系统进行服务整合访问;数据层包括了对结构化和非结构化数据的存储,以及数据建模、开发、测试等集成环境;能力层提供内存计算、规划计算、数据挖掘、流计算等各种精准医学计算服务。应用层提供包括精准医学诊疗决策、权威发布、数据可视化、模型预测等工具以及众多主题分析。未来,还可以依托精准大数据平台,拓展多种服务渠道(网站、微博、微信、移动APP等),向更多的服务对象(如患者、社会公众、合作单位等)提供健康大数据分析等信息服务。[5]

技术架构中关键环节说明如下: 

3.1 数据采集

负责源数据的采集、清洗、转换和加载。关键步骤:把原始的非结构化数据加载到Hadoop平台;把加工后的数据加载分布式数据库和主数据仓库。这里包括利用ESB(Enterprise Service Bus)实现分布式数据的获取,利用标准化精准医学数据规范定义ETL(Extract-Transform-Load)工具,实现对源数据的清洗、转化等操作。[6]

3.2 Hadoop平台

Hadoop是一个对大数据进行分布式处理的开源的云计算基础架构,具备按位存储和处理数据的高可靠性,非常适合处理海量的非结构化数据。在本平台中,设计利用Hadoop存储海量的医学影像数据、基因数据,提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。

3.3 分布式数据库(MPP)与主数据仓库

用于存储加工、关联、汇总后的疾病数据,并提供分布式计算,支撑数据深度分析和数据挖掘能力,向主数据仓库输出深加工和高度汇总的疾病数据集合,数据存储支持PB级。

3.4 数据统一服务能力

平台向精准医学大数据应用方提供计算能力、分析能力、挖据能力等云服务能力,数据接口规则符合HL7、FHIR标准体系的要求。

4精准医学大数据平台逻辑架构与数据采集方式

精准医学大数据平台通过互联区域内各大型医院、医疗研究机构,将其信息系统数据通过企业服务总线进行传递,建设包括临床数据库与生物样本库的精准医学大数据中心,并提供基础查询服务。系统逻辑结构如下图3所示:

图3精准医学大数据平台逻辑架构图

如上图3,精准医学大数据平台对外提供互联接入功能,通过部署在各医院、各研究机构的前置机获取存储在各医院HIS、LIS、RIS等系统中的临床数据与组学数据,并通过符合HL7、IHE数据标准的企业服务总线ESB(也有称为HSB,Healthcare Service Bus),来实现基于消息的路由转发,并将信息汇聚到精准医学数据中心内。精准医学大数据平台的基础功能包括注册服务、数据存储及查询服务等。平台对外提供信息门户,向医院工作人员、医疗机构研究人员提供病历资源管理、病历浏览器、科研决策支持展现等服务支持。

精准医学大数据采集方式包括人工采集、文档采集与业务系统获取三种方式,如下图4所示:

图4精准医学大数据采集的三种方式

通过设计符合HL7、DICOM、ICD-10、SNOMED等国际标准的精准医学数据采集与展示工具,实现WEB表单录入、文档上传、批量上传等多种采集方式,处理各接入医疗机构的多种文档格式,并提供基础指标项管理、专题指标项管理、模板管理、模板下载管理、基础信息维护(包括用户、单位、术语等)、数据检查、数据规则约束、目录管理、数据上传管理、数据发布管理等功能。

5精准医学大数据平台数据架构与展示平台架构

根据总体技术架构的描述,设计精准医学大数据平台数据架构如下图5所示:

图5精准医学大数据平台数据架构图

如上图5,精准医学大数据平台对数据处理的主要流程包括:

(1)通过前置机将对各接入单位信息系统的源数据进行采集,并发送到ESB,通过平台提供的ETL工具进行数据的清洗、转换和入库,数据清洗时应遵循精准医学数据规范定义;

(2)将通过ETL清洗后的基础数据(即多疾病临床及组学数据的共同信息)加载到主数据仓库;

(3)数据清洗、转换后的ODS(Operational Data Store)加载到分布式数据库,在分布式数据库内完成明细数据(即疾病特有信息)和轻度汇总数据的加工生成;

(4)ODS数据和非结构化数据,如存储影像、基因组数据到Hadoop平台做长久保存;

(5)非结化数据分析处理在Hadoop平台完成,产生的结果加载到分布式数据库;

(6)生成指标数据和高度汇总数据加载到主数据仓库;

(7)精准类业务应用通过数据访问接口获取所需求数据。

在精准医学主数据仓库、分布式数据库以及Hadoop平台的基础上,建设针对精准医疗大数据可视化管理及服务平台,其架构如下图6所示:

图6精准医学大数据可视化管理及服务平台架构图

如上图6,建立通用的注册表提取主数据仓库中多疾病临床及组学数据中的关键共同信息,在通用的注册表管理架构基础上进一步扩展针对特定疾病及数据自定义的注册表,结合两者实现纵向多维度疾病数据注册管理。研发数据融合及查询服务,包括对一般源数据的检索及浏览、临床决策及知识库服务、组学分析及基因点比对分析等服务。对外,提供精准医学大数据的展示平台的信息可视化工具,例如管理仪表板,统计图表工具及特定报表功能模块。

6精准医学大数据平台服务总线架构

ESB作为精准医学大数据平台的通讯枢纽和信息交换平台,需要高效、有序地实现各系统之间的互连互通,降低各系统间的耦合度,提高信息系统总体架构的灵活性,使系统平滑地向基于面向服务的应用架构(SOA)演进。根据上述要求设计平台服务架构如下图7所示:

图7精准医学大数据平台服务总线架构

如上图7,采用基于中心交换系统(ESB总线为核心)与可定制的前置交换软件系统来实现各医疗机构间临床及组学数据的交换与共享。其中ESB(Enterprise Service Bus)符合IHE(Integrating the Healthcare Enterprise,医疗信息系统集成)标准。ESB能够通过基于内容的路由和方便的数据转换引擎来实现消息(包括HL7、X12、CDISC、DICOM、HIPAA、自定义结构消息等)和Web服务调用的统一处理,满足接入的各单位间数据传输与管理部分的交换要求,并能够对分散在各接入单位的前置机进行统一维护和管理,以及对数据交换的状态进行动态监控等。前置交换系统能够从各单位已有的信息系统、数据库(支持Oralce、MSSqlServer、MySQL等)或文件中进行罕见病相关数据的抓取、转换、封装并对从中心交换发过来的消息进行的监听、处理等。其中,支持的数据格式包括XML、MS-Excel、Raw Data、XSLT Stylesheet、ASC X12、Delimited、HL7、Edifac、LDIF等类型。支持的传输方式包括Web Service, JMS和FTP等。

7平台安全策略设计

精准医学数据量为PB级别,数据量大、异构且类型多样,对数据的高可用性、数据的实时性、可扩展性、容灾能力等提出很高的要求。

拟采用SSL(安全套接层)加密,分离密钥和加密数据,使用过滤器和数据备份等方式,构建数据的存储安全策略。精准医学主数据仓库中存在大量业务数据以及个人身份信息等敏感数据,对于这部分数据的完整性、保密性、数据备份等安全因素采用数字证书、电子签章、数据库加密、数据库备份等技术进行有效控制,保证敏感数据以密文形式存储,以实现存储层的安全加固,有效防止由于明文存储引起的泄密;防止外部非法入侵窃取敏感数据;防止内部高权限用户数据窃取;防止合法用户违规数据访问。

设计具备实时检测能力与事后回溯能力的审计方案以及用户访问控制、数据实时分析引擎,第一时间挖掘出网络异常、非法操作、潜在威胁等安全事件,建立数据的应用安全策略。

精准医学大数据平台建设是一项有序的、动态的、可持续发展的系统工程,应通过在统一的安全规范框架内,设计基于多源、异构大数据为中心的安全系统,并研究管理方法,提供数据管理安全策略。

精准医学大数据平台属于医疗卫生行业大数据应用的典型案例,平台的安全性应达到国家信息安全等级保护三级要求。其中,机房、主机、网络等基础设施安全,在技术实现上相对成熟,这里重点论述应用安全及数据安全的策略。如下图8所示:

图8精准医学大数据平台应用及数据安全架构

如上图8所示,从身份鉴别、访问控制、安全审计、通信完整性、通信保密性、软件容错、资源控制以及数据安全八个角度出发,进行防护、检测、响应和恢复等安全设计,实现精准医学大数据平台应用系统安全保障的可管、可控、可视和合规。在应用系统设计过程中,主要利用PKI平台、商业化的统一信任管理平台、数据库安全防护产品以及数据库备份软件产品来实现应用安全与数据安全的防护要求。采用CA证书、电子签章与数字公钥的技术,实现应用系统身份鉴别、通讯完整性与保密性的要求;采用商业化的统一信任管理平台产品实现集中认证、授权、审计与资源控制,满足身份鉴别、访问控制、安全审计与资源控制要求;采用商业化的数据库加密与备份软件,提供数据安全管理、数据加密与脱敏、数据实时备份功能,满足数据完整性、数据加密与数据备份的要求。

8主要技术指标

精准医学大数据平台应建设应遵循的主要技术指标如下:

(1)遵守开放的国际标准,包括DICOM、ICD-10、SNOMED、HL7标准,数据访问符合Web服务技术规范,并提供面向HIS/PACS等医学信息系统数据导入接口。

(2)采用基于SOA(Service-Oriented Architecture)架构的数据交换与共享技术实现不同医院、机构之间异构应用系统间罕见病历、诊疗、检验、医嘱等信息的交换与共享。采用企业服务总线ESB技术实现各系统集成,通过服务组装的方式适应需求以及业务的调整优化。

(3)采用基于元数据的数据清洗与转化技术,保证来自不同系统和医院的病历、数据的一致性,保证数据质量,并建立数据质量控制标准。采用基于前置机交换方式的分布式数据采集与安全传输技术和基于HL-7/DICOM标准的数据采集接口,保证分布、异构数据的快速采集与安全传输。

(4)实现分布式病历数据获取,本地数据传输效率每个病历应小于5秒,远程数据传输效率每个病历小于10秒,本地影像传输时间小于0.2秒/层,远程影像传输时间1秒/层,数据清洗、转换、加载效率每个病历小于10秒;

(5)数据存储能力大于1000TB,构建超过20个以上的多疾病临床组学数据库,入库信息应包括临床资料和生物样本。

(6)提供包含医学影像处理(影像增强、分割、检测、可视化等)、医学文本处理(关键词提取、病历命名实体识别、文本分类等)和数据挖掘(数据分类、聚类分析、关联分析等)基础组件库;提供针对肿瘤疾病、心血管疾病、呼吸系统疾病、神经精神系统疾病等分析模型的建立工具与BI(Business Intelligence)展现工具;提供精准医学大数据统计分析报表功能;

(7)精准医学大数据平台服务端能够实现7×24小时不间断运行,支持大于3000个用户在线访问。一般检索业务的响应时间应小于5秒,复杂类业务的响应时间不一般超过15秒。

9创新点描述

采用本文设计的总体技术架构、数据架构及展示架构,构建精准医学大数据平台可带来如下创新:

9.1 标准化精准医学数据定义与接口规范

当前临床数据研究中,在数据获取方面基本采用原始数据进行清洗、存储到数据仓库中,或者直接从临床数据库(CDR)中导出,但是这些数据的设计并不是为分析准备的,缺乏数据内容针对性。本文提出一种开发一种标准化精准医学数据规范定义(ETL)工具,快速适应当前异构分布式的数据环境,从生物本体与组学数据角度定义数据抽取与清洗规则。

9.2 构建多中心智能化精准医学研究共享环境

整合多家医院、研究机构的临床数据资源信息,形成精准医学数据整合共享平台,梳理国内外已积累的研究成果及诊断病例信息,实现资源互通。

9.3 构建多地域的精准医学大数据中心、知识库、分析模型库

以精准医学大数据平台为基础,便于构建包含多个地域(多家医院)的、精准医学相关的电子病历、医学影像、化验检查等资源的大数据中心,并可灵活集成国际医学知识模型以及精准医学疾病分析模型库。[7]

10技术难点分析

10.1 多源异构临床数据的动态聚合与冗余去除

传统异构数据集成大都采用访问者直接和DBS(Database System)服务接口交互。这种交互方式增加了异构数据集成的复杂性和重复性。如何设计一个动态联合数据中心库,实现分布式异构数据集成的智能化处理是一个技术难点,在本文中采用中心交换+前置交换+数据仓库的方式解决。同时,如何利用拆分数据、分析数据、整合数据的机制实现高效率低成本的数据存储,利用压缩感知采样方法来对数据进行压缩和去除冗余,显著减少样本的数据量也是需要专业的数据处理技术支撑的。

10.2 分布式精准医学大数据分析模型建立与动态应用

现有的数据分析方法基本都是适应小样本数据训练,无法适应大规模并且具有噪音的数据,如何将大数据分析模型并行化处理是平台研究的重点和技术难点。为了适应不同的精准医学大数据应用需求,基于平台中已有的分布式大数据分析模型,如何动态构建精准医学大数据应用原型是另一个相关联的技术难点。可采用基于分析组件的流程定义技术来有效解决这个问题。此外,对非结构化病历数据的深度分析模型,以及影像融合分析、基因变异点比对分析等技术,目前国内尚无具有自主知识产权的成熟软件产品来支持,特别是对于影像数据挖掘,智能机器人语义分析、非结构化病历处理等工具,核心技术大多掌握在如飞利浦、IBM、InterSystems、Orion等国外厂商手中,研究往往受制于国外产品技术壁垒。

10.3 大数据平台架构的高可扩展性与应用组件高复用性

医学数据分析需求多样且具有较强的专业性和复杂性。通用大数据分析平台的局限性很难适应精准医学大数据分析的全部要求,因此构建高可扩展性的平台架构满足不断出现的新的医学大数据分析需求是平台建设的一个技术难点。与此对应的,精准医学大数据应用系统研发如何共享、复用平台的大数据处理、分析算法组件也是一个需要重点解决的技术点。

11结语

目前,精准医学的概念炒作的较为火热,各地卫生研究机构,大型医院等纷纷开展精准医学的研究,特别对于精准医学、转化医学、罕见病队列以及肿瘤大数据平台的建设是普遍关注的话题。这类大数据平台建什么?怎么建设?让医疗研究机构相关管理者感到困惑。笔者以精准医学大数据平台为例,给出设计思路并分析了技术细节与关键点,供相关读者参考。通过建设精准医学大数据平台,提供组学数据和临床数据的管理及服务能力;提供分布式数据分析模型及数据深度挖掘算法的集成;提供多种访问和集成接入方式,实现数据的共享、临床诊疗和科学研究;以及提供针对精准医学大数据研究的应用功能开发,包括依托大数据平台体系的规范化诊疗质量控制体系的建立、基于大数据的临床诊疗研究及决策支持等。


参考文献

[1] Hessels A, Flynn L, Cimiotti JP, et al. Impact of Heath Information Technology on the Quality of Patient Care [J]. Online J Nurs Inform, 2015 , 19.

[2] Spyropoulos B, Botsivali M, Tzavaras A, et al. Supporting in- and off-Hospital Patient Management Using a Web-based Integrated Software Platform [J]. Stud Health Technol Inform,2015,210:439-43.

[3] Savci-Heijink CD, Halfwerk H, Koster J, et al. A novel gene expression signature for bone metastasis in breast carcinomas [J]. Breast Cancer Res Treat,2016,156(2):249-59.

[4] Li J, Meeks H, Feng BJ, et al. Targeted massively parallel sequencing of a panel of putative breast cancer susceptibility genes in a largecohort of multiple-case breast and ovarian cancer families [J].Med Genet, 2016,53(1):34-42.

[5] Metzeler KH, Herold T, Rothenberg-Thurley M, et al. Spectrum and prognostic relevance of driver gene mutations in acute myeloid leukemia [J]. Blood, 2016,128(5):686-98.

[6] Spyropoulos B, Botsivali M, Tzavaras A, et al. Supporting in- and off-Hospital Patient Management Using a Web-based Integrated Software Platform [J]. Stud Health Technol Inform,2015,210:439-43.

[7] Shevrin DH. Genomic predictors for treatment of late stage prostate cancer [J]. Asian J Androl,2016 ,18(4):586-91.

通讯作者:王士泉,1978年2月,男,信息系统分析师,电话:010-62694807,E-mail:wangsqa@dcits.com。

转载请注明出处:HC3i中国数字医疗
【责任编辑:孙杨 TEL:(010)68476606】

标签:精准医学  大数据  
  • 分享到: