★-基于Hadoop大数据技术的脑卒中智能诊疗平台研发要点.doc

资源描述

1、基于Hadoop大数据技术的脑卒中智能诊疗平台研发可行性报告和经费概算目录一、项目可行性报告1（一）项目实施的意义1（二）现有基础条件2（三）技术解决方案43.1研究内容以及相应的解决方案43.1.1构建脑卒中医疗数据仓库43.1.2建立单病种电子病历53.1.3构建柔性临床路径73.1.4对海量脑卒中医疗数据进行数据挖掘93.2关键技术103.3主要创新点11（四）项目实施目标和市场分析114.1主要技术指标114.2主要经济指标124.3知识产权12二、经费概算12（一）经费概算列表12（二）经费概算说明14基于Hadoop大数据技术的脑卒中智能诊疗平台研发一、项目可行性报告（一）项

2、目实施的意义脑卒中是一种以脑部缺血及出血性损伤症状为主要临床表现的疾病，又称作脑中风或脑血管意外，具有极高的病死率和致残率，主要分为出血性脑卒中(脑出血或蛛网膜下腔出血)和缺血性脑卒中(脑梗塞、脑血栓形成)两大类，以脑梗塞最为常见。脑卒中发病急，病死率高，是世界上最重要的致死性疾病之一。据世界卫生组织（WHO）公布的数据，全世界每年有1600万人死于心脑血管疾病，占总死亡率的60.7%。根据我国卫生部最新统计数据显示，我国每年发生脑卒中达200万，现幸存脑卒中病人700 万，其中450万病人不同程度丧失劳动力和生活不能自理，致残率高达75%。正是由于这种疾病的高致死率，引起了各大医疗机构的重视

3、。以往的医疗系统，存在着几大问题：一、只是对脑卒中病人数据单纯的记录，无法将这些记录的数据转化为有用的信息，为医院治疗脑卒中病人提供必要的数据基础。医院对于数据的处理，仅限于录入、修改、删除、统计和查询等数据库的低层次应用，缺乏对数据的集成和分析，更谈不上在这大量的数据资源中挖掘深层次的、隐含的、有价值的知识；二、各大医院使用各自的医疗系统，同样的病人数据采用不同的记录规则，导致了脑卒中病人信息无法集成，例如浙一医院和它的各个附属医院，因为使用的电子病历系统的差异，各个附属医院的脑卒中病人数据无法被浙一医院使用，大量的病人数据只是成了摆设，出现了“数据丰富，无法统一”的现象。因此如何充分利用这

4、些宝贵的信息资源来为疾病的诊断和治疗提供科学的指导、为医院领导决策提供科学依据，已经成为迫切需要解决的问题。三、目前各大医院的医疗系统只是针对普通疾病，而脑卒中病人信息的记录方式，诊疗方式无法在现有医疗系统中体现，无法为脑卒中病人提供更高效，更高质量的治疗。基于以上存在的问题，脑卒中智能诊疗平台研发已经迫在眉睫。首先，诊疗平台运用人工智能领域的知识，将案例推理、数据挖掘技术等应用到脑卒中诊疗中，设计脑卒中临床路径，协助医生治疗，提高诊断的效率和准确度。其次，使用诊疗平台的各大医疗机构，在平台的统一数据格式下可以实现最大化的数据共享和使用，将各大医疗机构的脑卒中病人数据集中，为将来的数据挖掘提供

5、强大的基础。在脑卒中智能诊疗平台的帮助下，将极大程度的帮助医生治疗脑卒中病人，提高治疗的效率和质量，从而降低脑卒中病人的致死率。（二）现有基础条件项目团队由浙江爱达公司、浙江工业大学、浙江大学医学院附属第一医院联合组成。在医疗信息系统的理论和应用研究上已有一定积累。浙江爱达科技有限公司开发了电子病历系统、PACS系统、住院病人随访系统等医院关键信息系统，已经在多家医院投入使用，在医疗系统方面有着大量的技术人员和技术经验。在国内率先提出了柔性临床路径，获得了卫生管理部门的高度重视。现在已有的电子病历系统、PACS系统、住院病人随访系统都可以移植到脑卒中智能诊疗平台中，为平台的成功构建提供了良好

6、的技术基础。浙江工业大学在数据库技术、数据挖掘技术、信息安全技术、图论与Petri网技术等领域发表论文100余篇，其中SCI收录28篇，EI收录50余篇。为本项目的顺利进行提供了有力的科研和技术保障以及学术理论上的支持。浙一医院神经外科为国家重点学科，外科中心拥有独立的神经外科实验室，可进行显微神经外科操作培训、颅底外科解剖训练及神经干细胞培养和脑组织移植的相关基础和临床科研工作。该中心还拥有西门子PET/CT、西门子回旋加速器、瓦里安直线加速器、飞利浦3.0T磁共振、多排螺旋CT、三维脑血管DSA系统、手术显微镜、术中多普勒超声仪、超声手术刀、四合一YAG激光、神经内镜、面神经监护仪、神经刺

7、激仪、术中脑电图监测系统、开颅高速气钻及微型磨钻等一系列先进设备。开展重症监护、颅脑创伤、脑血管疾病、小儿神经外科、脑肿瘤及脊髓脊柱等神经外科疾病的诊治，并积极筹建功能神经外科与伽玛刀中心。因此，该医院在脑中风领域上有很丰富的治疗经验和先进的医疗设施，能够为平台的搭建提供足够的数据支持和有关脑中风专业知识的指导，也为平台的前期推广提供有效的途径。项目团队大部分成员通过合理组织，包含了所需的各方面专业技术和管理人员，包括了由博士和高级职称人员组成，具有相关的技术知识和经验的研究人员；包括了具有几十年医院临床经验和管理经验的高级医务人员；也包括了具有丰富医院信息系统开发经验和技术的计算机开发人员。

8、项目团队主要成员和骨干成员介绍如下：项目负责人：张端，男，博士，副教授，硕导，1972年生。他主要从事信息系统和控制工程的研究。迄今为止，他承担和参与了多项国家基金、863、省部级项目以及多项企业合作项目；申请和授权发明专利8项；发表论文20与篇，其中SCI收录7篇，EI收录10篇，并在图论与Petri网技术领域发表了3篇SCI论文，为本项目的研发打下了坚实的理论基础。目前主要研究方向为：智能医疗信息系统。主要项目：1. 负责国家自然科学基金项目，研究内容：复杂动态过程的控制和优化，2007.12009.122. 作为副组长共同负责863计划项目，研究内容：复杂生产过程的策略研究， 2006.

9、122008.123. 参与863计划项目，研究内容：复杂生产过程的集成建模与协调优化控制技术研究，2009.44. 负责企业合作项目，研究内容：智能外贸信息系统，时间：2010.62011.6； 5. 负责企业合作项目，研究内容：医疗用品包装图像检测系统，时间：2011.62011.12； 6. 参与企业合作项目，研究内容：海南RFID智能卡一卡通系统的研发，2010.32011.12； 7. 参与企业合作项目，研究内容：供电局机房监控系统， 2006.12008.12；承担工作：作为项目负责人，负责项目的关键技术研究和任务分工，并管理经费的合理使用，保障项目质量和时间进度，同时，负责与合作

10、单位的协调和沟通。项目主要成员：潘剑威，男，浙江大学医学院附属第一医院神经外科副主任医师，从事神经外科工作10年，主攻脑血管外科，擅长脑动脉瘤、动静脉畸形、脑动脉狭窄等脑血管疾病的介入手术治疗。承担工作：负责与合作单位的协调和沟通，并承担部分需求分析工作。项目主要成员：庄华亮，男，博士，归国留学人员，1967年生。分别于1994和1997年在浙江工业大学获得工学学士和工学硕士学位。1998年赴新加坡南洋理工大学电气工程学院，2000年获硕士学位。2000年至 2002年, 新加坡国立大学化学与环境工程系担任科研工程师。2002年至 2003年, 在新加坡策技系统公司担任研发工程师。2004

11、年至2009年, 新加坡南洋理工大学电气工程学院自动控制与仪器仪表系学习,获博士学位。2009年至2011年, 新加坡南洋理工大学电气工程学院卫星研发中心担任研究员(research associate) 。2012年起浙江琴江科技有限公司从事智能系统和模式识别领域的研发工作。主要项目：1. 参与新加坡环境部委托项目“ modeling and optimal control of pulse-jet fabric filters”， 2009.12011.62. 参与新加坡国防部委托项目“Multi-spectral satellite image analysis and object d

12、etection”, 2006.12007.12承担工作：负责柔性临床路径系统的软件项目管理和数据挖掘算法开发。（三）技术解决方案3.1 研究内容以及相应的解决方案3.1.1 构建脑卒中医疗数据仓库目前浙一医院及其附属医院都有自己的数据库，脑卒中电子病历数据处于分散状态，而且由于采用不同的数据库技术，各种病历之间的格式也不统一。因此，需要对这些数据进行整合，以Hadoop的分布式数据仓库Hive为技术平台建立一个完整的医疗数据仓库，以备数据挖掘之需。数据仓库构建的整个过程包括数据抽取，数据转换和数据加载，即ETL。1）数据抽取本研究需要从各家医院的数据库中抽取有关脑卒中的电子病历数据，所以

13、需要利用数抽取工具Sqoop，从脑卒中电子病历所用的各种传统关系型数据库中抽取数据。然后在Hadoop平台上建立Hive临时数据库，用于存储抽取到的脑卒中数据。2）数据转换由于各家医院的电子病历系统建立方式不同，所以其数据存储的模式也有差距，这就导致了格式上的差异。而且脑卒中有很多分支，包括缺血性和出血性的，再往下还可以细分出很多病种，比如脑梗死，脑栓塞，颅内出血，蛛网膜下出血等。各医院之间对这些病又都有自己的治疗方式和流程。因此，这会导致抽取过来的数据格式多样和混乱。本研究需要对这些数据进行格式的转换和统一。由于该数据仓库最终目的是用于数据挖掘，所以我们可以删除一些不重要的信息，比如病人的

14、姓名，证件号码以及家庭住址等。一些电子病历会有数据不全的现象，比如病人的其他相关症状等信息，我们采用缺省值方式对这些字段进行补齐。最终保留病人的临床表现（口眼歪斜，半身不遂，老年痴呆等），相应的诊断结果（出血性中风或缺血性中风），治疗手段，所用的药物，治疗结果以及后遗症等信息。然后对这些数据进行重组，再建立一个新的Hive数据库，保存重组信息。3）数据加载由于原先的重组数据库都是针对每家医院的电子病历系统分别建立的，因此，我们需要将这些分散的数据库整合到一起。第三次建立Hive数据库，作为最终的数据仓库，将各个重组数据库数据加载到数据仓库中，完成整个数据仓库的建立。整个数据仓库的ETL过程如

15、图3-1所示：图3-1基于Hive的分布式脑卒中医疗数据仓库ETL过程3.1.2 对海量脑卒中医疗数据进行数据挖掘目前，医生对脑卒中的临床分类诊断的正确率只有70%左右；以头颅CT和核磁共振检查诊断较为可靠，但其价格昂贵；且因CT和核磁共振检查需搬动病人，易加重病情；尤其是CT和核磁共振检查对早期脑缺血常出现假阴性。寻求对脑卒中作早期分类诊断的正确适用方法，一直成为医学研究中的重要课题。因此，本研究利用决策树算法分析海量脑卒中电子病历中的临床症状指标和诊断结果进行分析，生成一套精确而且通用的判别标准。当医生输入病人的临床指标后，系统会根据先前制定的标准对这些指标进行分析，得出正确的诊断结果。此外，当前各医院对脑卒中的治疗方式和手段都不统一，而且用的药也不一样，当病人在治疗过程中更换医院时，就会产生治疗的不规律。因此，本研究将会利用关联规则算法Apriori对脑卒中病历数据中各种症状和治疗手段以及用药之间的分析，导出一系列的关联规则作为医生制定治疗方案以及用药的参考标准。目前，对于医疗数据挖掘算法用的比较多的是Apriori，而传统Apriori算法最大的不足就是每次寻找频繁项目集都需要扫描整个数据集，当项目数较多时，就要花大量的时间去扫面数据集，从而严重影响了算法的效率，这成为了 Apriori 算法的瓶颈。因此，我

展开阅读全文