改进决策树模型及其在医学诊断数据分类应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:chaba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学诊断技术的进步与我们每个人生命健康息息相关,随着科学技术的发展,许多研究学者对人工智能技术在医疗诊断领域的应用非常关注。其中癌症是对人类极具威胁的一大病种,患者预后治疗效果备受关注,一般通过五年生存率来衡量癌症患者经过治疗后的治疗情况。根据柳叶刀全球健康数据统计,目前大部分癌症的五年生存率仍然较低,例如肺癌、肝癌、胆囊癌和胰腺癌等等,其五年生存率均不足20%。也因为医学治疗过程的特殊性,仍然存在获得数据难、获取途径局限等带来的问题。一般情况下可获取的数据属于多模态数据包含了类别型数据(研究对象的基本信息等数据)和连续型数据(研究对象进行X摄像扫描检查形成的DR图或CT图等数据),目前许多研究和应用都是基于单一数据类型进行建模的,数据信息未得到充分地利用,因此如何有效结合不同类型的数据建立统一的模型是具有研究意义和探索价值的。本文将结合决策树模型在该领域的研究热点和数据特点,展开以下方面的工作。建立可靠有效的癌症预后模型对患者预后治疗具有重要意义,因此我们首先针对基于五年生存率的数据划分方式带来的类别不平衡问题,提出了一种将改进的SMOTE方法和深度森林相结合的模型DF-SMOTE,并通过广东省人民医院提供的早期肺癌预后情况数据,与风险回归COX模型进行对比实验。其中构建模型的分类器还使用了两种单分类器(支持向量机和决策树)以及集成方法随机森林,结果表明DF-SMOTE模型明显优于其他方法,测试准确率比SVM-SMOTE模型提升约8%,验证了DF-SMOTE模型对处理不平衡类别型数据集的有效性和优越性。最后通过可视化决策树的决策过程分析了各个特征带来的作用,以及通过特征重要性分析图呈现了特征重要性从高到低的排序,这对我们的特征筛选起到重要的指导作用。另一方面本文结合类别型数据和连续型数据这两种类型的数据,基于决策树结构框架以及结合神经网络,借鉴深度神经决策森林和软决策树方法,提出了针对多模态数据的混合网络模型(Hybrid Network for Multimodal Data,HN-MD)。使用广东省人民医院提供的先天性心脏数据集实验,包括了患者基本信息等类别型数据和DR图像连续型数据,是一种典型的多模态数据集,并对中间分裂结点中CNN的设计使用不同的经典网络如VGG16、Inception-V3和Xception方法进行对比实验,分别记为HN-MD-VGG16、HN-MD-Inception和HN-MD-Xception。我们分别采用单一DR图像数据和多模数据集进行实验,单一数据实验结果表明HN-MD系列的方法均明显比随机森林方法表现更好,测试集准确率提高了约5.22%,在该基础上加入类别型数据,构成多模态数据集,其结果显示三种方法使用多模态数据的效果均比优于单一DR图像数据集,测试集准确率约提高了1%,这验证HN-MD方法的可行性和有效性。
其他文献
课程是从学科知识中选择一部分“最有价值的知识”组成教学内容。随着知识从混沌到形成清晰分类再到交叉融合,大学课程形态也发生着改变。当前,跨学科课程已成为世界范围内大学课程变革的重要趋势,被赋予培养复合型创新人才的重大使命。本文从知识角度回顾了大学跨学科课程的历史演进,厘清了跨学科与相关概念的区分,指出跨学科的本质在于实现知识整合,跨学科课程内容应凸显知识整合过程及结果,以培养学生跨学科思维与解决复杂
半纤维素和纤维素是具有高分子结构的天然聚糖化合物,是木质纤维的重要组成部分。相比人工合成的高分子,半纤维素和纤维素具有可生物降解、生物相容性好、可再生等优势,而纳米化纤维素还具有更高的纯度、杨氏模量、高强度、亲水性、超精细结构和透明性等特性,因此近些年二者在高分子材料、生物医药和纳米材料等方面的研究受到很大关注。半纤维素和纳米纤维素的组分分离是其能够应用于新能源、新材料以及新型化学品等领域的第一步
肿瘤分为良性肿瘤和恶性肿瘤,恶性肿瘤又叫癌症,因具有生长速度快、转移性强等特点,已经成为威胁人类健康的首要因素。根据2020年全球最新癌症统计数据,仅2020年全球新发癌症病例1929万例,全球癌症死亡病例约996万,这个数值相当于有20人在一分钟内因患癌症而失去宝贵的生命。传统的肿瘤治疗方式包括化疗、手术、放疗,虽然这些手段能在一定的程度上达到治疗目的,但在治疗过程中患者要承受极大的痛苦并伴随着
电力系统要实现碳达峰和碳中和,就是要构建以新能源为主体的新型电力系统。作为极具发展前景的清洁能源,光伏发电在电力系统装机容量中所占比例越来越大。大规模的光伏并网造成的电能质量问题给电网带来诸多挑战,光伏并网系统的间谐波问题就是其中之一。建立光伏并网系统的间谐波分析模型是进行相关研究的基础,因此,本文围绕光伏并网系统的间谐波分析模型开展研究工作,主要研究工作包括:(1)通过合适地选取动态相量模型的基
与系统给药相比,局部药物递送能够显著提高给药部位的药物浓度和利用率,降低药物对其他部位的毒副作用。经典的局部给药多是将药物分子直接包载于载体材料或植入物中,性能较为单一,难以有效满足病理特征复杂或给药要求严格的疾病治疗需求。纳米颗粒结构多样、性能可调,在药物递送领域应用广泛,但也存在经系统给药后,药物递送效率不高、病灶部位药物富集不足的问题。将局部药物递送系统与纳米颗粒结合制备的纳米复合局部给药系
远程听诊可使心血管慢性病患者足不出户享受随诊服务,极大地降低患者的医疗成本。异常心音识别是远程听诊功能的重要组成部分,其对于实现患者初筛及长期居家监护具有重要意义。本文针对远程听诊,研究并开发具有降噪功能的无线电子听诊器以及异常心音识别算法,主要研究内容包括:1)心音降噪:针对第一、第二心音幅值过高导致的自适应滤波器参数周期性失调,引入预处理改进传统的双麦克风降噪算法,以减小参数失调,提高心音信噪
近年来,我国社会经济不断发展,同时人民的出行需求在也不断增加,造成城市道路交通问题进一步恶化。社交媒体已经成为交通研究的重要数据来源,因为社交媒体内容具有丰富的语义,所以社交媒体数据不仅可以用于识别交通异常发生的时间和地点,还可以识别交通事件背后的原因,即交通事件的具体类型。因此通过社交媒体提取出的交通信息为交通管理部门提供交通舆情,为交通治理提供交叉验证、后评估的作用,可根据此数据分析不同交通事
《青藏高原生态保护法》需要国家发挥高地生态宏观调控机制,从全局上对青藏高原生态保护提供战略性、全局性和宏观性的指导和引导,实现青藏高原可持续发展。高地宏观调控机制是《青藏高原生态保护法》立法的必然选择,我国现行《宪法》为其提供了正当性依据。在具体实施路径上,应明确高地生态宏观调控的权力主体、央地事权划分标准,制定由中央发挥高地生态宏观调控机制的事权清单,规范宏观调控工具,并注重差别性和特殊性的制度
目的:心肌纤维化以细胞外基质合成与降解失衡为特征,是多种心血管疾病的重要病理过程,进一步进展会导致心力衰竭的发生,目前其发病机制尚不明确。成纤维细胞生长因子(Fibroblast growth factor,FGF)具有广泛的生物学作用,FGFs中的FGF2、FGF16、FGF21、FGF23被发现参与了心肌纤维化的调控。目前尚未有文献报道FGF7对心肌纤维化的作用,FGF7的作用可能一直被忽视,
随着我国城镇化水平的持续提升,民用建筑能耗问题逐渐成为各界关注的热点问题,而热水系统能耗在民用建筑总能耗中占据较高的比例,缺乏合理的系统控制策略是导致热水系统能耗较大的一个重要原因。研究热水系统运行特性、负荷预测与控制策略、推广热水系统节能降耗技术对实现建筑节能、保护环境和改善民生具有重大意义。实际热水系统的控制策略调控方式较为粗放,系统制热量存在一定的设计余量,热泵和太阳能之间的配合也缺乏科学方