【摘 要】
:
【目的】比较不同机器学习算法在智能分诊任务中的准确率,针对性地分析在线问诊平台的类目设置问题,尝试从数据中提取新特征提升分类器效果。【方法】基于"春雨医生"13个科室
【机 构】
:
北京大学信息管理系; 北京大学海洋研究院;
论文部分内容阅读
【目的】比较不同机器学习算法在智能分诊任务中的准确率,针对性地分析在线问诊平台的类目设置问题,尝试从数据中提取新特征提升分类器效果。【方法】基于"春雨医生"13个科室33 073条实际问诊数据,比较两种文本向量化方式在支持向量机、多项式贝叶斯、Logistic回归、随机森林、k近邻以及集成分类模型这6种分类器上实现智能分诊的准确率;通过高频词分析及词语共现对不同科室的错分数据进一步分析。【结果】文本向量化方法为TF-IDF、分类算法为支持向量机的分类器在智能分诊中的总体效果最优,增加年龄和性别特征后分类准确率可达76.3%。该分类器对外科数据分诊准确率仅为40.9%,原因在于问诊平台类目设置的混淆。【局限】假设现有数据中患者选择的科室是正确的。【结论】机器学习可用于在线问诊平台的智能分诊任务,根据医疗数据特点增加输入特征是分类器提高准确率的一个方向。部分疾病及症状的跨科室性影响了分类器的效果,在线问诊平台可通过推荐多个科室的方式来提升患者问诊体验。
其他文献
投资者在投资之前需要衡量股票潜力并判断其是否入市。市盈率是股票每股市价与每股收益间的比率。市盈率可用来评估股票的风险和收益,进而对股票的投资价值做出判断。在股票市
中国与东盟经贸关系发展的基础在于双边贸易存在互补关系。但随着中国—东盟自贸区的建立和中国与东盟国家贸易往来的频繁,许多研究学者关于中国—东盟贸易互补性与竞争性关系
在证券市场中上市公司是信息的生产者,信息的使用者主要包括债权人、投资人、政府、国家等利益相关者,企业的一举一动都会影响信息使用者的决策。对于内幕信息知情人员来说,其会
将硅水凝胶置于乙醇水溶液(二者体积比为1∶10)中,采用超临界二氧化碳干燥的方法可以制备大孔容、高比表面积、粒径分布较为均匀的硅胶试样。结果表明,在乙醇水溶液质量分数为9
作为浙江省“省级中心镇”和“乐清城市副中心”,A镇的经济总量一直处于温州市领先地位。2010年全镇实现生产总值33.47亿元,人均生产总值超过5000美元,已经到了服务经济的快速发
随着信息经济的迅猛发展,迎来了知识经济时代,“人”作为一种资源,其价值不断被开发出来,逐渐突显出“人”这种资源的重要性。人力资源成本在企业总成本中占有重要地位,它对企业经
目的:通过对脾破裂声像图特征的分析,提高其诊断水平。方法:对360例脾破裂的术前超声诊断与术后诊断进行回顾性总结分析。结果:B超诊断符合率为90%,诊断腹腔积液的阳性率明显
与后世质疑和批评形成鲜明对照的是,阳明自身坚信"四句教"是既具普遍性且无弊的工夫指点语。在他看来,"无善无恶"和"有善有恶"不过是对"已发"之意识状态的描述,是不同条件下
目的:研究3周岁以下股骨干骨折的患儿的护理。方法:采用手法复位夹板外固定,配合双下肢悬吊皮肤牵引和功能锻炼的方法治疗3周岁以下股骨干骨折的患儿共23例,其中男14例,女9例