【摘 要】
:
中文新闻文本主题分类任务中通常只考虑字符粒度或者词粒度中一种粒度的Embedding,这往往会使得在特征提取过程中丧失了另一种粒度的特性.本文针对中文新闻文本主题分类任务,
【机 构】
:
南京信息工程大学 自动化学院,南京210044江苏省大数据分析技术重点实验室,南京210044;南京信息工程大学 自动化学院,南京210044;
论文部分内容阅读
中文新闻文本主题分类任务中通常只考虑字符粒度或者词粒度中一种粒度的Embedding,这往往会使得在特征提取过程中丧失了另一种粒度的特性.本文针对中文新闻文本主题分类任务,提出了一种基于字符粒度与词粒度融合的分类模型.通过中文文本特有的字、词、句的句法关系与字-词包含关系,对字、词进行嵌入,构成字向量、词向量并进行粒度融合.选择卷积神经网络提取新闻文本语义、上下文特征,对中文新闻文本进行主题分类.在THUCNews、搜新闻数据两个公开数据集上进行模型性能测试,该模型的分类准确率分别为97.48%、97.64%,结果表明本文提出的模型性能显著提高.
其他文献
本研究用放射性核素作为示踪剂探测乳腺癌前哨淋巴结,并根据前哨淋巴结活检和腋淋巴结清扫的病理结果评价了前哨淋巴结预测腋窝淋巴结有否转移的准确性及其临床应用价值。
本研究采用免疫组化方法检测了112例非小细胞肺癌和30例肺良性病变组织中E-cadherin的表达情况,分析了其与肺癌临床病理生理特征、转移和预后关系,并探讨了它们调控肿瘤转移的
内科治疗在乳腺癌的综合治疗中地位日趋重要.本文仅就我们近年来参与临床研究的新药加以介绍,并对内科治疗在乳腺癌治疗中的前景以讨论.
政协委员豪言壮语,人大代表大胆建言,五花八门的提案议案构成历届“两会”热点话题。通过一系列话题,我们能清楚地看到政府调控“城市住宅”的思路。
Members of the CPPCC
本研究采用完全随机分组的方法,前瞻性的观察注射用盐酸拓扑替康(单药)和卡铂加依托泊甙(CE方案)治疗小细胞肺癌的临床疗效和毒性反应.来探讨新药的临床应用. 临床资料和方
本文对格拉诺赛特用于白血病及肿瘤进行PBPCT时的有效性及安全性进行了探讨。本研究采用开放非对照组的方法进行,主要病种为急性白血病、恶性淋巴瘤、乳腺癌、卵巢癌,共观察了5
本文对白血病的治疗进行了探讨。文章对20世纪白血病诊治情况进行了回顾,围绕加强对自血病细胞耐药、加强对自血病患者个体化治疗、ATRA的诱导分化治疗、造血干细胞移植等治疗
本文对肺癌的化疗进行了探讨。文章围绕术后辅助化疗、诱导治疗和新辅助治疗、化疗和放疗联合应用、IV期肺癌化疗的价值、高剂量化疗和外周血干细胞支持治疗、腔内治疗、支气
随着人工智能技术的高速发展,基于神经网络的机器翻译技术愈发受到人们的重视.然而,限于有限的数据资源,基于该方法的小语种翻译效果并不理想.乌尔都语作为印度和巴基斯坦的
目的: 评价霉酚酸脂(MMF)联合环胞霉素A(CsA)和短程甲氨喋呤(MTX)与CsA和短程MTX两种方案预防急性移植物抗宿主病(GVHD)的效果. 方法: HLA完全相合异基因外周血造血干细胞