【摘 要】
:
越南语属于低资源语种,高质量关键词新闻数据稀缺,为了解决样本不足条件下生成越南语新闻关键词准确性不高的问题,提出了一种多特征融合的越南语关键词生成模型,拟提升生成的越南语关键词与越南语新闻文档的相关性.首先,将越南语新闻实体、词性、词汇位置特征与词向量拼接,使输入模型的词向量包含更多维度的语义信息;其次,利用双向注意力机制捕获上下文与新闻标题的依赖关系,增强标题在关键词生成中的指导作用;最后,结合复制机制生成越南语关键词,从而提高关键词的语义相关性.在构建的越南语新闻关键词数据集上进行实验,结果表明融合多
【机 构】
:
昆明理工大学 信息工程与自动化学院,云南 昆明 650500;昆明理工大学 云南省人工智能重点实验室,云南 昆明 650500
论文部分内容阅读
越南语属于低资源语种,高质量关键词新闻数据稀缺,为了解决样本不足条件下生成越南语新闻关键词准确性不高的问题,提出了一种多特征融合的越南语关键词生成模型,拟提升生成的越南语关键词与越南语新闻文档的相关性.首先,将越南语新闻实体、词性、词汇位置特征与词向量拼接,使输入模型的词向量包含更多维度的语义信息;其次,利用双向注意力机制捕获上下文与新闻标题的依赖关系,增强标题在关键词生成中的指导作用;最后,结合复制机制生成越南语关键词,从而提高关键词的语义相关性.在构建的越南语新闻关键词数据集上进行实验,结果表明融合多特征的关键词生成模型能在越南语训练样本有限的条件下生成高质量关键词,F1@10、R@50分数比TG-Net分别提升了13.2%和17.1%.
其他文献
基于Hill动力学与Michaelis-Menten方程建立理论模型,研究肝细胞中内质网定位的蛋白Nogo-B表达促进信号传导与转录激活因子STAT3磷酸化及肝细胞增殖与肝再生,理论模型考虑Nogo-B-IL-6/STAT3通路.研究表明,肝细胞中的IL-6与sIL6R结合生成复合物IS,IS促进Gp130和JAK2诱导信号通路;随着JAK2浓度的上升,JAK2与Nogo-B引起STAT3的磷酸化,产生大量P-STAT3,随着P-STAT3浓度的上升,引起STAT3二聚即产生PP-STAT3;随后转移到细
2021年11月18日,中国科学院正式公布了2021年院士增选结果,云南大学张克勤教授当选中国科学院生命科学和医学学部院士.rn张克勤是线虫生防领域的杰出学者.他发掘了一系列重要的线虫生防微生物资源和先导化合物,建成了全球最大的线虫生防微生物资源库,揭示了微生物与线虫互作的分子机制,在此基础上进一步创建了根结线虫高效生物防治技术体系,研发出具有自主知识产权的高效线虫生防产品.
在对伊犁州2007~2018年卫生机构从业人数进行描述性统计与显著性分析的基础上,利用建立的一元线性回归模型对伊犁州未来3年卫生机构的从业人数进行了分析和预测.预测结果显示,伊犁州卫生机构的从业人数呈增长趋势,对卫生机构医疗方面的人才需求迫在眉睫.
甘草是我国传统的中药材,含有多种生物活性成分,黄酮类化合物是其主要活性成分之一,具有抗炎抑菌、抗氧化、抗肿瘤等多种药理活性,在医药、保健、食品等行业具有巨大的应用前景.对甘草黄酮的化学成分、提取分离工艺及药理活性进行了较为全面的阐述,旨在为甘草黄酮类化合物的进一步研究提供理论参考.
采用GGA+U方法研究了Zn1-xYxO0.875(x=0.125、0.25、0.375)体系的电子结构和光学性质.结果表明,共掺体系中Y的掺杂浓度越高体系越容易形成;掺杂后各体系禁带中均出现杂质能级,在导带底和价带顶之间形成能量差,充当了“桥梁作用”,降低了电子发生跃迁时所需要的能量,其中Zn0.625Y0.375O0.875的能量差最小,电子最容易发生跃迁,光催化能力最强;共掺杂体系的吸收光谱出现在可见光范围内,当共掺杂体系中Y浓度为0.375 at%时,在可见光范围内出现较强的吸收峰,表明该体系对可
分别采用漫反射一维中红外(MIR)光谱、漫反射二阶导数中红外(MIR)光谱及漫反射二维中红外(2D-MIR)光谱开展了高硼硅玻璃的结构研究.实验发现,高硼硅玻璃的红外吸收模式主要包括:Si-O键的不对称伸缩振动模式(v as Si-O),Si-O键的对称伸缩振动模式(v s Si-O),Si-O键的弯曲振动模式(δSi-O),B-O键的不对称伸缩振动模式(v as B-O)和B-O键的不对称变角振动模式(δas B-O).进一步研究了在时间扰动因素下,高硼硅玻璃主要官能团对应吸收峰变化的快慢顺序.该项研究
利用KKM定理(Knaster-Kuratowski-Mazurkiewicz定理),得到Banach空间中广义逆混合变分不等式解的存在性.提出高阶弱尖锐性的概念,探讨Banach空间中原间隙函数与弱尖锐性的联系,利用可微性、法准和近似对偶映射,得到弱尖锐性存在的2个充分和必要条件.
提出基于预训练语言模型的医疗命名实体审核算法.首先借助BERT预训练模型对短文本数据进行句子层面的特征向量表示;然后通过构建循环神经网络和迁移学习模型实现短文本分类;最后在参数相同的条件下,将获得的文本特征向量分别输入到循环神经网络和迁移学习模型中进行训练.实验结果表明,与迁移学习相比,基于BERT和循环神经网络模型的医疗命名实体审核模型的精确率和稳定性都有所提升,其在测试集上的精确率最高可达93.2%,具有更好的短文本分类效果.
自然科学是能够展现出其特有的魅力的.自然科学是具有创造的能力的.自然科学是能够呈现出创造的本质的.充分性、合理性、复杂性、艰难性、客观性是科学创造的基本本质.倘若曲解了充分性、合理性、复杂性、艰难性、客观性,就丧失了科学创造的本质.如果坚守着充分性、合理性、复杂性、艰难性、客观性,就坚守着科学创造的本质.因此,自然科学跟创造的本质是联系在一起的.自然科学是有其本质的根据的.