【摘 要】
:
挖掘电商评论文本中的电商事件对分析用户购物行为和商品场景分类有重要帮助.该文给出电商事件的定义,将电商事件识别问题转换为序列标注问题,构建了一个基于电商评论文本的电商事件标注数据.该文首先在基于字符的BiLSTM-CRF神经网络模型上进行扩展,加入语言模型词向量(Embeddings from Language Models,ELMo)来提高识别性能.进而考虑中文字形特征,包括五笔和笔画特征.提出两种引入字形特征的新模型,即在预训练语言模型中结合事件的字形信息进行建模.实验结果表明融入字形特征的ELMo可
【机 构】
:
苏州大学计算机科学与技术学院,江苏苏州215006
论文部分内容阅读
挖掘电商评论文本中的电商事件对分析用户购物行为和商品场景分类有重要帮助.该文给出电商事件的定义,将电商事件识别问题转换为序列标注问题,构建了一个基于电商评论文本的电商事件标注数据.该文首先在基于字符的BiLSTM-CRF神经网络模型上进行扩展,加入语言模型词向量(Embeddings from Language Models,ELMo)来提高识别性能.进而考虑中文字形特征,包括五笔和笔画特征.提出两种引入字形特征的新模型,即在预训练语言模型中结合事件的字形信息进行建模.实验结果表明融入字形特征的ELMo可以进一步提高模型性能.最后,该文分别使用新闻和电商领域两份大规模无标注数据训练语言模型.结果表明,电商领域语料对系统的帮助更大.
其他文献
汉越神经机器翻译是典型的低资源翻译任务,由于缺少大规模的平行语料,可能导致模型对双语句法差异学习不充分,翻译效果不佳.句法的依存关系对译文生成有一定的指导和约束作用,因此,该文提出一种基于依存图网络的汉越神经机器翻译方法.该方法利用依存句法关系构建依存图网络并融入神经机器翻译模型中,在Transformer模型框架下,引入一个图编码器,对源语言的依存结构图进行向量化编码,利用多头注意力机制,将向量化的依存图结构编码融入到序列编码中,在解码时利用该结构编码和序列编码一起指导模型解码生成译文.实验结果表明,在
本试验旨在研究饲粮中添加维生素E和酵母硒对肉兔生长性能、屠宰性能、肌肉品质和抗氧化性能的影响,为生产高档功能性兔肉提供理论参考.选用35日龄、体重相近的断奶闽西南黑兔160只,随机分为4组,每组10个重复,每个重复4只.Ⅰ组(对照组)饲喂基础饲粮,不额外添加维生素E和酵母硒;Ⅱ、Ⅲ和Ⅳ组分别在基础饲粮中添加100 mg/kg维生素E、0.15 mg/kg硒和100 mg/kg维生素E+0.15 mg/kg硒.预试期5 d,正试期70 d.结果表明:1)饲粮中添加维生素E和酵母硒对肉兔生长性能和屠宰性能均无
自动词语简化是用简单、同等意义的词语替代句子中复杂词的过程,是文本简化中的一个重要研究方向.随着自然语言处理技术的快速发展,词语简化方法也在不断更新与变化.该文对词语简化方法的相关研究进行了梳理,先对词语简化的整体框架进行解释,然后将词语简化方法总结为语言数据库、自动规则、词嵌入模型、混合模型和预处理语言模型.接着对汉语词语简化研究所面临的难点进行论述.最后,对词语简化方法的发展方向进行了展望和总结.
图卷积网络近年来受到大量关注,同时自注意机制作为Transformer结构及众多预训练模型的核心之一也得到广泛运用.该文从原理上分析发现,自注意机制可视为图卷积网络的一种泛化形式,其以所有输入样本为节点,构建有向全连接图进行卷积,且节点间连边权重可学.在多个文本分类数据集上的对比实验一致显示,使用自注意机制的模型较使用图卷积网络的对照模型分类效果更佳,甚至超过了 目前图卷积网络用于文本分类任务的最先进水平,并且随着数据规模的增大,两者分类效果的差距也随之扩大.这些证据表明,自注意力机制更具表达能力,在文本
本试验旨在研究人工草场不同饲养模式对羔羊小肠脂肪消化和肝脏脂质代谢相关基因表达的影响.试验选取33只体重[(19.69±0.29)kg]相近的3月龄断奶滩羊公羔,随机分为舍饲组(H组)、人工草场放牧补饲组(GH组)和人工草场放牧组(G组),每组11只.H组单栏饲养,每天饲喂2次;GH组每天放牧4 h,归牧后进行单栏补饲;G组每天放牧12 h不补饲.预试期7 d,正试期90 d.结果表明:不同饲养模式下,G组小肠重量显著高于H组(P<0.05),G组小肠指数显著高于GH组和H组(P<0.05),而十二指肠及
本试验旨在研究不同菌种有氧发酵对柑橘渣有机酸、总黄酮、营养成分含量的影响.
本试验旨在探讨慢性冷暴露对小鼠肝脏抗氧化功能的影响.体内慢性冷暴露模型建立:试验将12只3周龄C57BL/6雄性小鼠饲养1周后随机分为2组(对照组和冷暴露组),每组6只.冷暴露组小鼠每日随机放置在4℃环境中3 h,连续4周.冷暴露结束后将所有小鼠同时安乐死,并收集其血液和肝脏.体外冷暴露模型建立:将小鼠肝细胞系AML12细胞随机分为4组(对照组、冷暴露1 h组、冷暴露3 h组、冷暴露6 h组),先在37℃培养箱中培养24 h,然后将冷暴露组细胞置于32℃培养箱中分别亚低温冷刺激0、12、24、36 h,冷
福建是习近平生态文明思想的重要孕育地和实践地.习近平总书记在福建工作期间,极具前瞻性地提出建设生态省的战略构想,亲自擘画、亲自部署、亲自推动生态省建设和集体林权制度改革.党中央作出全面推行林长制战略部署后,福建省委、省政府立即启动实施林长制,全省上下行动在深入贯彻落实习近平总书记来闽考察重要讲话精神的浓厚氛围中,加快建立省市县乡村五级林长责任体系,完善工作制度,创新工作机制,夯实基层基础,强化保障措施,构建了高效的森林资源保护管理体系,有力地促进了生态文明建设.
传统的神经机器翻译模型是一个黑盒子,并不能有效把术语信息添加进去.而利用用户提供的术语词典来联合训练神经机器翻译模型具有实际意义.据此,该文提出融入术语信息的新能源领域Transformer专利机器翻译模型,使用将源端术语替换为目标端术语以及在源端术语后增添目标端术语两种手段进行术语信息融合,实验表明,在构建的新能源领域专利汉英平行语料库和术语库上,提出的专利翻译模型优于Transformer基准模型.并评测了其在人工构建的数据集、中国专利信息中心的数据集及世界知识产权局的数据集上的翻译效果.
生成式阅读理解是机器阅读理解领域一项新颖且极具挑战性的研究.与主流的抽取式阅读理解相比,生成式阅读理解模型不再局限于从段落中抽取答案,而是能结合问题和段落生成自然和完整的表述作为答案.然而,现有的生成式阅读理解模型缺乏对答案在段落中的边界信息以及对问题类型信息的理解.为解决上述问题,该文提出一种基于多任务学习的生成式阅读理解模型.该模型在训练阶段将答案生成任务作为主任务,答案抽取和问题分类任务作为辅助任务进行多任务学习,同时学习和优化模型编码层参数;在测试阶段加载模型编码层进行解码生成答案.实验结果表明,