【摘 要】
:
短文本分类作为自然语言处理中一项关键且基础性的研究,在推荐系统、问答系统、情感分析等领域发挥着重要作用。在网络信息时代,短文本是进行日常交流和信息共享过程中不可或缺的载体,具有长度短、句法不规范、语义稀疏且缺乏上下文背景知识等特点。针对这些问题,研究者们尝试通过统计信息来增强数据集的分类特征表示,例如用TF-IDF加权算法来增强有助于分类的特征项表示,而减弱无用特征项的表示。但单个小数据集本身的统
论文部分内容阅读
短文本分类作为自然语言处理中一项关键且基础性的研究,在推荐系统、问答系统、情感分析等领域发挥着重要作用。在网络信息时代,短文本是进行日常交流和信息共享过程中不可或缺的载体,具有长度短、句法不规范、语义稀疏且缺乏上下文背景知识等特点。针对这些问题,研究者们尝试通过统计信息来增强数据集的分类特征表示,例如用TF-IDF加权算法来增强有助于分类的特征项表示,而减弱无用特征项的表示。但单个小数据集本身的统计信息不能有效刻画特征项的重要程度,而利用规模较大的知识库(如维基百科知识库,谷歌知识库)的统计信息来增强自身语义特征是一种可尝试的方法。再者,之前的研究大多是针对词嵌入模型和分类模型进行改进,忽略了短文本数据集表达能力有限、语义稀疏且词语本身具有歧义性的特点,如果能够从数据集以外的知识库中获取先验知识来改善数据集的表达能力,那么对短文本分类将起着事半功倍的作用。综合以上发现,本文借助了维基百科知识库的统计信息,提出了两种特征加权方案,来刻画特征项的重要程度,增强样本表达语义的能力。进一步地,本文利用了现有知识库获取短文本的相关概念知识来改善文本缺乏背景知识的问题。具体地,本文主要工作内容如下:(1)基于大规模知识库中的统计知识能够有效刻画词语的重要程度这一思想,统计了维基百科知识库的词频,以获得大规模知识库的统计知识。(2)基于(1)中获取的统计知识,本文提出了两种特征加权方案,并通过实验证明这两种加权方案是有效的。(3)借助了Probase知识库获取知识库中短文本单词的相关概念,来丰富词语的表达,改善词语的歧义性,在一定程度上解决缺乏背景知识的问题。(4)综合了维基百科知识库的统计知识和Probase知识库的概念知识,在卷积神经网络(CNN)模型的基础上提出了CAE-CNN模型,并通过实验结果证明该模型是有效的。(5)基于深度学习方法提出了有关CAE-CNN模型的六种变体方法,通过将这六种变体方法与CAE-CNN方法进行实验结果对比和分析,证明了这六种变体方法在提升短文本分类效果上是具有一定竞争力的。
其他文献
随着环境污染与能源短缺问题日渐凸显,太阳能作为一种可以持续利用且取之不尽的清洁能源受到世界各国的日益重视。光伏电站大多是建设在地理位置偏远且现场环境恶劣的地区,容易出现各种异常或故障,导致发电效率降低、存在安全隐患等问题。对地域上广泛分散的光伏系统进行人工检修不仅需要消耗大量的人力物力,而且效率低、维护效果一般。针对这些问题,在现有的光伏阵列健康监测与故障诊断研究的基础上,本文提出了一种基于极限学
信息技术的发展促进了现代社会对于微波通信与光纤通信的需求。在过去的十年间,以通信工程领域为基础所展开的研究为下一代网络的建设与维护提供更先进的技术支持。本文针对通信工程领域中的瞬时微波测频与光性能监测技术进行深入研究,瞬时微波测频技术可以在短时间内迅速对未知的微波信号进行频率测量,光性能监测技术可以有效完成光网络中光损伤的监测与补偿,两者都能为通信网络的正常运行提供必要的保障。本文首先对这两种技术
石材美观、大方,在福建沿海农村地区得到广泛的应用。但石砌体结构整体性能差,平面外的抗弯能力较弱,在地震作用下易发生倒塌。本文以福建省常见的干砌甩浆条石墙,针对其平面外的抗弯承载力的不足,采用常见的钢筋网水泥砂浆面层加固的方法对其进行加固,并开展下列研究:(1)本文通过9个试件的静力试验研究钢筋网水泥砂浆加固法对于条石墙的抗弯性能的影响,加固试件的研究参数为竖向钢筋的配筋率、加固面层的厚度、竖向荷载
在荷载作用下,混凝土与钢筋间粘结刚度退化甚至破坏会降低钢筋混凝土结构承载性能,以及装配式结构由于新旧混凝土界面存在粘结作用,进而会影响发挥装配式结构承载性能。既有研究集中在对称配筋的梁柱节点,而并未考虑到钢筋锚固类型对构件或结构的影响。基于这些特点,本文利用分析软件ABAQUS接口程序开发粘结界面单元用于定量分析考虑滑移的精细化有限元模型,探讨不同参数改变对装配式梁柱子结构承载性能的影响。本文建立
为提高结构的抗震性能、增强结构震后的可恢复性,提出了高强钢筋与碳纤维增强复合材料CFRP(Carbon Fiber Reinforced Polymer)筋混合配筋超高性能混凝土UHPC(Ultra-High Performance Concrete)柱的形式,既可以通过高强钢筋的塑性和UHPC的延性提高构件的耗能能力,又可以通过CFRP筋的线弹性性能来实现更小的构件残余变形。同时CFRP筋在UH
2015年中华医学会肝病学分会和中华医学会消化病学分会制订了我国第一个原发性胆汁性胆管炎(primary biliary cholangitis, PBC)的专家共识。近年来国内外有关研究为PBC的诊断和治疗提供了新的临床证据。中华医学会肝病学分会组织有关专家,在评估最新国内外临床研究证据的基础上,制订了包括26条推荐意见的本指南,旨在为临床医师诊断和治疗PBC提供指导和参考意见。
随着我国餐饮业的发展及生活垃圾分类后厨余垃圾的增加,餐厨(厨余)垃圾所造成的恶臭污染对环境带来的危害已然成为当代突出的环境问题。如何高效解决餐厨垃圾处理废水中的臭味问题是目前国内外研究的一个新方向,同时也是水处理和环保领域重点关注的研究课题。本文基于H2O2对废水中有机污染物的强降解能力,考察了单独H2O2氧化技术和Fenton氧化技术分别对餐厨废水恶臭物质的去除条件;采用GC-MS的方法,分析了
基于多种传感器的同时定位与建图(Simultaneous Localization and Mapping,SLAM),是实现无人机在无全球定位系统(Global Positioning System,GPS)信号下自主飞行的关键技术之一。随着传感器技术和计算机技术的快速发展,无人机SLAM逐渐向多元化发展,本文针对3D激光雷达SLAM算法和视觉与激光雷达融合的SLAM算法进行研究并实现了基于四旋
作业车间调度问题(JSP)作为一个重要的生产调度问题,近年来受到了学术界和企业界的高度重视。现有研究围绕静态作业车间调度问题,提出了一系列生产调度模型和求解方法。然而,在实际生产中,经常会出现各种不可预知的突发事件,比如机器故障、随机工件到达、交货期变更等。为了保证整个生产系统稳定、有序地运行,制造企业需要进行必要的动态调度来处理这些突发事件,对原有调度方案进行调整或修改,快速地生成重调度方案。因