基于主题模型的短文本分类研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:lhk4444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展和信息传播形式的不断变化,网民们可以在微博、微信以及电子商务平台等自由地表达自己的观点,这致使短文本数量飞速增加。如何及时准确地挖掘短文本的有效主题并将其运用于个性化商品推荐、民意监测和情感分析等领域,已经成为信息管理者必须解决的问题,短文本分类成为一个重要的研究方向。短文本具有文本长度较短,有效特征较少,语义表达不充分等特点,这些都会影响短文本分类的准确性。然而,主题挖掘作为一项基础的文本分析任务,可以从规模庞大的文本中挖掘出潜在的主题信息,故此在短文本分类中起着重要作用。本文利用主题模型,从以下两个方面进行了改进:1.针对短文本词汇量较少的问题,论文提出了一种利用LDA模型构建主题类间特征词集扩展短文本的方法。该方法是基于自身语义的扩展,在短文本扩展时利用文本原始特征和构建的主题类间词集之间的语义相似度对短文本进行扩展,在一定程度上克服了利用外部资源进行特征扩展和直接利用主题词进行特征扩展时容易引入噪声的问题。本文在搜狗新闻语料上进行了相关的测试实验,结果表明利用主题类间特征词集扩展的方法比直接利用文档主题词扩展和直接使用空间向量模型表示短文本进行分类的方法有效性高。2.针对短文本语义表达不充分的问题,论文提出了一种词性主题嵌入向量的文本表示方法。该方法首先利用DBOW和DM模型构建文档向量,然后将包含上下文信息的Word2vec向量和具有全局潜在语义的词性LDA主题向量进行结合并利用词性权重构建主题向量,最后计算主题向量与文档向量的欧式距离表示短文本。本文在搜狗新闻语料和网络爬取的电商评论两个数据集上进行了相关的测试实验,结果表明本文构建的文本表示方法比其他基准分类方法分类效果好。
其他文献
芥菜(Brassica juncea Coss.)是贵州省的特色蔬菜,栽培面积大,春季栽培价格高。叶用芥菜属于种子春化型植物,且对低温要求不严,极易通过春化而抽薹开花,给生产造成巨大的损失。因此,研究叶用芥菜晚抽薹调控基因具有重要意义。抽薹性状是多基因控制的数量性状,目前关于抽薹调控的机理在白菜和甘蓝中研究较多,在芥菜中鲜有报道。本研究以叶用芥菜晚抽薹DH系‘MN001’和早抽薹自交系‘MU056
本论文以6个铜仁市土家族传统村落中植物景观为研究对象,对铜仁市土家族传统村落绿地空间分布特征、植物景观空间形态结构特征、植物景观物种多样性与稳定性特征、植物景观美学特征等进行了较全面的研究,揭示出铜仁市土家族传统村落特色植物景观主要类型参考模式、传统村落植物造景理论、及植物景观保护与发展策略,达到了预期目的,为更好地保护铜仁市土家族传统村落植物景观提供借鉴性理论与实践指导。研究结果如下:铜仁市土家
为探寻烤烟云烟87上部叶主要烘烤特性及相关性。采用暗箱及密集烘烤方法,研究了云烟87上部叶暗箱变黄、变褐规律以及烘烤开始至定色结束,水分变化规律、颜色变化规律、主要生理生化变化规律并分析其相关性。主要研究结果如下:(1)云烟87上部叶易烤性好,耐烤性中等,烘烤特性中等。(2)云烟87上部叶烘烤过程中,失水率呈“慢-快-慢”的变化趋势,变黄前期-中期、变黄后期-定色中期、定色后期失水速率分别为0.3
深入探究不同施氮量以及不同基因型水稻对光合氮素利用效率的影响,是有效提高水稻叶片对氮素营养的吸收效率,进而高效利用资源和实现作物高效高产的有效途径。为了探明籼型杂交稻光合氮素利用效率对不同施氮量的响应特征,于2019-2020年在贵州省黄平县旧州镇开展不同施氮量的田间试验,2019年以Q优6号(V1)、宜香优2115(V2),2020年增加黄华占(V3)为供试品种,试验采用两因素裂区设计,设品种(
稻纵卷叶螟(Cnaphalocrocis medinalis),又名苞叶虫、刮青虫等,属于鳞翅目Lepidoptera螟蛾科Pyralidae昆虫,是水稻三大螟虫中最具破坏性的一种害虫,每年给水稻生产带来大量损失,严重威胁到水稻种植业的发展。几丁质(Chitin)又称甲壳素,是昆虫多个重要组织器官的组成成分之一,在昆虫的体壁、表皮和食围膜、中肠等组织的发育过程中起着至关重要的作用,海藻糖是昆虫几丁
杂交构树(Broussonetia papyrifera,以下称构树)是广泛分布在东亚的一类落叶乔木,其蛋白质含量高,可作为木本饲料进行饲喂,但由于构树有着附着乳酸菌少、可溶性糖含量低等特性使得构树难以青贮成功。为探究构树青贮适宜发酵玉米粉添加量和乳酸菌添加形式,对青贮构树进行两步试验。试验一将玉米粉与构树混合青贮,设置CK(0玉米粉添加)、P97(添加3%玉米粉)、P94(添加6%玉米粉)和P9
针对传统曲霉型黑豆豉生产上存在的生产周期长、成品褐变程度不稳定、同批次成品褐变程度不均一等问题。采用米曲霉纯种发酵工艺,对褐变的影响因子包括泡豆、蒸豆、制曲、辅料、后发酵等工艺进行研究,拟解决原料大豆利用率低、产品质量不稳定等生产技术难题,最终解决黑豆豉工厂化生产过程中的品质控制问题。黑豆豉的褐变受多种因素的影响,目前大多数企业仍然是利用传统的曲房,采用自然接种方式制曲,微生物区系较复杂,导致不同
茶树是贵州省重要的经济作物之一,随着茶产业提质增效和茶园的更新换代,优良种苗缺乏已成为目前贵州茶产业发展的瓶颈之一。鸟王茶群体种是都匀毛尖和云雾贡茶的核心种质之一,课题组前期从鸟王茶群体种中选育获得NW32株系,其芽多且饱满,是制作名优茶的理想材料。目前NW32已经在都匀部分地区进行种植示范,为进一步加快推广与缩短育种周期,本研究以茶树资源圃中的鸟王茶NW32的带腋芽为外植体进行离体快繁体系建立,
榫卯连接是一种在中国古代运用于建筑中的主要结构连接方式,它由部件的凹凸两部分咬合在一起受力,有较强的抗拉拔能力,对制作工艺要求高,因此发展受到了阻碍。轻型木结构发源于近代,因其制作规模化,施工方便等优点得到大力发展,但是轻型木结构的墙骨柱与底梁板的连接节点处易发生拉拔破坏。为了能够改善轻型木结构的节点破坏问题和发挥榫卯节点抗拉拔的优势,促进榫卯节点的传播,本文将对古建筑中的特殊榫卯节点经过选取、设
近年来,我国在建筑行业越发飞速发展,在推进城乡一体化的进程下,农村民居的性能也在日益完善,满足农村居民随着时代的变化而提高其舒适度。而绿色建筑成为了平衡经济发展与环境影响的重要课题。现行的各类绿色建筑评价体系,由于地域特性特征,在实践中无法做到一套标准在各个地区通用。黔东南侗族特有的森林生态环境、传统文化与原始的生活方式形成了独特的绿色宜居体系。本文通过定性结合定量的研究方法,首先基于当下绿色建筑