基于LDA和TextRank相结合的中文多文档自动摘要提取

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:crosswind123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻已经成为日常生活中获取消息的一种有效途径,用户主要通过搜索引擎获取新闻。网络为人们提供丰富信息资源的同时,也伴随着大量冗余信息的出现,获取信息这一过程必然会浪费大量不必要的时间。多文档自动摘要技术的出现很好地解决了这一问题,利用机器学习、神经网络等技术获取主要的信息,对文档进行摘要提取,最终得到可以诠释文档主要内容的简短摘要以实现对文档有用信息的精确提取。这种技术可以方便用户及时有效的获取有用信息,抽取到新闻中的关键部分,极大地提高了效率。目前比较常用的摘要提取技术基于抽取式的方法即在原文文档中抽取关键句作为文本的摘要句。在此基础上,本文针对如何在摘要提取过程中选择一种能够准确为句子打分的方法这一关键问题,提出了将潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型与TextRank(图模型)算法相结合的一种算法。首先,通过对预处理后的新闻文档集建立LDA主题模型得到相应的主题词概率分布,并对每一个句子所包含词项的概率求和得到句子的概率模型;其次,将预处理后的句子作为TextRank的输入,完成对文档的TextRank图模型构建,同时在计算图节点的最终权重时以LDA主题模型得到的主题概率为依据,其中,概率大的句子优先计算其节点权重,于是得到了更准确的句子排序;最后,分别根据压缩比例10%和20%抽取排序靠前的句子作为摘要句。利用上述方法,本文通过对同一主题下的新闻语料进行摘要提取,得到该主题下的概括性摘要。最终利用ROUGR-1、ROUGE-2、P、R、F这5个指标对得到的结果进行性能评价,实验表明该方法与单一算法相比,所生成的摘要效果更好,结果准确率明显提高,同时具有主题明显、关键词突出等优点。
其他文献
随着信息科技的发展,需要缓存大量的数据,IoT芯片内部的SRAM存储资源需求也逐渐变大。SRAM价格较高、容量相对较小,在芯片设计中会限制SRAM的面积,而PSRAM存储技术正好弥补这
水电站电气一次设备安装施工的是质量和安全是非常重要的,它不仅关系到整个水电站的正常运行,而且也关系到安装工人的安全,因此,我们要对水电站电气一次设备安装施工安全和质量控
当下,在车联网环境下通过进行任务卸载提高车载服务质量是一个颇具前景的研究方向。将车联网与移动边缘云技术相结合,可以减少车载任务处理的时延,提高时延敏感的应用程序的用户体验。为了提供一种低时延、高可靠性的任务处理方法,提出了一种基于移动边缘计算的资源优化分配机制,从资源匹配集成的角度出发,设计了一种最小化时隙内车辆间总任务处理时延的方法。该方法考虑了每个时隙内路侧单元的计算能力和指定路段上车辆集的总
通过对控压钻井井口回压各影响因素进行分析,利用Matlab数值处理拟合工具,将节流特性试验数据输入其中,建立了控压钻井专用节流阀四参数数学模型。并将该模型嵌入到工控机的
在特高压变电站中,注油设备众多,如变压器、换流变压器、高抗等,油色谱在线监测系统成为运行人员分析油浸式设备是否存在问题的一个有效手段,从故障类型及气体特征来分析,并
借助统计分析、理化分析以及浇注系统模拟等综合分析手段,以气缸头盖压铸件为例,对压铸缺陷以及工艺过程可变性进行综合诊断,确定缺陷的状态、产生规律和原因,并在此基础上,
通过八项美学因素和不同老百姓对室内玄关设计喜好程度的调查研究,分析美学因素在室内环境设计中的重要性,得出室内环境美学因素对人类审美需求所产生的影响是不容忽视的。期
冰球射门技术是教学和比赛中的重要技术内容,本文通过对射门技术的动作要领、易犯的错误及练习方法进行分析研究,为冰球教学和训练质量的提高提供参考。
文章利用文艺创作中的意象理论分析了象征性标志设计的理念分析与创意构思过程,提出了"立象以尽意"这一观点,通过实例阐释意象思维在象征性标志设计过程中的运用.结合意象产