基于组合特征的中文新闻网页关键词提取研究

被引量 : 0次 | 上传用户:fengliguo1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,网络信息正在呈爆炸式增长,新闻网页已经成为人们获取信息的一个重要途径。如何快速有效地获取新闻网页中的信息并进行处理已经成为一个重要的研究工作。在搜索引擎领域,网页内容及关键词提取是有关文本自动处理的基础工作。网页关键词反映了网页的主要内容,能够有效地对网页进行标识,从而便于进一步处理。本文首先介绍了关键词提取相关的理论知识,包括关键词提取的概念、自然语言处理、网页内容提取等。接着介绍了组合词以及组合词生成的方法。然后提出了基于组合特征的新闻网页关键词提取方法。在对网页文本进行分词的基础上,通过计算文本特征的权重得到候选关键词,并利用基于有向图的组合词生成算法得到组合词,经过去重合并得到最终关键词。最后对新闻网页进行实验,实验结果表明本文方法能够有效地提取出新闻网页的关键词。
其他文献
针对目前市场上变频恒压供水系统存在水泵运行状态和变频器频率无法在线查看和设备操作不安全的缺点,提出采用人机界面作为系统的末端控制设备。通过PLC接线图的设计、PLC程
目的对小儿哮喘中健康教育的临床效果进行探究、分析。方法对我院治疗的小儿哮喘患者病例92例进行研究分析,采用随机分组的方法,随机将其中46例作为观察组,而另外46例作为对
本文以深空探测为背景,研究深空探测中与轨道相关的问题。根据目标天体的不同,研究方法也有所不同。本文主要有两部分:火星探测和小行星探测,它们分别代表大天体和小天体的探
目的:探讨BCL-2、MYC基因独立及共同异常表达与B细胞淋巴瘤预后评估相关重要指标、临床疗效、生存期、乙肝病毒的相关性。方法:应用荧光原位杂交(FISH)技术检测55例侵袭性B细胞淋
中国学者发现并命名的“新开流文化”和俄罗斯学者发现并命名的“鲁德纳亚文化”,实际上是分布在乌苏里江两岸的同一种考古学文化。本文首先将中俄两国发现的早期新石器时代的
语言是为了满足社会交际的需要而产生、存在和发展的。它由人类创造和使用,因而语言中也不可避免地存在着性别差异。这一现象已引起了语言学界的广泛关注。在以往的研究过程中
徐静蕾曾经和章子怡,赵薇,周迅并称中国演艺界“四小花旦”,如今提起她,更多人会称她为“导演徐静蕾”。在中国文艺界,从“演而优则导”成功过渡的女演员并不多,最后成为优秀女导演
文章主要介绍某一停车库电动车火灾事故的调查与分析,通过调查与分析对火灾事故的原因进行认定,分析火灾现场调查的技巧,以及如何对火灾现场进行保护等问题。
随着我国的经济水平持续稳定的增长,人们的生活水平也得到了进一步的提高,在日常生活中,对于生命健康的要求变得越来越高,因此在最近几年有机蔬菜也逐渐进入人们的视线里,由
自2010年10月国务院部署开展政府机关软件正版化检查整改工作以来,中央和国家机关、省级政府机关、市县级政府机关按期分别于2011年5月、2012年6月、2013年年底前完成了检查整