网页关键词提取技术及其在动态摘要中的应用研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:SAGDGJGU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎从海量数据中按需为用户检索信息,如何让用户快速理解检索结果,并从中筛选出真正符合检索需求的网页?在这个课题中,网页关键信息的发掘与提取发挥着重要作用。本文从应用的角度提出了网页关键信息这一概念,分析了以搜索引擎为核心的,“用户-搜索引擎-网站-广告商”这一价值链条中,网页关键信息所起到的驱动作用。由此引出本文要重点讨论的网页关键信息提取的两个核心应用:网页正文关键词提取和网页动态摘要提取。在新型检索模型的大规模网络信息查询处理系统的支持下,本文分别设计了网页正文关键词提取算法和网页动态摘要提取算法,并对网页关键词在动态摘要中的应用进行了研究。   本文通过考察网页正文中的词在位置、频度和词汇语义信息三个层次上的特征,设计了一种可以调整各层次特征权重的网页正文关键词提取算法,该算法在主题型、目录型和图片型网页上都取得了较好的提取效果,并为网页的分类研究提供了思路。在该算法基础上提出的基于“种子关键词”的加强方案通过考察候选关键词与“种子关键词”之间的共现关系,能够在较大程度上提升算法的准确率和召回率,并使提取结果能够为商业广告在网页上的投放提供更多参考。   网页动态摘要的提取算法则是从摘要和查询的相关性、摘要和网页正文的相关性两个角度入手进行设计,综合考察候选片段中包含的的查询关键词和网页正文关键词,以及片段的自身信息,对片段进行评分、排序、筛选和粘贴等操作,最终形成摘要。本文分析几个典型的动态摘要提取实例,及其与现有搜索引擎的提取结果进行比较,重点研究了网页正文关键词对提取结果的作用和影响。对比分析的结果显示本文算法提取的动态摘要在查询相关性、原文相关性和摘要本身的连贯性等方面都有着较好的表现。   本文的部分工作成果已提交中国专利发明申请,发明名称为“网页关键词多层次提取方法”,专利类型为发明专利,专利申请号为200910261694.3关键词:中文信息处理;关键词提取;动态摘要提取;种子关键词;网页分类  
其他文献
随着网络的普及和深入应用,人们希望利用互联网上的丰富信息资源在线创建满足其个性化需求的增值型互联网情景应用(Situational Applications)。研究如何构造互联网情景应用的
随着互联网技术应用的普及与推广,其用户数量急剧增长,应用形式层出不穷,网络的安全问题愈发严重,安全防御手段缺乏统一性和主动性的缺点也凸显出来。本文以网络安全风险管理
近年来,随着分布式数据库的应用越来越广泛,分布式数据库查询优化方法的研究一度成为分布式数据库领域的研究热点。然而其中的多连接查询优化问题却一直都没有得到很好的解决
汽车发动机的工作状况直接影响汽车的动力性、可靠性以及安全性。现有的汽车发动机综合故障诊断技术依赖于多种传感系统和专家的先验知识,不利于在车载系统上使用。因此,探索
软件技术发展至今已产生大量的方法和模型,但任何检验、验证手段都还不能发现并排除所有的软件缺陷。从第一个软件诞生,就伴随出现软件缺陷的检测和预测技术。检测技术在于发现
语音是人类之间最自然、最便捷、最有效的沟通交流方式,是人类的显著特征之一。语音识别技术可以将语音转换成相应的文本,是人类与机器进行交互的关键环节,更是实现人工智能技术
空间环境科学数据共享平台来源于子午工程项目。该平台充分利用最新的网络技术,建立基于互联网环境的在线数据共享技术系统,及时收集、整理、整合空间环境数据资源,为空间环
在深亚微米工艺下,众核处理器芯片设计遇到了来自以下几方面的挑战:由于晶体管面积不断减小,单位面积上的功耗在不断上升;芯片面积不断增大导致时钟网络非常容易受到在片波动的影
目标检测算法的目标是在没有人工干预的情况下,利用计算机视觉的方法,从摄像机拍摄下来的视频图像序列中快速、准确的检测出前景运动目标,并对目标进行定位和识别。目标检测
本文从搜索引擎搜集网页,去除网页中的噪音和冗余的角度,对收集到的网页集合做网页正文提取,得到与主题相关的文字内容,用于后续的内容分析(分词、主题词识别、摘要等等)和检