论文部分内容阅读
搜索引擎从海量数据中按需为用户检索信息,如何让用户快速理解检索结果,并从中筛选出真正符合检索需求的网页?在这个课题中,网页关键信息的发掘与提取发挥着重要作用。本文从应用的角度提出了网页关键信息这一概念,分析了以搜索引擎为核心的,“用户-搜索引擎-网站-广告商”这一价值链条中,网页关键信息所起到的驱动作用。由此引出本文要重点讨论的网页关键信息提取的两个核心应用:网页正文关键词提取和网页动态摘要提取。在新型检索模型的大规模网络信息查询处理系统的支持下,本文分别设计了网页正文关键词提取算法和网页动态摘要提取算法,并对网页关键词在动态摘要中的应用进行了研究。
本文通过考察网页正文中的词在位置、频度和词汇语义信息三个层次上的特征,设计了一种可以调整各层次特征权重的网页正文关键词提取算法,该算法在主题型、目录型和图片型网页上都取得了较好的提取效果,并为网页的分类研究提供了思路。在该算法基础上提出的基于“种子关键词”的加强方案通过考察候选关键词与“种子关键词”之间的共现关系,能够在较大程度上提升算法的准确率和召回率,并使提取结果能够为商业广告在网页上的投放提供更多参考。
网页动态摘要的提取算法则是从摘要和查询的相关性、摘要和网页正文的相关性两个角度入手进行设计,综合考察候选片段中包含的的查询关键词和网页正文关键词,以及片段的自身信息,对片段进行评分、排序、筛选和粘贴等操作,最终形成摘要。本文分析几个典型的动态摘要提取实例,及其与现有搜索引擎的提取结果进行比较,重点研究了网页正文关键词对提取结果的作用和影响。对比分析的结果显示本文算法提取的动态摘要在查询相关性、原文相关性和摘要本身的连贯性等方面都有着较好的表现。
本文的部分工作成果已提交中国专利发明申请,发明名称为“网页关键词多层次提取方法”,专利类型为发明专利,专利申请号为200910261694.3关键词:中文信息处理;关键词提取;动态摘要提取;种子关键词;网页分类