基于标签词抽取的搜索结果聚类研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:chenliquanhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前人们正处于一个“信息爆炸”的时代,因此各种各样的搜索引擎应运而生。但是由于网上的信息都是半结构化或者非结构化的,尽管采用了各种方法来提高检索结果的精度,但是检索结果中仍然包含了与用户查询不相关的页面。虽然可以采取相关度排序等方法,仍不能很方便的为用户展示结果。为了方便用户查看自己感兴趣的网页,将搜索引擎返回的结果进行聚类,使用户可以按照主题类别浏览网页,减轻用户浏览网页的负担。本文在研究中文文本聚类现状的基础上,对中文文本聚类的关键技术进行了总结,其中,包括文本预处理、文本表示模型、特征抽取、特征降维、文本相似度计算以及现有的聚类算法,并对现有的聚类算法作了分析比较。然后,论文分析并研究了文本的相似度计算,包括文档的相似度计算和相异度计算,以及簇和簇之间的邻近度度量。并且分析了支持向量回归理论和其技术上的实现。本文提出了一种基于标签词抽取的文本聚类方法,该方法的实现目标是对搜索引擎返回的搜索结果进行聚类,然后论文实现了文本聚类系统。首先从搜索结果返回的网页文档进行预处理,包括去噪、分词、去除停用词。然后从中抽取3元模型词作为标签词,提出了基于监督模型的打分方法,并对标签词做一些相似词替换、词串整合等后期处理。最后根据标签词进行语料聚类,采用了层次聚类的方法,最终完成聚类。论文设计了聚类系统,并对其进行实验,实验内容包括标签词的抽取,支持向量的回归统计,标签词的聚类实验。通过实验证明,算法在对搜索结果进行聚类时有着较好的效果,能够将类别相似的文档聚到同一个类别中。
其他文献
学位
片上集成的晶体管数目持续增长,而传统单核处理器的性能发展却难以持续,因为依靠指令级并行获得的收益越来越少,而功耗问题和散热问题也日益凸显出来。多核/众核处理器在单个芯
独立成分分析(Independent Component Analysis,ICA)算法是盲源分离的一种有效手段,是以独立性为约束条件从多维数据中挖掘出其本质结构的一种方法。目前,针对大数据量的ICA处理
随着硬件技术、服务器技术、业务处理需求的发展,网络设备的处理能力得到了大幅提高,并且也得到了越来越广泛的应用。多核网络设备的出现,使得硬件的处理能力得到成倍的增长,
随着Web2.0的兴起与发展,用户的身份也逐渐发生了转变,既是互联网的消费者,同时也成为了互联网内容的构建者。通信领域也因此正在转变传统的服务观念,开始更加重视服务模式的
随着互联网的迅速发展,促进了信息处理和信息交互的技术的研究与应用,其中研究应用的热点之一便是在计算机网络环境下的合作协同计算。合作协同计算不仅发生在合作者之间的,甚至
并行计算是当前计算机技术发展的趋势。随着多核和众核技术的发展,越来越多的软件和应用程序需要使用多线程语言编写。众所周知,并行程序远远比串行程序难编写,非常容易出现各种
学位
传统的聋儿言语康复治疗通过特殊言语教师的手势、口型等方式来训练,难度大、效率低而且教师资源缺乏,难以达到国家提出的“人人享有康复服务”的目标。特别是由于高成本的人力
随着互联网技术的不断发展,Web服务技术逐渐成为当前的一大研究热点。在Web服务技术众多研究中,Web服务的可信性已成为国际上致力于要解决的重要课题。对于部署在分布、开放、