【摘 要】
:
随着Web信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找所需信息已经成为困扰人们的一大难题。传统搜索引擎技术满足了人们一定的需求,但由于其通用的性质,仍然不能
【出 处】
:
北京机械工业学院 北京信息科技大学
论文部分内容阅读
随着Web信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找所需信息已经成为困扰人们的一大难题。传统搜索引擎技术满足了人们一定的需求,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求。用户个性化检索系统就是针对这个问题而提出来的。用户个性化信息检索系统的研究目标在于充分利用用户的个性化信息,通过用户的兴趣来引导信息的采集,充分利用网络信息,以更好地服务用户的个性化需求。主要工作包括以下几个方面:
(1)用户兴趣个性化信息的获取。分析了用户兴趣个性化信息的收集、表示和更新。提出了从显式和隐式两方面获得用户兴趣个性化信息的方法,此种方法可以比较全面的获得用户兴趣。
(2)网页结构分析及内容的提取。提出了将网页转化为DOM树的方法,通过对DOM树的遍历、分析、合并等处理过程完成对网页标题、正文、链接等信息的提取,此种方法可以获得准确率较高的网页内容信息。
(3)网页内容与用户个性化兴趣相关度的判定。分析了在向量空间模型中向量相似度的计算方法,即向量内积和夹角余弦。实验结果表明向量内积方法更适合本文设计的原型系统并且取得了较好的性能。
其他文献
传统的聚类算法一般是采用基于距离为基础的数据聚类,但是随着样本维数的不断增多,数据点的间距差别很小,这样就使基于距离度量的聚类算法在高维数据领域失去意义,故传统基于
谱聚类算法是一种经典的聚类分析方法,与传统的聚类算法相比,它具有在任意形状的样本空间中聚类且收敛于全局最优解的优点,非常适合于许多实际问题,所以一直是机器学习领域中研究
数据库技术的迅速发展和广泛应用导致了“数据爆炸而知识贫乏”的现象。如何从现行管理信息系统大量的业务数据中抽取有用的知识,以辅助企业决策层进行管理决策,是企业的愿望,也
随着计算机技术的飞速发展,人们为了充分利用广域网上的分布式资源,提出了网格计算的概念。网格计算是分布式计算的一种,其目的是建立大规模计算和海量数据处理的通用基础支撑结
随着计算机网络技术的快速发展,网络安全问题越来越受到人们的重视。入侵检测技术作为一种主动的安全防护技术,能够及时地检测到各种恶意入侵并进行响应,入侵检测系统已成为
脉冲耦合神经网络(Pulse coupled Neural Network,PCNN)是被称为第三代人工神经网络的新型神经网络模型。它具有生物学背景,是在研究哺乳动物视觉皮层脉冲震荡现象的基础上提
RS与GPS为空间信息的采集提供了技术支持,GIS从定量的角度建立了空间信息处理与应用的理论和技术体系。但是,空间信息是复杂的,从量上来看是海量级的;从种类上看不仅包含数值
随着互联网的普及,电子邮件以其快捷、方便的特点已成为互联网上最重要的应用之一。但垃圾邮件也越来越泛滥,占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影
业务管理是电信网络管理的重要内容,是推动信息技术发展的重要驱动力。对于QOS的管理,是对业务全面有效管理的核心内容,也是促进下一代运营分析支撑管理系统发展的重要环节。
嵌入式系统中图形图像的加速技术在工业、国防和人们的日常生活中有着广泛的应用。然而,目前常用的嵌入式图形加速系统仍存在一些不足,如嵌入式微处理器负担过重,移植性不强,