【摘 要】
:
目前Web信息量剧增,Internet已经成为人们重要的信息来源。当人们浏览网页时,会出现大量的导航条,广告信息,版权信息以及调查问卷等相关信息,这些信息通常并不是人们所要获取
论文部分内容阅读
目前Web信息量剧增,Internet已经成为人们重要的信息来源。当人们浏览网页时,会出现大量的导航条,广告信息,版权信息以及调查问卷等相关信息,这些信息通常并不是人们所要获取的实际内容,人们称这样的网页内容为“网页噪声”。通常人们在通过网络信息检索软件,例如搜索引擎等查询自己关心的内容时,希望能把搜索到的与搜索条件(关键词等)紧密相关的内容显示出来,而其中最好不包含或少包含网页噪声。因此,网页噪声的识别与消除,近些年来已成为网络信息检索领域中的重要研究课题。本文首先对web网页的相关概念及体系结构做了介绍,然后对已有的网页噪声识别与消除方法进行了阐述和分析,在此基础上提出了一种网页噪声识别与消除的方法。该方法的基本思想是先根据网页的内容生成相应的DOM树,然后根据DOM树提供的信息按照一定的规则进行网页噪声信息识别,并形成一个可疑网页噪声信息表示模型。在信息检索时,可根据可疑网页噪声信息表示模型提供的信息,对检索到的信息,采用VSM方法进行相似度计算,并根据相似度计算结果确定最终要去除的网页噪声。论文给出了网页噪声的具体识别方法,可疑网页噪声信息表示模型的形成流程和具体算法,相似度计算及其阈值的选定方法等。作者对本文提出的网页噪声识别和消除方法,以Lucene+Heritrix框架为基础,设计了一个有关的模拟实验环境,并在此环境下,采用实际的网站网页进行的模拟试验。实验表明,论文给出的网页噪声的设别和消除方法是可行和有效的,与其它同类方法相比,在网页噪声的识别与消除的准确率和效率都有所提高。
其他文献
目前,人脸检测与跟踪成为越来越活跃的研究课题,其应用前景非常广阔,如智能监控、公安(罪犯识别等)安全验证系统、视频会议、考勤系统、人机交互系统、医学、数字图书馆等。
文件分享是互联网的传统应用,在线视频则呈现爆炸性增长,若能将两者结合提供一体化服务将会带来更好的用户体验。P2P技术已被证明可以用来提供大规模的网络服务,BitTorrent是
无线传感器网络是结合了传感器、无线通信和嵌入式系统三方面技术的新型网络技术,自从被提出后,就引起了人们的极大关注,在医疗卫生、环境监测和军事等领域有着广阔的应用前
随着互联网技术的发展,人们进入了信息化的时代。在这个信息化的时代,信息就意味着财富,如何有效快速获得准确的、有价值的信息成为关键环节。当前,Web上出现了大量的、结构不同
随着物联网的发展和移动终端的普及,越来越多的数字资源被产生,数据安全的挑战也越来越大。尤其是随着云存储技术的普及,人们开始更多将自己的私有数据上传到云端备份,却对数
迭代算法是指那些对初始输入数据集进行多轮反复处理寻找所需近似解或者精确解的算法。它在早期用于数值分析中线性方程组和微分方程等方面的近似求解。经过几十年的发展,迭代
随着计算机视觉技术与工业生产技术的迅速发展,对机械零件尺寸测量精度的要求已经越来越高。因此,如何提高零件尺寸的测量精度已经成为目前研究的重点问题。本文在现有视觉测
随着互联网上资源和服务的日益增多,人们常常需要借助于搜索引擎来查找相关信息。通用搜索引擎返回的结果包含了大量的杂质信息,用户通常还需要从中筛选符合自己查询意图的结
三维编织复合材料是三维编织技术与现代复合材料技术相互结合的产物,是制作结构件的理想材料,它具有异形件一次编织成型、结构不分层、整体性能好与设计灵活等优点,已经成功地运
视频监控已在众多领域得到广泛应用,利用视频挖掘技术可以从海量视频数据中提取特征、进行有效的分析、发现高层语义知识和模式,实现对监控视频的自动化和智能化应用。目前,国内