论文部分内容阅读
随着Internet/Web技术的快速普及和迅猛发展,WWW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。由于,因特网信息使用技术的发展往往跟不上因特网信息的增长,搜索引擎可以为人们查找与关键词相关的文档,但返回的结果往往是文档数量太多而命中率不高。传统搜索引擎技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求。基于Web挖掘的高性能信息检索就是针对这个问题而提出来的。研究的目标在于充分利用用户的个性化信息,通过用户兴趣制导或丰富查询模式等灵活手段来采集Web信息,充分利用网络信息,从而提高查询的准确度,提高了检索质量,并满足用户的特定查询需求。本文首先对Web挖掘技术和搜索引擎技术进行了分析,同时对其工作原理和数据挖掘中的聚类分析技术进行了较为深入的分析。由于高性能的个性化信息检索的前提是挖掘用户的访问特点并对用户进行分类,用户的访问行为是存放在Web日志中,Web日志数据需要进行预处理,才能用于用户兴趣的挖掘。因此论文深入讨论页面过滤和用户访问路径等问题,使Web日志预处理工作更加完善。本文通过深入研究检索系统如何更快速抓取更多高质量网页,如何进行网页文档索引,如何为用户提供高性能的检索服务后,重点围绕检索效率和检索效果这两个最基本的指标,从索引创建和检索过程详细分析高效检索系统的相关基本实现技术。在此基础上提出根据Web页面网页所在的位置,挖掘出网页在网站中的层次类别信息,通过这些信息进行动态聚类,为用户提供一种动态的目录聚类查询服务;并针对单个用户以往搜索记录进行分析,推测用户的搜索偏好,并对该用户进行查询建模,然后根据用户查询模型产生该类用户的访问模式。最后,本文对作者所做的工作进行了归纳,总结,并讨论了将来进一步的研究方向。