企业信息垂直搜索引擎的研究与实现

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:w313829237
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,多元化信息的膨胀,传统的通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要,因而垂直搜索引擎应运而生。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定行业、某一特定人群或某一特定需求提供的分类更细致精确、数据更全面深入、更新更及时的搜索服务。其特点是具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则更加专著、具体和深入。本文的课题是“企业信息垂直搜索引擎的研究与实现”,对当前垂直搜索引擎的发展现状和前景进行深入的调研。对垂直搜索引擎中常用的一些算法进行了研究与分析,选择适合算法进行实现。在本文中特别对空间向量模型与中科院中文分词进行了深入研究与阐述。本文主要关注于对企业信息的垂直搜索引擎的研究与实现。基本实现过程主要是通过主题蜘蛛有针对性的获取网页,并对获取的文本信息进行结构化分析,利用向量空间模型计算相似度对网页进行过滤,确保获取更为准确的行业信息,并将这些信息按一定的结构存入数据库中。对主题蜘蛛获取的信息,通过中文分词,建立能快速响应用户请求的倒排序索引库。用户通过检索接口与数据库进行交互,获取个性化搜索服务。在对垂直搜索引擎算法的研究基础上,本文通过对数据库的设计、算法逻辑分析、用户界面的设计,以垂直搜索网站的形式实现了算法,并通过了相应的测试,使此网站能方便快捷的为用户提供专业信息搜索服务。最后对企业信息垂直搜索引擎进行总结与展望,对已完成工作进行了总结,对不足之处和需要改进的地方进行了展望,提出了后期的研究方向和目标,进而逐步完善系统,提供更加专业的垂直搜索服务。
其他文献
基于IPv4/IPv6双协议的网络传输平台是未来互联网发展的必经阶段,双栈协议模式下的服务器流量监测技术是网络安全技术基础之一,也是未来IPv6协议平台上主机安全技术的主要基
目前的信息检索工具主要是基于关键词匹配或内容分类目录进行查找,很少做进一步的智能化处理。因此,反馈给用户的是简单的相关信息,无法满足用户的检索要求。本体论是对信息
随着互联网的迅速普及,电子邮件已经成为现代通信的主要手段之一。然而垃圾邮件的泛滥也引起了人们的高度重视,垃圾邮件不仅耗费用户的时间和精力、占用大量的网络带宽和存储