降低图片搜索引擎中无效链接率的一种方法的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:yhmlivefor46
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图片搜索引擎是以图片作为主要检索对象的搜索引擎。由于图片搜索引擎的结果通过直接引用图片的原始地址来展现内容,如果图片变为无效链接,则在结果中无法展示。无效结果通常为死链和防盗链图片。结果中的无效链接比例过高,会严重影响用户体验和结果的相关性。   本文研究了基于图片搜索引擎的无效结果率降低的相关技术,并设计实现了一套高效的无效结果识别去除系统。本文的主要内容包括如下:   1.对无效结果图片在请求和展现时的行为、内容等的特征进行了详细的分析,实现通过行为特征判定算法来识别一个普通图片url是否是一个无效链接,并证明该算法下对无效链接的识别准确率相对较高。同时设计一套收集站点级防盗链图片的方法,用于防盗链图片内容特征判断。   2.在准确识别无效链接的基础上,本文于大数据量搜索系统下设计了一套无效链接识别系统,通过对检索结果的分析,将己存在于索引中的无效结果按影响面大小和重要程度区分优先级,对数据进行二次抓取判断,将识别出无效链接从搜索引擎的数据库中删除,使其不再被索引,从而不出现在检索结果页面中,同时在数据积累阶段识别并拒绝无效链接进入图片搜索引擎系统,进而降低图片搜索引擎结果的无效结果率。在设计中兼顾了覆盖度和抓取流量,在不影响正常服务流程稳定运行的基础上,实现无效结果率的稳定降低。   3.针对图片搜索引擎,设计一套对无效结果率的评测流程。使用该流程进行数据分析和抽样结果检查,证明以上系统运行前后,图片搜索引擎中的无效结果率有了显著降低,并持续维持在较低的水平,为改善用户搜索体验,提高图片搜索引擎的效果做出了一些有意义的尝试。  
其他文献
目前交通视频检测技术已成为智能交通系统领域近年来的研究热点,在实际工程中得到越来越多的应用。车辆检测作为交通视频检测的重点和难点所在,占有重要的研究地位和意义。  
现代战争对战场打击效果信息收集的要求迅速提高,弹载侦察相机挂载在导弹上,在导弹攻击目标前夕与弹头分离、拍摄照片实时传回控制中心,比较弹头爆炸前后的图片,能提供有效的战场
本文针对在p2p环境下服务端由普通个人主机充当,无法保障下载者的数据传输体验的问题,提出了基于节点互动的合作下载机制。具体的研究工作如下:   首先,通过对Maze系统运行日
从传统手持设备的存储卡到嵌入式设备的永久存储介质,MMC/SD卡以其体积小、容量大、操作简单的特性被应用在日常生活的方方面面。在北大众志自主设计的系统芯片PKUnity-3上,M
因为互联网的普及与发展,如今已经进入了信息过载的时代,用户没有足够的能力和精力对海量的信息进行鉴别和过滤。个性化推荐技术,能够根据用户的个性化偏好为用户推荐其可能
随着互联网的发展,移动互联网的成熟,用户量不断增大,用户的需求也变得多样化,传统的服务器架构已经不能承受住来自海量用户的并发请求了。本文通过对Nginx服务器进行研究,掌
NAND Flash存储器以其体积小、功耗低、启动快、价格低廉和抗恶劣环境等优点,已被广泛应用于嵌入式领域作为数据存储设备。同时,基于NAND Flash存储技术的固态盘已被看做传统磁
语音增强技术用于减小含噪语音中的噪声干扰,提高语音的质量和可懂度,因此在语音通信、语音识别、助听器等领域具有重要的作用。本文针对语音增强中的噪声估计和噪声去除这两
随着移动通信以及空间定位等技术的融合和发展,移动通信领域中产生并积累了海量的、动态变化的时空数据。这些信息中蕴藏着丰富的用户行为规律。利用数据分析及数据挖掘等技
在嘈杂的室内环境中,听者对特定目标语音的加工会受到周围背景噪声和其他说话人语音的干扰。听觉系统如何从接收到的混合声波中有效地识别和理解目标语音至今尚未得到充分的