论文部分内容阅读
图片搜索引擎是以图片作为主要检索对象的搜索引擎。由于图片搜索引擎的结果通过直接引用图片的原始地址来展现内容,如果图片变为无效链接,则在结果中无法展示。无效结果通常为死链和防盗链图片。结果中的无效链接比例过高,会严重影响用户体验和结果的相关性。
本文研究了基于图片搜索引擎的无效结果率降低的相关技术,并设计实现了一套高效的无效结果识别去除系统。本文的主要内容包括如下:
1.对无效结果图片在请求和展现时的行为、内容等的特征进行了详细的分析,实现通过行为特征判定算法来识别一个普通图片url是否是一个无效链接,并证明该算法下对无效链接的识别准确率相对较高。同时设计一套收集站点级防盗链图片的方法,用于防盗链图片内容特征判断。
2.在准确识别无效链接的基础上,本文于大数据量搜索系统下设计了一套无效链接识别系统,通过对检索结果的分析,将己存在于索引中的无效结果按影响面大小和重要程度区分优先级,对数据进行二次抓取判断,将识别出无效链接从搜索引擎的数据库中删除,使其不再被索引,从而不出现在检索结果页面中,同时在数据积累阶段识别并拒绝无效链接进入图片搜索引擎系统,进而降低图片搜索引擎结果的无效结果率。在设计中兼顾了覆盖度和抓取流量,在不影响正常服务流程稳定运行的基础上,实现无效结果率的稳定降低。
3.针对图片搜索引擎,设计一套对无效结果率的评测流程。使用该流程进行数据分析和抽样结果检查,证明以上系统运行前后,图片搜索引擎中的无效结果率有了显著降低,并持续维持在较低的水平,为改善用户搜索体验,提高图片搜索引擎的效果做出了一些有意义的尝试。