SimHash相关论文
在当今互联网环境下,愈来愈多的文档出现被随意复制、修改、变换格式、替换同义词等现象,这将导致大量核心内容甚至全部内容一样的......
重复数据和相似数据的处理是数据清洗的一项重要内容.针对招投标项目公告数据集存在大量重复信息的情况,结合该数据集为中文字符集......
恶意软件是当前互联网安全的主要威胁之一.文章以对恶意软件进行快速有效检测为研究目的,提出了SIC模型,该模型采用SimHash方法,利......
科技以追风逐电的速度渗透到各行各业,使数据量出现爆炸式增长,为减少存储成本与网络开销,重复数据删除技术被越来越广泛地应用于......
在无线传感器网络(Wireless Sensor Network,WSN)中,溯源(Provenance)记录数据的产生、处理以及传输等历史信息,是进行数据可信性......
随着计算机互联网的飞速发展,数据呈现指数级增长,越来越多的用户选择将数据存储在云服务器。云存储减轻了用户的存储管理负担,为......
21世纪是互联网的黄金时代。在这一期间,信息技术得到了快速的发展,因特网已经成为目前最大的知识宝库。其内容浩如烟海,包罗万象,......
虽然网络搜索引擎使得人们通过输入关键词就能从浩瀚的网络空间中获取自己想要的信息,但是在面对海量网页数据时,搜索引擎要想具有......
互联网的迅速发展促进了网络教学模式的优化升级,但也使得抄袭的方式和手段更加多样便捷,特别是在高校开展的计算机类课程中,代码......
随着网络上视频拷贝的不断增多,快速有效的视频拷贝检测方法变得越来越重要.针对大规模的视频数据库,提出一种快速有效的视频拷贝......

