论文部分内容阅读
互联网中大量的重复文本不仅给信息检索带来了诸多不便,而且也是对知识产权的侵犯.本文主要通过实验研究中文文本查重的两个因素:(1)特征字的因素,即分别选取高频字(包括逗号和句号)、中频字和低频字作为特征字对全文查重的影响;(2)位置的因素,即对比文本等分位置和其他位置分别作用于全文查重的效果.实验结果表明,当选取全文五等分位置时,F-measure可以达到100%.