中文文本全文查重的实验研究

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:yzz133
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中大量的重复文本不仅给信息检索带来了诸多不便,而且也是对知识产权的侵犯.本文主要通过实验研究中文文本查重的两个因素:(1)特征字的因素,即分别选取高频字(包括逗号和句号)、中频字和低频字作为特征字对全文查重的影响;(2)位置的因素,即对比文本等分位置和其他位置分别作用于全文查重的效果.实验结果表明,当选取全文五等分位置时,F-measure可以达到100%.
其他文献