基于属性权重的实体解析技术

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:jw____
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体解析是将在同一个数据源或者不同数据源中,指向现实世界同一实体的元组识别出来并合并的过程.如何高效而准确地将指向同一实体的记录识别出来一直是研究人员不懈追求的目标.在基于规则的匹配算法中,大多数算法是将所有的属性都作为匹配属性进行计算,并且各个属性的权重都是一样的,然而这样不能充分体现关键属性的重要性.主要针对关系数据库数据源中实体解析准确性的问题,采用信息增益的方法和概率统计的方法计算数据属性的权重,用来代表该属性在记录中的重要性,达到提高实体解析准确度的目的.并且在此基础上采用top-k算法,选择出
其他文献
计算思维是运用计算机科学的基础概念去求解问题、设计系统和理解人类行为等的一系列思维活动。作为计算机专业本科人才培养,更应该训练和提高学生的计算思维能力。文章围绕算