【摘 要】
:
针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建.通过对相似重复数据进行分词程序处理和特征属性字
论文部分内容阅读
针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建.通过对相似重复数据进行分词程序处理和特征属性字典映射,提取核心词,再对核心词作相似度计算,所得结果加权求和得出相似度,以相似度阈值来判别是否重复.实验表明,该框架可有效用于重复数据检测,具有工程实用性.
其他文献
目前全球约有13个钾盐生产国,大多数通过地下开采回收钾盐。主要的7个钾盐生产国中,加拿大、白俄罗斯、俄罗斯的钾盐储量最大,1998年这3个国家的钾盐总产量约占全球钾盐总产量(2550万t)的63%;其次德
随着我国新医改的不断进行,医药卫生体制也在不断发生改革,医疗体制也发生改革,从而对医院党务工作提出了新的挑战,在新医改下如何开展党务工作已经成为工作人员所要思考的问题。
油菜的花色一般为黄色,心叶色一般为绿色,但也出现了花色为金黄、桔红、乳白和纯白等不同颜色及心叶色为紫色的甘蓝型油菜资源。花色与心叶色作为指示性状,具有表现稳定、易
全国大学生数学竞赛是高水平本科赛事之一,影响力逐年提升,迄今为止已成功举办十届,是学生展现能力素质、教师交流教学体会的平台,同时也极大地促进了《高等数学》课程的教学
将职业道德操守制度化,运用制度的威力应对职业道德沦丧带来的冲击,造就出新时代合格的国企职工队伍,国企需进行大胆的探索和实践,以职业素养的提高为前提,探寻新形势下开展
在大量调查的基础上,介绍了8种较为有效新型筛分机,分析了这些设备的优缺点,给出了其适用范围。
Based on a large number of surveys, eight kinds of new and effective scree
2010年12月30日,“齐鲁先锋——山东党员教育平台”开通;2011年6月7日,山东卫视《齐鲁先锋》党建栏目开播;2011年6月20日,“辉煌90载——中共山东党史网上陈列馆”开馆……一
辅酶Q10(CoQ10)是人体普遍缺少并具有重要生理生化功能的活性物质,具有清除自由基能力,对于心血管疾病具有一定的治疗功能。本文研究了大豆辅酶Q10的提取技术及富辅酶Q10大豆种质资源,结果如下:1.采用分子模拟方法预测了辅酶Q10的分子性质及其功能。建立了辅酶Q10在真空状态下300K时的优势构型并通过分子体系中电荷分布的计算,推测出辅酶Q10分子的活性位点主要是两个醌基。2.大豆籽粒中辅酶Q
蓖麻是一种性型表达较为复杂的作物,其花的性分化不仅受到遗传控制,还受到外界条件的影响。本试验以法国蓖麻核雌性两型系CSR6和其纯合雌性系I3、I5、I15、I17、I24为材料,对它
采用超高产(紧凑型)与普通高产(平展型)不同株型的玉米为材料,通过田间试验,解析了超高产玉米群体冠层结构特征及冠层内不同层次的叶片的光合特性,为保证玉米高产提供理论依据。