论文部分内容阅读
专利大数据已成为国内外科学研究、商业情报分析以及精准创新创业的重要基础性资源,实现专利数据高质量的数据清洗目标以提高对该资源的利用效率具有重要意义。然而,由于汉字及其输入法特性,我国专利数据中的著录项信息清洗存在其特有的难点,其中发明家姓名消歧是最急需解决的关键性问题。在使用汉字输入法向专利数据库中输入专利信息时,可能把专利数据中的发明家名字输入错误而产生姓名歧义(同音字和形近字歧义),从而导致专利数据质量的降低。在以专利创新为背景的前提下,一些高科技创新企业可能因为专利数据质量的降低而影响对优秀发