论文部分内容阅读
随着当代信息技术和应用的快速发展,文献和数据正在以前所未有的速度增长。在我国,中文文献和数据等更是以惊人的速度增长。在此背景下,对中文信息的处理和利用提出了更高的要求。在信息处理领域,不管英文还是中文,分词都是最基本最重要的工作之一。例如:在搜索引擎中主要以关键字进行搜索,对搜索内容进行分词的正确与否直接影响了搜索结果的好坏。由于中文和英文的分词划分的方式不同:英文以单词为基本单位,而中文是以汉字为基本单位,并且对词的边界没有确切的限定,所以对中文分词技术的研究变得更加重要。由于中文分词的两大特点:复杂性和多歧义性。许多学者为了提高中文分词的质量,进行了大量的研究工作。本文针对现有主要的中文分词算法进行了分析和研究。主要的创新点如下:1)提出了基于Hash的正向回溯算法,改进了由于利用回溯方法解决歧义带来的复杂度高的问题;2)针对CRF模型识别命名实体过程中的因观察窗口小带来的内嵌以及一些外国译名、网络新词问题,提出了一种组合方法来改进命名实体识别效果。论文主要内容如下:(1)提出基于Hash的正向回溯算法。该算法在回溯机制的基础上,在查询词语时采用新的扫描方式,并结合hash词典解决了最长匹配字的问题。此外,针对采用回溯机制发现和处理歧义带来的匹配次数翻倍,导致的时间复杂度高的问题,通过加入结束标识位判断,减少时间复杂度。该方法相对于其他回溯方法,减少了时间复杂度。(2)提出利用组合进行命名实体识别的算法,该算法将CRF识别命名实体和正向最大匹配相结合,改进了命名实体的识别效果。该组合算法基于CRF模型,利用基本特征、实体列表特征、边界特征和组合特征构造相应的模板,然后根据实验好坏,决定采用何种模板;针对英文名识别不准确、网络新名词和观察窗口小导致的机构名内嵌的问题,提出建立常见外文名字字典、网络新词典以及5字以上的机构名字典将匹配法与CRF模型结合,利用规则修正分词结果,从而提高准确率和召回率。(3)为了验证所提出算法的可行性,在Eclipse开发平台上,利用Java和面向对象的程序设计思想来开发了一套中文分词原型系统,实验结果表明分词效果理想。