论文部分内容阅读
中文分词是中文信息处理领域的一项基础性课题,未登录词识别问题又是中文分词的瓶颈问题之一。为了解决中文分词中的未登录词识别效率低下的问题,本文在分析现有未登录词识别难点、相关算法基础之上,提出了一种未登录词识别与词典设计新方法。本文的研究重点主要包括以下几个方面:(1)未登录词识别处理策略。通过分析目前未登录词的产生背景以及特点,提出一种基于网络论坛的中文未登录词识别新方法:首先利用网络蜘蛛下载论坛网页,对网页进行预处理,得到干净的语料库;然后对语料库分词,得到连续的分词碎片;对分词碎片进行姓名识别后,进行词频统计,识别高频共现词;最后利用Mutual Information函数和Partial Information函数线性叠加的新统计函数MP (Mutual Information函数和Partial Information函数的首字母结合而成)函数作为判断候选未登录词的依据,将确定为候选未登录词的词语加入到临时词典中。当累积到一定的词频后,再将其扩充到核心词典中,以便在下一次分词过程中一次性识别出该未登录词。(2)基于逆向最大匹配算法的分词词典设计。本文在进行字符串匹配前,首先对待切分文本扫描,找到以每个字开始能组成词的最大词长并比较,将最大值记为本次字符串匹配的首字下最大词长,然后利用优化的逆向最大匹配算法,根据该词长按照首字、尾字、剩余词组顺序进行匹配分词。为了减少核心分词词典的负担,本文将分词词典分为核心词典、临时词典和姓名词典三部分,分别对这三部分进行了构建。核心词典:存放绝大多数词条,专门用来匹配分词;本文在提出优化的逆向最大算法的基础上,改进了核心词典结构,以词的首字为索引,将词的尾字作为关键字存储词条,提高词典的查询和匹配效率。临时词典:主要的功能不是查询,而是用于存放词语切分时出现的候选未登录词,统计词频,并向核心词典输送新词。姓名词典:用于存放姓名的相关信息、,解决姓名识别问题。(3)将未登录词识别策略与分词词典相结合,实现中文分词原型系统。通过动态语料库的创建、语料库中未登录词识别、未登录词录入词典、系统整合四个步骤实现中文分词原型系统;通过系统初始化前后的性能测试、和其它分词算法的对比,证明该原型系统对未登录词的识别是可行的,在新词召回率和新词准确率等方面都有所提高。