论文部分内容阅读
自动分词是中文信息处理各种应用系统的一个不可或缺的模块。二十年来国内许多研究人员对分词技术进行了大量研究,并取得了一定的成果,但从实用化角度来考察仍不尽人意。论文从多个方面讨论了一个高精度分词系统的构造过程,以及如何来提高和衡量分词的正确性。
论文首先考虑的是一个系统的软件架构。高精度的分词系统将会采用多种多样的方法,需要多种多样的信息,如何将这些方法、这些信息集成到一个统一的系统中,这是首先需要解决的问题。为此,论文提出了一个以分词图为核心数据结构的可扩展系统框架。实践表明该框架结构清晰,具有很好的可扩展性和可维护性,可以兼容目前主流的分词方法。
在这个框架的基础上,论文采用了基于N元模型的通用消歧方法,并对该模型的几个方面进行了研究。论文对一元模型、二元模型以及二元模型的各种平滑方法进行了比较研究,也对N元模型的消歧性能和基于正向逆向最大匹配方法进行了比较,还对N元模型的消歧性能在不同的训练库规模下的表现进行了研究。
此外,本论文在对分词系统的特点分析基础上,提出了评测和错误驱动的系统开发过程。在每次修改了系统之后,都要进行评测,根据评测的结果决定接受修改或者放弃修改。这种方法保证了对系统所做的修改是有效的,从而逐步提高系统的正确性。