论文部分内容阅读
在搜索引擎领域中,汉语分词的重要性愈显突出。与西文不同,汉语书写时是按照句子连写,词与词之间无间隙,容易让人在句子的理解上产生偏差,这就给查询信息、机器翻译等工作造成了很大的困难:造成不相关结果的返同、找不到相关文档、翻译不准确等。所以为了解决这些问题就要对句中的词语进行精确的切分。在目前的分词方法中,人工智能法是未来汉语自动分词方法的发展趋势,面向汉语分词神经网络算法的研究尚还在起步阶段,虽有一些此类研究,但存在许多不足。
本文旨在对现有神经网络法用于汉语分词进行分析并加以改进,主要工作包括:
(1)用BP网络进行汉语分词。首先选取样本,在样本的选取上,本文所选样本空间为目前用于汉语分词实验的典型语句集,这些语句基本囊括了歧义字段的各种典型类型,样本空间具有一定的代表性。其次,在样本训练前,先把字段中所包含的语法规则转换为神经网络能够接受的数据形式,将字段中的单词依词性代码库分别进行编码;在对输出结果所代表的含义进行解释时,从切分的表示方式上,以大量训练所得的输出结点值为依据对切分点进行判断。从而将字、词或抽象语法规则通过代码的表示方式与输入神经元对应,使切分方式与输出神经元相对应,找到了一个输入、输出逻辑概念到输入、输出模式的转换。最后通过大量数据训练达到了网络对歧义字段中包含的语法规则的学习,进而实现了对词语的准确切分。
(2)本文采用结合遗传算法来改进BP分词算法。遗传算法有全局搜索的特点,可以改善神经网络局部收敛的问题,充分发挥了遗传算法的优势。在此基础上提出了GA-BP算法,在BP算法之前,先用改进的GA在随机点集中遗传出优化初值,以此作为BP算法的初始权值,再由BP算法进行训练,最后运用到BP神经网络控制,这就是GA-BP算法的基本原理。本文用该方法对样本集进行了训练,发现新算法在歧义字段上的分词精度达到94.38%,算法的收敛速度明显高于BP算法。最后对未经训练的样本进行实验,给出了正确的响应结果,样本切分正确率高达95.0%。此方法应用于词语切分上,取得了很好的分词效果。