面向汉语分词分析的GA-BP神经网络算法研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:zhuav
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在搜索引擎领域中,汉语分词的重要性愈显突出。与西文不同,汉语书写时是按照句子连写,词与词之间无间隙,容易让人在句子的理解上产生偏差,这就给查询信息、机器翻译等工作造成了很大的困难:造成不相关结果的返同、找不到相关文档、翻译不准确等。所以为了解决这些问题就要对句中的词语进行精确的切分。在目前的分词方法中,人工智能法是未来汉语自动分词方法的发展趋势,面向汉语分词神经网络算法的研究尚还在起步阶段,虽有一些此类研究,但存在许多不足。 本文旨在对现有神经网络法用于汉语分词进行分析并加以改进,主要工作包括: (1)用BP网络进行汉语分词。首先选取样本,在样本的选取上,本文所选样本空间为目前用于汉语分词实验的典型语句集,这些语句基本囊括了歧义字段的各种典型类型,样本空间具有一定的代表性。其次,在样本训练前,先把字段中所包含的语法规则转换为神经网络能够接受的数据形式,将字段中的单词依词性代码库分别进行编码;在对输出结果所代表的含义进行解释时,从切分的表示方式上,以大量训练所得的输出结点值为依据对切分点进行判断。从而将字、词或抽象语法规则通过代码的表示方式与输入神经元对应,使切分方式与输出神经元相对应,找到了一个输入、输出逻辑概念到输入、输出模式的转换。最后通过大量数据训练达到了网络对歧义字段中包含的语法规则的学习,进而实现了对词语的准确切分。 (2)本文采用结合遗传算法来改进BP分词算法。遗传算法有全局搜索的特点,可以改善神经网络局部收敛的问题,充分发挥了遗传算法的优势。在此基础上提出了GA-BP算法,在BP算法之前,先用改进的GA在随机点集中遗传出优化初值,以此作为BP算法的初始权值,再由BP算法进行训练,最后运用到BP神经网络控制,这就是GA-BP算法的基本原理。本文用该方法对样本集进行了训练,发现新算法在歧义字段上的分词精度达到94.38%,算法的收敛速度明显高于BP算法。最后对未经训练的样本进行实验,给出了正确的响应结果,样本切分正确率高达95.0%。此方法应用于词语切分上,取得了很好的分词效果。
其他文献
因为无穷状态系统拥有无穷多个状态,基于它的可判定性理论更加复杂,对于无穷状态系统的强、弱互模拟等价的判定比有穷状态系统的判定更有难度。我们对无穷状态系统BPA(Basic Pr
随着互联网的发展,社交网络已日趋发达和成熟,用户的参与度也来到了一个前所未有的高度,社交网络现已成为了大多数新闻事件的最早传播源,所以对于社交网络中新事件的检测已经
随着测绘信息化工作的深入,测绘管理部门对数据共享和信息服务的要求与日俱增。怎样集成应用分散、独立的测绘信息,使其更好的为测绘管理决策服务,并提供网络化的社会服务,是目前
优化问题一直是科学技术和工程应用领域的研究热点,传统的优化方法在解决复杂度和规模日益增大的优化问题时遇到了不可避免的难题。随着计算机技术的飞速发展,群体智能算法作
射频识别技术(Radio Frequency Identification,简称RFID)是一种先进的非接触式自动识别技术,它利用射频信号及其空间耦合与传输特性进行双向通信,实现对物体的自动识别和信息采
全文检索是现代信息检索技术的一个非常重要的部分。它是一种快速有效的信息检索技术,也是处理非结构化数据的强大工具,同时也是搜索引擎的核心技术之一。它的使用极大地提高了
无线传感器网络(Wireless Sensor Networks, WSNs)通常靠能量有限的电池供电,因而延长WSNs的生命周期成为研究的重点。同时为了提高WSNs的服务质量,本文研究了路由鲁棒性策略
Rapid development of computer technology has brought a great change in our lives.According to spread of smart devices, a new input device has been required.The
远程教育作为我国高等教育的一种形式,有效地牵引着教育资源的优化,给教育思想与技术带来了革命性的变革,已经成为现代教育的必然要求。远程教育要得以顺利、高效的实施,必然离不
在信息化席卷全球的今天,我国的国土资源管理信息化在国家土地二次更新调查的带动下稳步推进。国土空间数据的采集编辑是实施国土资源管理信息化的重要环节。结合国土空间数据