面向汉语分词分析的GA-BP神经网络算法研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户：zhuav

【摘要】

：

在搜索引擎领域中，汉语分词的重要性愈显突出。与西文不同，汉语书写时是按照句子连写，词与词之间无间隙，容易让人在句子的理解上产生偏差，这就给查询信息、机器翻译等工作造成了很

【作者】

：

张良

【机构】

：

中国地质大学(武汉)

【出处】

：

中国地质大学(武汉)

【发表日期】

：

2008年期

【关键词】

：

中文分词歧义字段神经网络 BP网络遗传算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在搜索引擎领域中，汉语分词的重要性愈显突出。与西文不同，汉语书写时是按照句子连写，词与词之间无间隙，容易让人在句子的理解上产生偏差，这就给查询信息、机器翻译等工作造成了很大的困难：造成不相关结果的返同、找不到相关文档、翻译不准确等。所以为了解决这些问题就要对句中的词语进行精确的切分。在目前的分词方法中，人工智能法是未来汉语自动分词方法的发展趋势，面向汉语分词神经网络算法的研究尚还在起步阶段，虽有一些此类研究，但存在许多不足。本文旨在对现有神经网络法用于汉语分词进行分析并加以改进，主要工作包括： (1)用BP网络进行汉语分词。首先选取样本，在样本的选取上，本文所选样本空间为目前用于汉语分词实验的典型语句集，这些语句基本囊括了歧义字段的各种典型类型，样本空间具有一定的代表性。其次，在样本训练前，先把字段中所包含的语法规则转换为神经网络能够接受的数据形式，将字段中的单词依词性代码库分别进行编码；在对输出结果所代表的含义进行解释时，从切分的表示方式上，以大量训练所得的输出结点值为依据对切分点进行判断。从而将字、词或抽象语法规则通过代码的表示方式与输入神经元对应，使切分方式与输出神经元相对应，找到了一个输入、输出逻辑概念到输入、输出模式的转换。最后通过大量数据训练达到了网络对歧义字段中包含的语法规则的学习，进而实现了对词语的准确切分。 (2)本文采用结合遗传算法来改进BP分词算法。遗传算法有全局搜索的特点，可以改善神经网络局部收敛的问题，充分发挥了遗传算法的优势。在此基础上提出了GA-BP算法，在BP算法之前，先用改进的GA在随机点集中遗传出优化初值，以此作为BP算法的初始权值，再由BP算法进行训练，最后运用到BP神经网络控制，这就是GA-BP算法的基本原理。本文用该方法对样本集进行了训练，发现新算法在歧义字段上的分词精度达到94.38％，算法的收敛速度明显高于BP算法。最后对未经训练的样本进行实验，给出了正确的响应结果，样本切分正确率高达95.0％。此方法应用于词语切分上，取得了很好的分词效果。

其他文献

无穷状态系统互模拟判定算法

因为无穷状态系统拥有无穷多个状态，基于它的可判定性理论更加复杂，对于无穷状态系统的强、弱互模拟等价的判定比有穷状态系统的判定更有难度。我们对无穷状态系统BPA(Basic Pr

学位

无穷状态系统互模拟等价互模拟判定算法关系最粗划分

基于事件的社交网络核心节点挖掘算法的研究与应用

随着互联网的发展,社交网络已日趋发达和成熟,用户的参与度也来到了一个前所未有的高度,社交网络现已成为了大多数新闻事件的最早传播源,所以对于社交网络中新事件的检测已经

学位

社交网络新事件检测核心节点相似性

基于GIS的测绘数据中心架构体系的研究

随着测绘信息化工作的深入，测绘管理部门对数据共享和信息服务的要求与日俱增。怎样集成应用分散、独立的测绘信息，使其更好的为测绘管理决策服务，并提供网络化的社会服务，是目前

学位

测绘数据中心数据交换GML元数据GIS

一种人工鱼群算法及其应用研究

优化问题一直是科学技术和工程应用领域的研究热点,传统的优化方法在解决复杂度和规模日益增大的优化问题时遇到了不可避免的难题。随着计算机技术的飞速发展,群体智能算法作

学位

鱼群算法水流机制函数优化组合优化

RFID读写器基带单元关键技术研究与实现

射频识别技术(Radio Frequency Identification，简称RFID)是一种先进的非接触式自动识别技术，它利用射频信号及其空间耦合与传输特性进行双向通信，实现对物体的自动识别和信息采

学位

基带信号数字信号处理读写器射频识别数据采集

网络协同研究服务环境多文档全文检索的设计与开发

全文检索是现代信息检索技术的一个非常重要的部分。它是一种快速有效的信息检索技术，也是处理非结构化数据的强大工具，同时也是搜索引擎的核心技术之一。它的使用极大地提高了

学位

全文检索CLucene索引文本抽取多文档网络协同研究服务环境

无线传感器网络中时变速率路由算法和路由鲁棒性策略研究

无线传感器网络(Wireless Sensor Networks, WSNs)通常靠能量有限的电池供电,因而延长WSNs的生命周期成为研究的重点。同时为了提高WSNs的服务质量,本文研究了路由鲁棒性策略

学位

无线传感器网络时变速率网络生命周期路由鲁棒性

Real-time Hand Gesture Recognition By Using Geometric Feature

Rapid development of computer technology has brought a great change in our lives.According to spread of smart devices, a new input device has been required.The

学位

手势识别几何特征人机交互手部区域从背景差分法

基于J2EE的远程教学资源管理系统的设计与实现

远程教育作为我国高等教育的一种形式，有效地牵引着教育资源的优化，给教育思想与技术带来了革命性的变革，已经成为现代教育的必然要求。远程教育要得以顺利、高效的实施，必然离不

学位

J2EE教学资源远程教学资源管理系统

国土空间数据采编一体化系统的设计与实现

在信息化席卷全球的今天，我国的国土资源管理信息化在国家土地二次更新调查的带动下稳步推进。国土空间数据的采集编辑是实施国土资源管理信息化的重要环节。结合国土空间数据

学位

国土空间数据数据采编国土管理

面向汉语分词分析的GA-BP神经网络算法研究

其他学术论文