分词技术研究及其在Web文本挖掘中的应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:my163mail12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,如何及时精确地抽取和组织无序的海量信息以实现方便的查询,已经成为研究的焦点。特别是当Internet迅速发展的时候,网络信息挖掘已经变得日益重要。而汉语自动分词技术作为中文网络信息挖掘的基石,也具有广阔的前景和重大的价值。 本文阐述了汉语自动分词技术在中文Web文本挖掘中的应用,对有关理论进行了论述,讨论了Web文本挖掘系统的结构和技术。本文的工作集中在以下几点: (1)研究的重点在于中文关键信息提取,其中的难点就是中文自动分词。本文重点讨论的算法是基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。 (2)基于特定的分词系统,设计了相应的分词词典,该分词词典支持词条首字快速查找算法,并应用于web挖掘系统中,分析结果表明,此分词方法在处理速度上,还是歧义处理上都有较大提高。 (3)在未登录词识别方面,引入决策树方法,使得未登录词识别能力有一定提高。 (4)在分词的切分排歧方面,我们采取了一种基于N-最短路径的策略。在分词早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在完成识别之后从N个最有潜力的候选结果中选优得到。 (5)针对其他算法对系统资源占用比较大的问题,采取了改进分词算法中用到的数据结构,精简字典文件等方法。收效最明显的做法是:将程序运行赛程所需要的各种数据文件建成一个索引文件,大大节省了程序运行时所需内存空间,并且大大提高了分词处理速度。 本文最后部分给出的实验结果表明,上述方法的精度和稳定性比经典模型和同类方法都有明显的提高,充分体现了这一解决方案以及算法改进的有效性。
其他文献
网络的发展带来了现代远程教育的迅速发展。现代远程教育以网络教育为主,它以互联网为依托,采用计算机多媒体技术,这使其具有“双向交互性、个性化学习、反馈迅速、移动性”的特
作为分布环境中网络异构问题的解决方案,中间件备受关注。中间件开发中一个重要的问题就是网络通讯服务的设计与开发——任何一种中间件都必须依赖通讯服务来完成其自身各部
本文对基于离散元法的精密排种器分析设计软件开发进行了研究。文章在对国内外该方面的研究现状及存在问题进行分析的基础上,提出了由CAD模型建立其离散元法分析模型的方法,并
本文围绕邻接特征的选择、表示和使用进行相关研究,提出了基于邻接特征的网页主题传播算法。该算法基于网页超链接构建的有向图模型,针对网页的主题局部性特点,实现了邻接网
射频识别技术(RFID)被广泛应用于工业自动化、商业自动化、交通运输控制管理等众多领域,具有广阔的市场前景。  本文首先介绍了RFID技术的基本原理及其相关理论;然后重点分
随着计算机网络技术的不断普及和发展,网络的安全性也被越来越多的被人们所广泛关注。目前,网络安全问题,已变成了新的研究热点。网络安全的主要目的是保证网络上存储和传输的信
随着基于网络的计算机系统在现代社会中扮演着越来越重要的作用,这些系统也成为了黑客入侵的目标。除传统的入侵防护技术如用户授权与认证、加密外,入侵检测也是保护计算机系统
近年来,随着网络安全问题日益突出,单点登录研究领域得到了越来越多的关注。许多企业和组织都对它进行了大量的研究,并推出了自己的解决方案和产品。但由于缺乏统一的标准,各种单
数据仓库的建设是为了能支持决策分析。数据质量是数据仓库项目的生命线所在,也关系到数据分析、数据挖掘的质量。在进行决策分析或数据挖掘时,需要全面、正确地集成数据,这些集
近年来,Internet上垃圾邮件问题日益严重。其治理和解决需要从立法、组织和技术三个方面综合共同努力,彻底解决垃圾邮件的影响和危害。作者从治理垃圾邮件的技术层面出发,在