论文部分内容阅读
随着信息时代的到来,如何及时精确地抽取和组织无序的海量信息以实现方便的查询,已经成为研究的焦点。特别是当Internet迅速发展的时候,网络信息挖掘已经变得日益重要。而汉语自动分词技术作为中文网络信息挖掘的基石,也具有广阔的前景和重大的价值。
本文阐述了汉语自动分词技术在中文Web文本挖掘中的应用,对有关理论进行了论述,讨论了Web文本挖掘系统的结构和技术。本文的工作集中在以下几点:
(1)研究的重点在于中文关键信息提取,其中的难点就是中文自动分词。本文重点讨论的算法是基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。
(2)基于特定的分词系统,设计了相应的分词词典,该分词词典支持词条首字快速查找算法,并应用于web挖掘系统中,分析结果表明,此分词方法在处理速度上,还是歧义处理上都有较大提高。
(3)在未登录词识别方面,引入决策树方法,使得未登录词识别能力有一定提高。
(4)在分词的切分排歧方面,我们采取了一种基于N-最短路径的策略。在分词早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在完成识别之后从N个最有潜力的候选结果中选优得到。
(5)针对其他算法对系统资源占用比较大的问题,采取了改进分词算法中用到的数据结构,精简字典文件等方法。收效最明显的做法是:将程序运行赛程所需要的各种数据文件建成一个索引文件,大大节省了程序运行时所需内存空间,并且大大提高了分词处理速度。
本文最后部分给出的实验结果表明,上述方法的精度和稳定性比经典模型和同类方法都有明显的提高,充分体现了这一解决方案以及算法改进的有效性。