Web文本挖掘的前端处理——中文自动分词MM算法的改进研究

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:afei137
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类是一种重要的文本挖掘工作.特别是对中文文本的自动分类,目前还没有达到一个统一的标准.本文在已有的研究基础上,对中文文本的自动分类方法进行了进一步的探讨,给出了一个具体的中文文本自动分类系统框架.通过对中文信息处理和文本数据挖掘技术的研究,提出了一种分词-最大匹配(MM,Maximum Match)算法的改进方法,实现了中文文本的分词.本文对中文文本自动分类的各个环节进行了较为深入的研究,针对Web文本挖掘的特点,特别在中文分词的匹配算法方面提出了自己新的想法,在处理大量文本时有较好的效率.
其他文献
  随着科学技术的飞速发展,人类通过各种航空航天遥感获得了大量影像数据,如何有效地组织、存储、显示、分析和共享这些数据直接关系到国家基础空间信息资源的建设和有效利用
随着计算机网络结构的日益复杂,大规模、分布式高速网络的大量应用以及网络入侵技术的发展,整个网络所面临的安全威胁日益严重。入侵检测系统以其内在的优点已成为网络安全的重
由于计算机处理能力的不断增强,国内外CAD技术的飞速发展,CAD技术被广泛应用于众多领域。随着声表面波传感器技术的不断发展,声表面波传感器将应用于越来越广泛的学科领域。
图像的放大和缩小作为一种基本的图像处理技术,在实际中有着很广泛的应用。如在医学、公安、航天等系统中,常常需要一种有效且高质量的放缩算法来改变已有图像的大小;在视频会议
校园网作为学校教学和科研的一个重要平台,在学校的教学、科研和日常工作中起着越来越重要的作用,一个学校的实力怎样,往往可以通过学校校园网的建设与使用情况得到体现,校园网的
本文对移动互联网智能翻译技术进行研究,内容如下:第二章WAP协议与ANL规范综述,介绍WAP网关翻译系统的技术背景,包括WAP协议、WL语言、WL语言,以及它们之间的关系。第三章WAP网关
网格环境下的数据管理与传统的分布式环境下的数据管理不同:数据库大多是一些比较大型的数据库系统;这些数据库往往多是动态性的,具有自治性和分布式的特点。为了解决网格上
科学计算可视化是发达国家20世纪80年代后期提出并发展起来的一个新的研究领域,它是运用计算机图形学及图像处理技术,将科学计算过程中及计算结果的数据转换为图形及图像在屏幕
Internet的迅速发展使得网络上的信息量大大增加,为用户提供了一个极具价值的信息源,但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信
本论文主要研究将多值逻辑应用在产生式知识表示中,表现出知识的不确定性和不精确性;同时,为了缩小搜索空间,提高推理速度,提出了一种基于Petri网的形式化正向化简算法,从而免去了