Web文本挖掘的前端处理——中文自动分词MM算法的改进研究

来源 :北京机械工业学院北京信息科技大学 | 被引量 : 0次 | 上传用户：afei137

【摘要】

：

自动文本分类是一种重要的文本挖掘工作.特别是对中文文本的自动分类,目前还没有达到一个统一的标准.本文在已有的研究基础上,对中文文本的自动分类方法进行了进一步的探讨,

【作者】

：

龚汉明

【机构】

：

北京信息科技大学

【出处】

：

北京机械工业学院北京信息科技大学

【发表日期】

：

2005年期

【关键词】

：

Web挖掘中文信息处理分词文本自动分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自动文本分类是一种重要的文本挖掘工作.特别是对中文文本的自动分类,目前还没有达到一个统一的标准.本文在已有的研究基础上,对中文文本的自动分类方法进行了进一步的探讨,给出了一个具体的中文文本自动分类系统框架.通过对中文信息处理和文本数据挖掘技术的研究,提出了一种分词-最大匹配(MM,Maximum Match)算法的改进方法,实现了中文文本的分词.本文对中文文本自动分类的各个环节进行了较为深入的研究,针对Web文本挖掘的特点,特别在中文分词的匹配算法方面提出了自己新的想法,在处理大量文本时有较好的效率.

其他文献

GIS系统中海量影像数据管理及网络传输优化的研究

　　随着科学技术的飞速发展，人类通过各种航空航天遥感获得了大量影像数据，如何有效地组织、存储、显示、分析和共享这些数据直接关系到国家基础空间信息资源的建设和有效利用

学位

遥感信息影像数据网络传输地理信息系统

基于攻击意图的报警信息关联研究

随着计算机网络结构的日益复杂，大规模、分布式高速网络的大量应用以及网络入侵技术的发展，整个网络所面临的安全威胁日益严重。入侵检测系统以其内在的优点已成为网络安全的重

学位

入侵检测报警关联攻击意图攻击场景

基于声表面波传感器的CAD研究与开发

由于计算机处理能力的不断增强,国内外CAD技术的飞速发展,CAD技术被广泛应用于众多领域。随着声表面波传感器技术的不断发展,声表面波传感器将应用于越来越广泛的学科领域。

学位

声表面波传感器CAD软件压电基片耦合系数功率流角遗传算法

基于新代数插值算法的图像放缩研究

图像的放大和缩小作为一种基本的图像处理技术，在实际中有着很广泛的应用。如在医学、公安、航天等系统中，常常需要一种有效且高质量的放缩算法来改变已有图像的大小；在视频会议

学位

图像放缩代数插值新代数插值牛顿-新代数插值

校园网边界安全研究

校园网作为学校教学和科研的一个重要平台，在学校的教学、科研和日常工作中起着越来越重要的作用，一个学校的实力怎样，往往可以通过学校校园网的建设与使用情况得到体现，校园网的

学位

校园网边界安全网络安全路由器防火墙安全评估

移动互联网智能翻译技术的研究

本文对移动互联网智能翻译技术进行研究，内容如下：第二章WAP协议与ANL规范综述，介绍WAP网关翻译系统的技术背景，包括WAP协议、WL语言、WL语言，以及它们之间的关系。第三章WAP网关

学位

网页数据挖掘移动互联网智能翻译预取策略WAP

网格环境下基于P2P方法的数据访问和集成

网格环境下的数据管理与传统的分布式环境下的数据管理不同:数据库大多是一些比较大型的数据库系统;这些数据库往往多是动态性的,具有自治性和分布式的特点。为了解决网格上

学位

网格数据访问和集成中间件模式映射查询重构

三维可视化技术研究及其在地下水系统结构分析中的应用

科学计算可视化是发达国家20世纪80年代后期提出并发展起来的一个新的研究领域，它是运用计算机图形学及图像处理技术，将科学计算过程中及计算结果的数据转换为图形及图像在屏幕

学位

地下水资源地理信息系统三维可视化技术体元数据结构

面向主题的XML网页的模式和数据抽取

Internet的迅速发展使得网络上的信息量大大增加，为用户提供了一个极具价值的信息源，但因Internet所固有的开放性、动态性与异构性，又使得用户很难准确快捷地从WWW上获取所需信

学位

信息抽取XML模式抽取数据抽取

Petri网与多值逻辑在产生式知识表示及推理中的应用研究

本论文主要研究将多值逻辑应用在产生式知识表示中，表现出知识的不确定性和不精确性；同时，为了缩小搜索空间，提高推理速度，提出了一种基于Petri网的形式化正向化简算法，从而免去了

学位

Petri网多值逻辑模糊Petri网有色Petri网产生式知识表示不确定性推理

Web文本挖掘的前端处理——中文自动分词MM算法的改进研究

其他学术论文