中文文本分类中文本表示及分类算法研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:abc1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,特别是Internet的普及,网页数量呈海量增长。由于网页中的内容大部分是文本信息,因此如何根据网页中的文本信息自动分类成为目前研究的重要课题。通过文本自动分类技术的使用,可以使网页自动的按照类别的方式进行组织和管理,满足人们方便快捷的信息处理需求,准确定位所需信息资源。同时,文本分类技术作为信息过滤、信息检索、搜索引擎、数字化图书馆等领域的技术基础,有着广泛的应用前景,可产生巨大的社会效益和经济效益。文本分类问题是一个复杂的过程,包括文本预处理、文本表示、分类算法、性能评估等主要步骤,其中文本表示是系统的基石,分类算法的设计是系统的核心和实现手段。本文主要从文本表示及分类算法两个角度展开了深入的研究,首先对文本分类的基本概念和知识进行了归纳,分析了目前最为流行的向量空间模型的表示效力以及它对于分类效果的影响因素。在此基础上,提出利用自然语言技术改进原有的向量空间表示模型,并提出与之相适应的文本分类算法,主要内容概括如下:(1)针对词作为文本特征存在着表达能力有限的问题,本文围绕句子级别特征之间的顺序和共现关系,引入特征关联图,提出了句子级关联特征的构造方法,并用于改进朴素贝叶斯分类器。实验表明此方法具有更高的分类性能。(2)特征降维是文本表示中的一个重要的研究方向,也是本文研究的一个主要内容。本文依据特征的分类能力,采用AdaBoost算法同时进行特征选择和分类器增强。在实验研究和分析的基础上,提出两步式特征选择的文本分类方法。实验结果表明了该方法在文本分类领域具有一定的可行性。(3)由于在降维、提高算法可用性、多样性及性能等方面具有很好的效果,基于特征子集的分类器集成方法成为了新的研究热点。在充分考虑词性的降维和消歧能力基础上,提出利用词性构造不同特征子集的方法,弥补了原有向量空间模型单靠词形的缺陷,从而提出了基于词性特征子集的分类器集成算法—POSAdaBoost,并同随机子空间集成分类算法的结果作了比较分析。
其他文献
目的 探讨恶性肿瘤患者发生脑梗死的相关机制。方法 选择恶性肿瘤并发脑梗死患者、普通脑梗死患者及体检对照组各67例,对脑梗死的常见危险因素及相关实验室指标及头颅MRI病灶
电控波束扫描天线在雷达、引信、导引头中发挥着越来越重要的作用。应用于毫米波频段的电扫描天线是毫米波引信、导引头中的重要部件,它与系统的测角精度、反应时间等技术指标
财务内部控制制度在防范企业财务风险,确保企业财务健康方面具有重要的作用,如果的加强公司财务内部控制制度建设也因此成为了企业财务管理的一项重要工作。本文对于公司财务
随着我国城市化和工业化进程的加速,大批农村剩余劳动力涌向城市,形成了农民工。他们的出现既解决了某些发达地区的劳动力不足,也缓解了不发达地区大量剩余劳动力的就业压力,为城
随着服务业市场竞争的日益加剧与顾客争夺成本的提高,如何建立和保持顾客忠诚也成为顾客关系管理理论界和实践界关注的一个焦点。本文在吸收前人研究成果的基础上,以规范分析和
为使试验振动环境更能准确的模拟产品的工作环境,采用多振动台激励的振动试验方式已成为当前综合环境试验发展的必然趋势。为此,人们开始研制相应的振动试验控制系统。本文以
目的观察那格列奈治疗老年2型糖尿病患者的有效性和安全性。方法 48例老年2型糖尿病患者分为新诊断糖尿病组26例,原有糖尿病组22例,新诊断组采用那格列奈控制血糖,既往组由原
<正> 随着我国社会主义市场经济体制的不断建立和完善,以及WTO的加入,计量检测市场对外将逐步开放,计量工作的特性、任务来源、工作方式方法等方面必将要随着市场的变化而发
<正> 观点的影响,无论好坏,并不依赖于其术语是否完全被人理解。通常这实在是由人们为适合有关不同情况而采用不同的词语重新进行解释所决定。这不应该成为一件令人吃惊或遗
本文以听力教学法中的策略指导和策略教学法为重点,通过回顾思考,对近几年来听力教学的发展趋势、互动听力、学术听力及听力教材等方面加以论述,提出如何在课堂教科书中体现