论文部分内容阅读
近年来,随着网络的迅猛发展,如何对网络上大量的自然语言文本按照既定的语义进行正确的归类,已经成为组织大量网络信息的一个关键问题。这就是文本分类的任务。电子文本成几何级数增长,日常生活中海量信息的传播,迫切的要求我们能对这些文章进行自动分类。使用文本自动分类系统可以帮助人们自动检查文本,判断文本的类别。
文本分类在国外的研究开展时间较早,1957年美国IBM公司的H.p.Luhn在自动分类领域最先进行了开创性的研究,提出了词频统计思想用于自动分类。1960年M.E.Maron在Journal of ACM上发表了有关自动分类的第一篇文章,提出了自动关键词分类技术,正式宣告了自动分类技术的诞生。国外的文本分类经历了可行性基础研究和实验性开创研究,目前已经进入到实用性商业应用,在信息检索、电子会议、网络安全、机器翻译等方面都得到了广泛的应用。
90年代以来,随着模式识别、机器学习、统计学习、数据挖掘等理论研究的发展,文本分类被注入了新的活力。这些分类算法通常是从预先分类正确的训练文本集合中学习到类别的特征判别信息,再通过测试文本集合对得到的分类器性能进行测试。目前,这种分类方法所达到的分类性能已经不亚于人工分类。典型的代表系统有Google公司的搜索引擎和IBM的文本智能挖掘机等。
由于历史原因,我国在这一领域的研究起步较晚。90年代,随着国内外学术交流活动的增多和国内科研力量的不断壮大,目前我国在中文文本自动分类领域中已经取得了令人瞩目的研究成果,其中一些已经被成功的推广和应用,典型的代表系统有北大天网和百度搜索等。此外,如《中文信息学报》,中国中文信息学会、国际中文计算机学会及国内若干著名高校计算机系的中文信息处理实验室等都对此进行了深入的研究,它们对中文文本分类技术的发展起到了积极地推进作用。
目前中文文本分类技术虽然取得了很大的进步,得到了广泛的应用,对其的研究仍有广阔的空间。首先,文本信息处理的知识来自于机器词典、句法规则以及有关词和句子的语义、语境、语用知识库,如何将这些知识和分析策略结合起来构造功能强大的分词系统一直是研究的重点。另外对于支持向量机而言,其训练算法优化一直是该领域研究的热点和难点,如何在较小的系统复杂性下更快的发现支持向量并构造分类超平面也还有改进之处。
SVM是建立在‘VC维和结构风险最小化基础上的一种新的机器学习方法,能有效地避免传统分类方法中过学习、维数灾难、局部极小问题,在小样本条件下仍具有良好的泛化能力,因此受到了广泛的关注。但是,应用于中文文本分类的SVM仍然有一些未解决的问题。首先,众所周知,在文本分类领域,中文文本的表示是难点之一。这一过程的输出取决于分词的策略、特征选择函数和权重函数的选择等诸多因素,它们将如何影响SVM的分类结果,有待进一步研究。其次,当训练样本集合不大的时候,支持向量机算法效率要高于其他一些传统的分类算法。但是对于大规模的高维训练样本的集合,支持向量机所用的核计算时间和优化时间都是很费时的,最好能在利用训练样本的特征对训练集进行精简。以上两点成为了本文重点解决的问题。