论文部分内容阅读
随着移动互联网的快速发展,大规模的数据以文本形式快速累积。如何能高效而准确地对文本信息进行分类引起了人们的高度重视。对文本分类的研究,无论是长文本还是短文本,都极为迫切。关键词提取是文本分类的重要基础工作之一。每个文本中低频词的数量往往占据着很大的比例,并且这些低频词大多为罕见词和畸形词或者是与文本主题不相关的词语。在对文本进行关键词提取的过程中,这些低频词的存在大大降低了提取效率。目前,对于如何处理文本中的低频词还没有一个有效的可操作标准。论文从研究适合中文文本的同频词统计规律出发,将所得的统计规律应用于文本关键词提取,有效提高了关键词提取效率,解决了学术界关心的如何处理中文低频词的问题,给关键词提取中处理低频词提供了一个有效的可操作方法。在短文本分类方面,由于短文本内容的特征过于稀疏、词语歧义性强、新型词汇层出不穷等特点使得对短文本的分类效果远远差于长文本。如何提高短文本分类的准确度已经成为国内外学术界研究的重点和难点之一。论文研究了利用维基百科数据库资源对短文本特征进行扩展、消歧等内容,有效提高了短文本分类结果的查准率、查全率和F1评估值。论文的主要工作为:1)对大量中文文本同频词进行了统计,揭示了中文文本中频次为1的同频词数与不同词数的比值变化规律以及频次为n的同频词数与频次为1的同频词数比值的变化规律。依据齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词的界分公式,并通过实验验证了该公式能够更好地界分高频词和低频词。2)提出了基于中文文本同频词统计规律的关键词提取方法。给中文文本关键词提取的过程中如何处理低频词提供了一种理论依据,实验验证该方法能够有效提高关键词提取效率。在实际应用中,在文本长度不小于3010词的前提下,频次为1和频次为2的词不必参与TF-IDF值的计算,可将计算效率提高2-7倍,且没有造成关键词丢失。3)提出了基于维基百科分类索引及维基词条链接信息构建贝叶斯信念网络的方法。在对短文本进行分类时,利用贝叶斯网络概念节点的链接信息作为词语之间是否具有相关性的依据。在此基础上,提出了基于贝叶斯网络的短文本特征扩展方法,较为有效地解决了短文本的特征稀疏问题,从而提高了短文本分类准确度。