论文部分内容阅读
自动文本分类技术是自然语言处理关键技术之一,简单的说文本分类技术是根据文本的不同特征,将具有相同特征的文本划分到同一个类别当中。自动文本分类是在人工基础上演变过来的,传统的人工分类的技术远远不能满足海量的文本数据的处理工作。自动文本分类的技术由于其精准和高效性,又节约大量的人力和物力,已经被广泛的运用到垃圾短信过滤,新闻分类,数字图书馆分类,对话问答系统等等领域。 自动问答系统是一种新的搜索引擎,它融合了文本分类和信息检索等相关技术。自动问答系统允许用户以自然语言的方式输入问题,然后经过系统对问题的理解,回答给用户准确而又简练的答案。问答系统主要由三个部分组成,问题理解、信息检索、答案获取等。而其中问题理解是最核心的部分,问题理解包括文本分类、信息抽取等关键技术。围绕上述内容,本文主要完成了以下两个方面的工作。 第一,针对最近邻(KNN)文本分类时间效率低的缺点,提出了一种结合文本信息量和kmeans的KNN文本裁剪算法。考虑到训练文本中存在类别相关性弱的文本,先计算各类别每条文本包含的信息量并排序;对向量空间模型利用kmeans聚类删除噪声文本;再结合文本的重要性在各类别中筛选出等量的代表文本构建新的训练样本空间;最后在新的样本空间上利用KNN算法进行分类。实验证明该算法在分类效率上得到了明显的提高。 第二,结合文本分类的相关技术构建了一个问答系统,其中分类算法使用到最近邻分类、卷积神经网络分类、循环神经网络分类。系统的核心模块有文本过滤模块、领域分类模块、信息抽取模块、对话控制模块。通过这些模块系统能够准确的理解用户输入的的文本,通过多次分类和信息抽取识别其意图。系统的功能模块有时间领域、天气领域、音乐领域、故事领域等、笑话领域,并预将其应用于儿童玩具。