基于文本分类的问答系统的研究与实现

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:liangsfr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类技术是自然语言处理关键技术之一,简单的说文本分类技术是根据文本的不同特征,将具有相同特征的文本划分到同一个类别当中。自动文本分类是在人工基础上演变过来的,传统的人工分类的技术远远不能满足海量的文本数据的处理工作。自动文本分类的技术由于其精准和高效性,又节约大量的人力和物力,已经被广泛的运用到垃圾短信过滤,新闻分类,数字图书馆分类,对话问答系统等等领域。  自动问答系统是一种新的搜索引擎,它融合了文本分类和信息检索等相关技术。自动问答系统允许用户以自然语言的方式输入问题,然后经过系统对问题的理解,回答给用户准确而又简练的答案。问答系统主要由三个部分组成,问题理解、信息检索、答案获取等。而其中问题理解是最核心的部分,问题理解包括文本分类、信息抽取等关键技术。围绕上述内容,本文主要完成了以下两个方面的工作。  第一,针对最近邻(KNN)文本分类时间效率低的缺点,提出了一种结合文本信息量和kmeans的KNN文本裁剪算法。考虑到训练文本中存在类别相关性弱的文本,先计算各类别每条文本包含的信息量并排序;对向量空间模型利用kmeans聚类删除噪声文本;再结合文本的重要性在各类别中筛选出等量的代表文本构建新的训练样本空间;最后在新的样本空间上利用KNN算法进行分类。实验证明该算法在分类效率上得到了明显的提高。  第二,结合文本分类的相关技术构建了一个问答系统,其中分类算法使用到最近邻分类、卷积神经网络分类、循环神经网络分类。系统的核心模块有文本过滤模块、领域分类模块、信息抽取模块、对话控制模块。通过这些模块系统能够准确的理解用户输入的的文本,通过多次分类和信息抽取识别其意图。系统的功能模块有时间领域、天气领域、音乐领域、故事领域等、笑话领域,并预将其应用于儿童玩具。
其他文献
学位
数字家庭是以住宅为平台,利用计算机及网络通信技术,使家用电器间可以相互通信和交换数据从而协同配合形成的新型家居环境。随着需求结构的改善和信息化进程的不断发展,消费者的
随着云计算产业的快速发展,云服务器集群中的计算资源的管理已成为人们关注的重点。相比于传统的服务器集群,云计算通过虚拟化等技术改进服务器的软硬件资源的管理和分配的方式
云计算作为一种新兴的计算模式,能在线为用户提供所需的各类服务资源。云中的用户可按需向云服务提供商(CSP:Cloud Service Provider)租用资源,不需自己购置和维护昂贵的软硬
随着分布式对象技术和XML技术的发展,出现了Web服务技术。Web服务吸收了分布式计算、Grid计算和XML等各种技术的优点,具有高度的互操作性、跨平台和松耦合的特点,从而成为WWW
月球表面探测中,基于巡视器的月面探测技术可以代替人类在月面进行近距离观测和执行科学探测任务,是目前公认的月面及深空星球探测技术中最为有效的技术途径。获得直观、准确
近年来随着全球信息化快速发展,云计算技术作为未来IT技术的基石,已经在互联网领域扮演着重要的角色。云计算已经渗透到普通用户、企业、政府的各个方面。然而云计算面临着一个
目随着目前计算机网络的快速发展,网络在人们日常生活中已经变得越来越普遍和重要,同时网络管理工作也越来越复杂。伴随网络规模的不断提高,复杂性不断增加,网络的性能和服务
随着现代无线通讯、移动网络、普适计算、分布式信息处理等技术的迅速发展,位置感知计算和基于位置的服务(Location Based Services,LBS)在实际应用中越来越重要。全球定位系统
在计算机以及互联网技术的迅猛发展推动下,软件产业也迎来了空前的繁荣,但同时也带来了新的问题:软件盗版以及非法复制变得越来越猖獗。软件水印是一门新兴的研究软件版权保