面向问答系统的大规模文本数据挖掘关键技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jeffreykao95
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的来临,互联网中各种结构化(如web页面)以及半结构化(如电子邮件,XML网页)文本数据规模呈现指数级增长并伴着信息存储技术的飞速发展而累积了海量的文本数据。海量文本数据虽然蕴含着巨大的使用价值却给信息查询者快速定位查询信息带来了困难。传统搜索引擎技术虽然在一定程度上可以帮助人们快速检索出相关文档信息,但是由于其自身设计模式的局限性而引发的用户二次检索的弊端导致其不能真正意义上解决上述问题。因而,作为下一代语义搜索引擎重要研究方向的问答系统(Community-based Question Answering,cQA)引起了研究学者们的广泛关注。问答系统中的文本数据是建立在信息检索与信息抽取技术之上产生的,因而基于问答系统的文本数据挖掘比原始的互联网文本数据挖掘具有更广泛的研究价值。本文结合人工智能和自然语言处理技术,重点针对大规模cQA问答语料库文本数据挖掘相关关键技术展开研究。  一般来说,单个cQA系统语料库中文本数据资源非常有限,而为了满足不同用户复杂的信息查找需求,通常需要将多个具有不同层次结构的问答语料库进行有效整合。在已有的文档目录整合算法中,大多只考虑了目标目录的层次结构或者是源目录中单个目录结构,而往往忽略了源目录中丰富的层次结构信息。因此,本文结合文本目录特殊的层次结构信息,着重讨论如何有效利用源目录树形结构中父子、兄弟等层次结构关系信息来提高文本目录整合精度,从而提出了一种具有较强泛化能力的自动化目录整合(Automatic Category Integration,ACI)算法来更多考虑源目录中隐式的层次结构信息,性能评测结果表明,ACI算法比以往的目录整合算法具有更高的目录整合精度。  在文本数据挖掘中,最重要的一个研究课题是如何决定文本数据集中不同文本的重要性。在本文中我们考虑将单个文本数据抽象成单个图数据节点,则文本数据排序问题可转化为图数据节点排序问题。不同于传统的图数据节点排序问题,单个文本数据通常带有丰富的异质属性信息,并且文本数据之间也具有多种不同的隐式关联关系,但是现有的图排序算法往往忽略了上述丰富的异质属性信息而只考虑了简单的图结构信息。另一方面,cQA系统检索出的相关文本数据集规模通常较为庞大,已有图排序算法大都受限于过高的算法时间复杂度而不能处理大规模的图数据排序问题(少数几种除外,如PageRank算法)。针对以上问题,本文提出了一种半监督图排序(Semi-Supervised Graph Ranking,SSGR)算法模型来有效利用上述丰富的异质属性信息进行更高精度的图数据排序。为了验证SSGR算法模型的有效性,本文还提出了一种基于SSGR算法模型的半监督图排序(Semi-Supervised Pagerank,SSP)算法,该算法利用参数化图模型来编码图数据中丰富的异质属性信息并引入约束变量作为损失函数来保证图排序结果与外部先验知识保持一致。实验结果显示,SSP算法较以往的图排序算法具有更加优良的排序性能。  cQA系统平台为了解决社区协作机制缺乏实时性的问题,通常会提供类似搜索引擎的检索功能来帮助人们快速获取信息。但是,cQA系统检索模式返回给用户的是与之查询相关的问答文本列表,这不可避免的带来了用户二次检索的困扰。针对该问题,本文首次提出利用自动化文摘的方式处理cQA系统检索出的文本数据集,并将该问题形式化定义为普聚类的优化问题。但是,一般普聚类问题的算法时间开销与自身规模(这里是指问答文本个数)呈指数级比例关系(通常为O(n3))。因此,为了有效降低生成文本摘要的计算时间复杂度,本文提出了一种面向查询的交互式问答文本摘要(Query-oriented Community-based Question Answering Summarization,QCQAS)算法框架,该框架能够在有效保留原问答文本集中重要文本数据的前提下,将问答文本数据集的规模从n降低到K(K?n,经实验得出K取100较为合适)。另外,在QCQAS算法框架础上本文还设计了一种新的基于异质属性的对称自动化文摘(Heterogeneous Features Symmetric Summarization,HFSS)算法。HFSS算法能够利用问答文本独特的属性特征从cQA系统的海量文本库中快速准确的抽取与用户提交查询相关的重要内容,其性能评测结果显示,HFSS算法自动生成的文本摘要质量优于其他自动化文摘算法(平均高出8%以上)。
其他文献
光突发交换是光通信交换中最具发展前景的技术,其兼顾了光电路交换和光分组交换网络的优势,充分运用波分复用WDM(Wave length Division Multiplexing)光网络中庞大的带宽资源,有
近年来,基于手势识别的人机交互以其自然、丰富和直接的交互方式受到大家的青睐。针对传统手势识别准确率不高、鲁棒性不强的问题,本文从空间序列角度出发提出了基于递归图压
无线Mesh网络(Wireless Mesh Network,简称WMN),作为一种新型的无线接入技术,由于其易部署、非视距传输、良好的健壮性、结构灵活和高带宽等优势,近年来被广泛应用于各个领域。路由
量子神经网络是基于量子计算的基本原理与传统的人工神经网络而发展起来的一种研究神经网络的新方法。由于其独特的功能在某些问题上表现出来的巨大优势,越来越多的科研人员开
统计学习方法由于可以从语料库中自动的获取语言统计知识以用于构建统计模型,且在鲁棒性、准确性上均有一定的优势,因而在自然语言处理领域中得到了广泛的应用。然而,很多自然语
随着量子计算研究的进展,后量子公钥密码逐渐成为了密码学研究的热点之一。多变量公钥密码学是后量子公钥密码学的研究分支之一。由于多变量公钥密码体制尚未有适当的可证明
随着Web2.0的应用,博客的传播速度得到了前所未有的发展,使其拥有巨大的信息资源。在数目如此庞大的博客系统中,用户想要找到自己最感兴趣的博客或博文,同时博主也想使自己的博客
伴随医疗信息化的普及,医学图像信息的重要性日渐凸显,相关影像信息为医生的疾病诊疗、学术交流、医学教学和科研等提供了极大的支持和帮助。为了达到医疗信息共享,需要对医学影
互联网的普及深刻地影响和丰富着人们的信息获取方式,数字产品作为信息的载体,以音频、视频、文本、图片、软件等形式出现并通过网络传播,满足了人们的各种需求,方便人们的生活需
可周视的全景视场三维显示技术通过光学系统再现三维物体的全景空间光场分布,从而实现对三维物体360度可周视的三维立体显示。它已经成为三维显示领域的一个重要研究方向。本