论文部分内容阅读
随着Web2.0技术的迅速发展,人们在网络上进行交互越来越便利。越来越多的用户在遇到问题时,会在各种社区网络中用自然语句提出问题寻求答案,同时也有越来越多的用户回答这些问题。当用户提出一个问题时,需要耐心等待他人的回答,但其实有不少问题可能在此之前已有其他用户以某种方式提出过,并已经有了答案。那么,如何有效利用社区中已有的问题-答案偶对数据,快速为用户新提出的问题推荐合适的答案,即所谓社区问答,成为一个非常有价值的应用,得到越来越多的关注。本文针对现有社区问答系统研究中的一些不足,基于全信息理论发展社区问答中的问题相似度计算以及候选答案排序等关键技术,并基于此构建社区问答系统。具体而言,本文的主要研究工作和成果包括:提出了一种结合相似性转移假设的问题相似度计算模型。所谓相似性转移假设是指“问题相似则答案相似”。已有的问题相似度计算模型一般将此假设作为隐含的前提,并不考察具体的相似度计算模型是否真的满足此假设。本文首次将此假设作为一个寻找好的相似度计算模型的约束,并定义了一个基于皮尔逊相关系数的平均相关度度量来衡量相似度模型满足该假设的好坏程度。实验结果表明,平均相关度较高的相似度计算模型所推荐的答案的准确率也较高,最大性能提高可达16.79%。这表明通过将“问题相似则答案相似”作为约束条件,可以有助于找到较优的问题相似度度量。-提出了一种基于全信息的问题相似度计算模型。该模型综合利用语法信息、语义信息以及语用信息等多种信息进行问题相似度计算。在此基础上,为了简化整合模型的参数训练过程,依据各类特征的重要性,进一步提出了一个简化的相似度计算模型——基于word2vec扩展的VSM模型。实验结果显示,在基于全信息的整合模型中,最优模型平均准确率(avgP@1)达到0.4586,比基础模型VSM提高了8.986%,表明在词汇特征的基础上加入词汇语义信息以及部分句法分析结果中的信息,会取得较好的效果。其中,基于词汇语义的信息助益较大。简化模型与VSM模型相比其avgP@3提高了33.60%。提出了一种基于语用信息的候选答案排序模型。在社区问答中,一方面,由于答案都是由社区用户提供的,因此答案提供者的权威性直接影响答案质量;另一方面,其他用户对答案提供者所提供的答案也会进行评价,这种评价信息对于评价答案质量显然也是有直接帮助的。这两类信息都是与用户相关的语用信息。本模型将这两类语用信息与其他已有特征相结合,进行候选答案的排序。在Yahoo!Answer数据集上的实验结果表明,在基于文本内容相似模型的基础上,引入语用信息会显著提高答案排序的性能。通过调整参数加强语用信息的影响时,会逐步提高排序的准确率,且候选答案数量N越大,提高越为显著。同时加入两类语用信息的模型的性能优于单独加入某一类语用信息的模型。当N=9时,最优模型比两个基础模型分别提高了50.00%和40.00%。设计并实现了一个基于全信息的社区问答原型系统。该系统综合应用了上述的问题相似度计算以及候选答案排序模型为用户新提问题推荐合适的答案。而在不能找到相似问题时,需要借助于外部信息寻求其答案,即需要把封闭的基于全信息的社区问答系统发展为开放式问答系统。此时需要对问题进行意图解析。本文为此提出了一种基于全信息的问题意图解析方法,将抽象的问题意图表达为具体的四个要素,即:问题类型,问题关键,问题焦点和问题领域,并对四要素获取的方法提出了建议。