论文部分内容阅读
互联网问答社区已经成为人们获取知识和信息的重要途径,它们成立多年来积累了海量的问答数据,而如何高效地利用这些数据成为了当前的研究重点。相关研究中,问句检索的主要研究目的为利用历史问答数据帮助用户找到其关心问题的答案,减少用户等待他人回答的时间,同时避免相似问题的重复提交给系统造成负担。本文主要针对问句检索中的两个方面——问句相关度计算和问答质量评估,从三个不同的切入点进行研究。它们分别是:首先,针对当前面向问句检索的主题翻译模型中存在的,计算词相关度时忽略查询具体语义对词真实相关度的影响的问题,本文提出了一种融合查询主题信息的主题翻译模型,将查询的主题信息作为确定词语具体语义的依据,实现了查询和候选问答中词的有效匹配,优化了原有的主题翻译模型。其次,针对当前问句检索中对查询词项赋权时没有考虑查询具体语义的问题,本文提出了一种基于主题模型的词项赋权模型。它使用主题模型作为语义挖掘工具,结合信息熵的原理,根据词包含的信息量来计算其在查询中的权重。该模型能很好地解决复杂查询带来的冗长性问题。最后,针对如何有效评价问题-回答对质量的问题,本文提出了一种基于用户信息的问答对质量评分模型。它先依据用户的被采纳为最佳答案的回答的数量为用户的权威性进行评分,然后基于用户发布信息的质量与其权威性成正相关的假设,将问答对提问者和回答者的权威性评估结果作为问答对的质量特征。本文还利用排序学习(Learning to Rank)将问答质量特征和问句相关度特征结合起来形成了统一的面向社区型问句检索的排序模型。此外,在真实的数据集上的实验结果表明,对于各自要解决的问题,本文中提出的各个模型都取得了较好的效果。