基于主题翻译模型的社区问答中问句检索技术研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:dongyu661
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网问答社区已经成为人们获取知识和信息的重要途径,它们成立多年来积累了海量的问答数据,而如何高效地利用这些数据成为了当前的研究重点。相关研究中,问句检索的主要研究目的为利用历史问答数据帮助用户找到其关心问题的答案,减少用户等待他人回答的时间,同时避免相似问题的重复提交给系统造成负担。本文主要针对问句检索中的两个方面——问句相关度计算和问答质量评估,从三个不同的切入点进行研究。它们分别是:首先,针对当前面向问句检索的主题翻译模型中存在的,计算词相关度时忽略查询具体语义对词真实相关度的影响的问题,本文提出了一种融合查询主题信息的主题翻译模型,将查询的主题信息作为确定词语具体语义的依据,实现了查询和候选问答中词的有效匹配,优化了原有的主题翻译模型。其次,针对当前问句检索中对查询词项赋权时没有考虑查询具体语义的问题,本文提出了一种基于主题模型的词项赋权模型。它使用主题模型作为语义挖掘工具,结合信息熵的原理,根据词包含的信息量来计算其在查询中的权重。该模型能很好地解决复杂查询带来的冗长性问题。最后,针对如何有效评价问题-回答对质量的问题,本文提出了一种基于用户信息的问答对质量评分模型。它先依据用户的被采纳为最佳答案的回答的数量为用户的权威性进行评分,然后基于用户发布信息的质量与其权威性成正相关的假设,将问答对提问者和回答者的权威性评估结果作为问答对的质量特征。本文还利用排序学习(Learning to Rank)将问答质量特征和问句相关度特征结合起来形成了统一的面向社区型问句检索的排序模型。此外,在真实的数据集上的实验结果表明,对于各自要解决的问题,本文中提出的各个模型都取得了较好的效果。
其他文献
近些年,对非线性系统控制的研究已取得了一定的进展,但仍存在很多问题需要深入研究。首先,大多数现有的非线性系统自适应控制研究工作是基于状态无约束条件下进行的。而实际
以傅里叶变换极限脉冲作参考脉冲,利用单次测量分析法对复杂的皮秒脉冲进行测量,用窗口傅里叶变换代替傅里叶变换对干涉条纹进行时间-频率分析,直接提取出复杂脉冲的啁啾特性
在自然界中,无论从低等的细菌还是到高等动物甚至人类,都存在近似24小时的昼夜节律,称为生物钟。生物钟对如体温变化、睡眠周期、肝脏代谢及激素分泌等多种基本的生理过程都具有
随着经济规模以及全球人口不断地增长,人们渐渐地认识到能源使用给环境带来的严峻挑战,不仅是烟雾、酸雨等的危害,大气中二氧化碳浓度的升高导致全球变暖,严重影响了人们的生