论文部分内容阅读
在过去的几十年间,人们见证了互联网的飞速发展,见证了一个全新的信息时代的到来。然而,互联网上的信息数量之多,增长和更新速度之快,也是前所未有的。在进入信息时代的同时,我们也迎来了信息爆炸的时代。互联网提供的信息超过了个人所能接受、处理或有效利用的范围,大量无关的冗余信息严重干扰了人们对相关有用信息的准确分析和正确选择。
针对这种情况,广大学者开始研究如何将成百上千万的网站有效地组织起来,并从这些网站所蕴含的海量信息中抽取出有用的信息为人类服务。因此,信息检索技术被提出并逐渐被计算机界所重视。现如今,最重要的信息检索系统便是搜索引擎。但是,现在的搜索引擎缺陷也很明显,几乎快成了新的信息过载:一是搜索结果数量庞大;二是搜索结果的线性排列。在现有技术中,问答技术和个性化推荐被认为是能够提高检索返回结果质量的可能途径。问答系统可以被分为自动问答系统和互动问答系统。自动问答系统主要利用基于语义匹配的方法获取答案。互动问答系统则采用网络协作的方式,将所有用户组成高效的社会协作网,互相解决对方提出的问题。互动问答系统的优势在于:
首先,用户抛弃了孤立的关键字,利用自然语言的形式提问,能够准确得描述他所需求的信息。其次,允许其他用户回答问题,解决了一些需要推理或是归纳总结的问题。个性化服务,即推荐系统是一种有针对性的服务方式,根据用户的设定,依据各种渠道对资源进行收集、整理和分类,向用户提供和推荐相关信息,以满足用户的需求。从整体上说,个性化服务打破了传统的以被动服务模式,能够充分利用各种资源优势,主动开展以满足用户个性化需求为目的的全方位服务。所以怎样将互动问答系统和个性化的推荐服务合理地整合在一起,是一项值得研究和解决的问题。本文对推荐技术在互动问答系统中的应用做了深入和细致的研究。在如何根据互动 问答领域的自身特点,更加合理和有效地向用户推荐相关问题方面进行了探索,以便使用户准确地得到感兴趣的问题,提高用户回答问题的积极性和准确率。本文的研究内容如下:首先,改进了基于奇异值分解的协同过滤算法,将时间权重有机地结合到奇异值分解的过程中,提出了一种结合奇异值分解和时间权重的协同过滤算法。该算法以用户对问题的评分矩阵作为输入,通过梯度下降法对其进行奇异值分解,并直接将结果用于预测评分。该算法从整体上考察所有已知评分,而非局部地考虑用户的最近邻居,有效地克服了评分数据的稀疏性问题,显著地提高了推荐质量。其次,合作提出了基于负载平衡的问题推荐方法。该方法用于对新问题的推荐。将用户权威性和兴趣度相结合进行用户个性化分析,引入负载平衡机制,按照重要问题优先推荐的原则将问题尽量平摊至不同用户处,从而有效提高了用户的参与度以及问题的回答率和正确率。在上述工作基础上,本文初步实现了问题推荐系统的原型。实验结果表明所提出的两种方法有效提高了问答系统的效率。