论文部分内容阅读
当前知识经济时代下,随着学术成果的蓬勃发展,科技文献资源数量急剧增长,这为科研用户发现和检索有价值的科研成果带来了困难和挑战,从海量信息中快速获取符合自身需求的相关文献成为科研用户迫在眉睫的需求。针对这个问题,变被动服务为主动服务的科技文献推荐技术在数字图书馆中的应用被提出来。目前,对科技文献推荐的研究主要以基于内容的推荐、基于协同过滤的推荐、基于引文的推荐、基于社会网络的推荐作为主要的研究切入点[1]。这些研究主要从两个思路解决问题,一个是在隐空间内建模用户和文献的相似度;另一个是通过提取特征,利用机器学习算法模型刻画用户和文献的相似程度从而进行推荐[2]。这两种类型的推荐,从效果上来看都不错,但也存在很多不足。比如难以解释推荐结果,为什么会推荐这篇文章而不是那篇文章,有哪些特征比较关键,特征能否按重要性进行分层分级等。为了解决科技文献推荐的可解释性以及特征分级问题,本文尝试将医学上广泛应用的循证理论引入到科技文献的推荐过程中,实验表明基于循证的科技文献推荐效果不错,不仅能解释推荐结果,而且能对推荐特征按重要性程度进行分层,使重要特征一目了然。本文的贡献主要包括以下几个方面: 1.为了解决科技文献推荐系统不具有可解释性问题,本文在保证高推荐精准率的前提下,将起源于医学,又在管理学、教育学、护理学、建筑学、信息服务、软件工程等领域得到广泛应用的循证理论纳入科技文献推荐研究中,力求探索该原理在科技文献推荐中的应用。本文利用循证理论,将特征类比为证据,多渠道广泛收集影响为科研用户推荐科技文献的证据,把来自不同的知识片段、来自多方面的信息进行整合,利用逻辑回归机器学习算法,对证据权重进行学习,并按照权重大小对证据进行分层,使文献推荐的证据等级较之传统推荐采用的研究方法更为严格,有效防止过多关注低级别证据中的固有缺陷和主观倾向。 2.为了提高科技文献推荐的精准性,本文提出了一种基于循证理论的证据发现新方法。依据循证理论给推荐证据分级后,把影响推荐效果的重要关键证据提炼出来,并根据特征意义水平扩展出大量有用的特征。比如依据循证理论学习到的关键特征有“用户的年龄”,可以依据该特征意义,水平扩展出“用户的年龄区间”、“是否是青年人”、“是否是中年人”、“是否是老年人”等特征。将这些新挖掘的特征再加入到训练推荐过程中,实验证明这种自适应有方向的特征添加方法,能在很大程度上提高推荐精准性。 3.本文探索性地将循证理论应用于科技文献推荐领域,找到二者之间的契合点,扩宽了科技文献推荐算法的研究思路,也扩展了循证理论的应用范围,并将统计学和机器学习的方法应用到其中,提出通过对特征即证据进行深入地数据挖掘,获得更具有针对性的科技文献推荐方案,促进科技文献推荐和循证理论两个领域的研究。 本文的组织思路如下:首先对循证理论研究进行了探索和总结,对当前主要的推荐方法进行了调研和比较分析,梳理了现有的科技文献推荐方法,阐明了将循证理论纳入科技文献推荐中的适用性。之后,将科技文献推荐作为研究对象,以依据循证理论做科技文献推荐的总体思路为基础,构建了基于循证理论的科技文献推荐步骤和方法。同时使用公开数据集进行实证研究,通过对实验结果的分析,以及通过其与传统推荐方法的比较研究,文章得出如下结论:在大数据的背景下,基于循证理论的科技文献推荐方法是一种新探索,它与传统推荐方法之间有一定的关联性,也有一定的独立性,二者之间的关系不是替代性的,而是补充性的。通过证据分级,能解释科技文献推荐结果,且通过水平扩展重要特征,能提高推荐结果的精准性。在一定程度上,利用循证理论来做科技文献推荐涉及了现有推荐方法未涉及的到的一些特征层面。因此,有必要尝试将循证理论的思想纳入科技文献推荐研究中,以求更全面、生动地揭示科技文献推荐的特征,并对这些特征进行重要性程度的分级,进而提高推荐结果的精准度。