论文部分内容阅读
随着科学技术的迅猛发展,科研用户数量和学术成果不断增加,学术论文、期刊等学术数据呈高速增长趋势,标志着学术大数据时代的到来。学术信息过载使得查询学者相关学术信息变得繁琐,因此需要从繁杂的学术信息中挖掘出一个结构化的精简的学者全貌,即构建学者精准画像。本文主要目的在于利用学术数据构建精准的学者画像。学者精准画像包括多维度属性,主要包括学者的个人描述信息、学者的研究兴趣和学者的学术影响力三个方面。在此基础上,本文利用学者精准画像进行了学者推荐应用的研究。在学者精准画像中,学者的个人描述信息是其中的第一个维度。本文首先从多源异构的网页中,识别出学者主页、并利用信息抽取技术抽取学者的个人描述信息。本文利用学者姓名、学者所属机构信息,获取Google搜索返回页面;然后基于规则的方法进行网页排除过滤,得到学者主页;接着,本文使用触发词、正则表达式等方式制定不同个人描述信息的抽取规则,并进行信息的抽取。最终抽取的学者个人描述信息包括学者性别、个人照片、邮箱、职位、国籍等。学者的研究兴趣是学者精准画像的第二个维度。本文利用学术论文信息,进行学者研究兴趣标签的发现研究。采用两种不同的文本表示方法,即LDA与Doc2Vec,对学者和兴趣标签分别进行表示,然后依据学者和兴趣标签之间的余弦相似度,将相似度最高的5个标签作为学者的兴趣标签,接着依据加权投票法融合以上两种方法得到的标签结果,作为学者最终的研究兴趣标签。学者的学术影响力是学者精准画像的第三个维度。本文采用机器学习方法,对学者被引次数进行预测。首先,将统计类特征、文本内容特征以及网络特征作为学术论文特征;然后,采用自动分类方法,判断学者论文总被引次数是否为“0”;本文进一步采用回归方法进行非“0”被引次数的预测。本文实验结果表明:利用机器学习的方法预测学者被引次数,可以取得较好的效果。最后,本文综合以上三个维度的信息,生成学者的精准画像;基于学者画像信息,开发了学者推荐系统。系统除了学者推荐功能外,还提供学者精准画像可视化,学者库查询、论文查询等数据服务功能。本文研究提供包含个人信息、研究兴趣、学术影响力的学者概貌,体现科学研究动态和科研人才发展状况,有利于学术界开展科研工作,也对科研人才的使用提供帮助。