论文部分内容阅读
互联网时代,信息技术的发展为人们带来学习、生活、工作的便捷。通过网络,人们获取知识的渠道和途径大大拓展,虚拟社区便是其中的一种。虚拟社区为人们的信息交流提供了平台。随着信息交流内容的不断细分,学术交流的网络化成为一种趋势,受到学者的重视。更多的学者也倾向于通过互联网络来弥补现实学术交流的不足。学术虚拟社区以其快捷性、开放性吸引了越来越多重量级学者参与,它不仅满足了信息交流细分下学者对学术交流的需求,同时也成为传统学术交流在网络上的扩展和延伸,逐渐成为专业人士、科研工作者分享信息与知识的重要平台。知识交流与共享是学术虚拟社区存在与发展的基础。随着学术虚拟社区用户交互、社区知识量的几何级数增长,学术需求者如何与学术贡献者互动,学者如何高效、准确、快速地获取想要的知识,同时寻找在学术研究中的志同道合者,如何提高学术虚拟社区的知识交流与共享度,都是现阶段对于学术虚拟社区研究需要考虑的问题。本论文基于对学术虚拟社区、用户生成内容(UGC)、Web数据挖掘、知识推荐等相关研究的学习,通过对学术虚拟社区和UGC研究,对其概念分别进行了界定,提出了学术UGC概念,从内容、用户和链接的维度分析了学术UGC不同于其他UGC的特性。将Web数据挖掘中的内容挖掘和结构挖掘用于学术UGC的挖掘中,使用基于语义加权的K-均值聚类实现学术UGC内容的挖掘,并建立了学术虚拟社区显性知识推荐模型;优化学术虚拟社区中用户距离的计算方法,推导出改进后的PageRank2.0算法进行学术UGC链接挖掘,建立了学术虚拟社区隐性知识推荐模型,为用户推荐具有相同研究兴趣的其他用户。最后,使用UChome网站建设工具搭建了以“数据挖掘”为主题的学术虚拟社区,共分析23个用户共250篇博文。通过对250篇博文做文本和链接分析,进行文本聚类和用户权威度计算。学术UGC经过文本预处理和特征表示后,对各博客的特征表示集合进行文本相似度计算并得出相似矩阵,最后对相似矩阵采用K-means算法进行聚类;对学术UGC中的入链链接进行分析,并列出入链链接矩阵,算出每位用户的权威值,将学术UGC聚类后的用户中的权威推荐给相关领域用户,这是一种隐性的知识推荐方式。这种知识和知识源(“学术权威”)的知识推荐,能够促进“学习者”进行知识交流与共享,推动整个学术社区知识存量的螺旋式上升。