论文部分内容阅读
掌握地学数据共享用户行为特征、数据需求、用户偏好是实现高效、精准的数据共享服务的基础。科学数据共享用户通过专业的科学数据共享网站获取研究数据已成为科研流程的一部分。Web用户行为模式挖掘为研究地学数据共享用户行为提供了可行的途径。 本论文在传统Web用户行为模式挖掘理论和方法的基础上,以国家地球系统科学数据共享平台为研究对象,开展了面向地学数据共享服务的用户行为数据建模、模式挖掘、数据推荐方法研究。在对用户行为数据预处理和数据建模的基础上,重点挖掘了用户数据访问和下载的空间热点模式、关联规则,以及会话聚类模式;在聚类模式挖掘的基础上,提出了在线数据推荐方法;针对离线推荐应用场景要求,开发了融合地学数据时空语义信息的动态混合过滤算法。研究得出如下结论: (1)本研究提出的数据预处理流程和方法能较完整提取用户的访问、搜索、下载行为。数据预处理的结果表明用户会话长度基本符合幂率分布,预处理结果整体上可信。论文设计的空间信息增强型会话模型和内容增强型会话模型是对传统的会话向量模型的改进,解决了传统用户行为模型在空间分析和地学数据语义分析方面的不足。 (2)通过对用户行为空间热点分析发现用户空间分布与研究型高校学生人数分布有显著正相关性;用户行为在数据兴趣、使用程度、行为特征上的空间差异性较大。除北京及其周边地区外,用户在空间分布、数据集访问、会话数量的空间热点分布并未体现明显一致性。北京、天津、河北北部、陕西、江苏、浙江等地区在地球系统科学领域研究较为活跃。关联规则分析发现各地用户首要关注的数据是全国性数据及本省的科研数据。用户数据访问表现出多条置信度高的关联规则,但数据下载或申请并未体现出显著的关联规则。用户会话聚类表现出明显的主题相关性,且聚类主题与搜索热词具有明显的一致性。 (3)在线场景推荐计算过程中,用户会话聚类模式挖掘和TF-IDF统计等大量的计算在离线条件下完成,可实现实时计算速度,满足在线推荐的要求。采用TF-IDF统计获得聚类主题词,可避免热门搜索词对搜索结果的干扰,具有较强实用性。实验结果表明搜索推荐的准确率达26.4%,召回率达31.7%;用户数据集访问推荐的准确率和召回率较基于高频统计的推荐分别提高了15.7%和10.2%。 (4)针对离线推荐场景,本研究提出的融合时空语义信息的动态加权混合过滤算法较单纯的协同过滤(CF)或基于内容过滤(CBF)的推荐效果有明显提高。准确率较CF和CBF分别提高5.5%、11.8%,召回率分别提高8.6%、18.5%。通过不同的最邻近k值测试实验效果发现,k=10时该推荐模型获得最佳的推荐效果。实验发现即使将数据的空间范围和时间范围考虑进相似度的计算,相比CF和混合过滤方法,CBF效果依然较差。