面向Web的用户数据挖掘与应用

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:liongliong487
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网(World Wide Web)的迅猛发展,Web用户数量的急速增加,大规模的用户数据已经成为一类重要的数据资源,受到研究和应用领域的共同关注。用户数据可以划分为两种类型:一类是用户使用数据,即用户在使用Web相关应用时累积的使用信息,如搜索引擎的查询日志、网站浏览记录等;另一类是用户产生数据,即用户利用Web相关应用自主创造和发布的数据,如社会标注、维基百科等等。用户数据不仅是相关应用中用户活动的纪录或产出,更是人类知识的积累,被认为蕴含了丰富的“大众智慧”。因此,如何挖掘和利用这些数据中的大众智慧来改善相关的应用,更好地为Web用户提供服务,成为了近年来的一个研究热点。   本文以用户查询日志和社会标注数据这两类典型的用户数据为研究对象,以信息检索和社会标注这两类主流应用为研究背景,分析了两类用户数据的特点,并对这两类用户数据的挖掘与应用进行了理论研究,以有效地解决相关应用中面临的众多挑战。具体包括:   本文深入地研究了用户查询日志的挖掘与应用,探讨了如何有效地使用大规模查询日志来解决查询分析与处理的相关问题。首先,我们基于用户查询日志展开了查询优化的研究。该研究着眼于解决如何对用户查询中普遍存在的多种类型、相互依赖的错误形式进行优化,以应对信息检索中词不匹配的基本问题。通过把查询优化建模为结构化预测问题,我们提出了一体化区分式查询优化模型,充分利用用户查询日志中丰富的语言知识,融合多种查询优化任务,统一高效地完成优化目标,并能显著地提高相关检索的性能。其次,我们利用查询日志展开了查询中命名实体识别的研究。该研究着眼于解决如何从简短、不规范并且富含歧义的用户查询中识别命名实体,从而进一步解析查询中的语义单元以辅助检索。通过把查询中命名实体的识别建模为最优三元组的求解问题,我们利用一个新颖的概率模型,结合对大规模查询日志中实体相关知识的挖掘和学习,高效地完成查询中命名实体识别的目标,改善了相关检索的性能。   本文进一步研究了对社会标注数据的挖掘与应用,探讨了如何利用大规模社会标注数据来解决资源标注的相关问题。我们基于社会标注数据展开了Web资源自动标注的研究。该研究着眼于解决如何对大规模Web资源进行自动、高效的语义标注,以利于资源的检索、过滤和导航。通过把自动标注问题建模为一个条件概率分布的预测问题,我们提出了一个新颖的概率话题模型,挖掘资源和社会标注之间基于话题的知识与关系,从而利用社会标签有效地实现对Web资源的自动标注。   研究结果表明,通过对问题形式化的概率建模,利用机器学习的方法融合用户数据中丰富的大众智慧以及少量的人工指导,我们可以有效地解决相关应用问题中面临的挑战。同时我们也发现,对Web上大量用户数据的挖掘与应用,不仅可以帮助我们更好地解决现有问题,而且也能为我们拓展新的研究与应用。
其他文献
实践十号卫星上搭载了众多载荷,用于进行空间科学实验。为保证载荷的可靠性,在发射之前,需要进行大量的地面匹配实验。本文设计实现了一套控制系统仿真软件,用于载荷地面实验
IPv6协议簇中路由协议的正确性保证是下一代互联网研究的重要课题。一致性测试是一种有效地检验其实现正确性的方法。由于IPv6路由协议具有行为与消息相互依赖的特点,集成数据
编译优化是现代编译器不可缺少的重要功能。编译优化技术在过去几十年里取得了显著进展,对提升程序运行速度、节省存储空间、节省能耗等起到了不可替代的作用。然而,编译优化的
无监督学习是机器学习中的一个经典任务,主要包括聚类和降维技术。近年来,谱聚类和谱嵌入方法由于其卓越的性能和完整的理论框架,受到了研究者密切的关注,并成为现代无监督学习方
手绘草图是一种自然而直接的思路外化和交流方式。用户传统使用草图的方式为先用草图记录早期想法,想法成熟时转化为正规电子文档,这样存在着冗余性和低效性的问题。随着笔计算
Java虚拟机作为Java运行环境的核心,已成为现代计算机平台不可缺少的组成部分。Java虚拟机和平台间的兼容性直接决定了上层Java程序的运行的稳定性。龙芯2E是由中科院计算机研
近年来,元数据集群文件系统中元数据服务负载不均衡现象时刻发生,严重影响系统性能和功耗,作为元数据服务均衡的基础机制,元数据服务迁移技术成为当前研究热点。蓝鲸集群文件系统
偏振遥感技术融合了物体光强度信息和偏振信息,可有效提高目标背景对比度,在海洋监测和人工目标识别方面具有很好的应用前景。本文以航拍获取到的海洋偏振遥感图像为研究对象,从
随着科学技术的不断发展,数字技术得到了飞速的发展,因而数字技术被广泛的应用于各个领域,例如数字电视、数码相机、数码摄像机等等。人工智能领域要发展,必然要进行数字化的改革
随着移动互联网的快速发展和大数据时代的到来,越来越多的网站提供了图片服务。热点人物一直都是人们关注的对象,网民也喜欢从网络中搜索热点人物的图片进行欣赏。但是在网络上