论文部分内容阅读
随着万维网(World Wide Web)的迅猛发展,Web用户数量的急速增加,大规模的用户数据已经成为一类重要的数据资源,受到研究和应用领域的共同关注。用户数据可以划分为两种类型:一类是用户使用数据,即用户在使用Web相关应用时累积的使用信息,如搜索引擎的查询日志、网站浏览记录等;另一类是用户产生数据,即用户利用Web相关应用自主创造和发布的数据,如社会标注、维基百科等等。用户数据不仅是相关应用中用户活动的纪录或产出,更是人类知识的积累,被认为蕴含了丰富的“大众智慧”。因此,如何挖掘和利用这些数据中的大众智慧来改善相关的应用,更好地为Web用户提供服务,成为了近年来的一个研究热点。
本文以用户查询日志和社会标注数据这两类典型的用户数据为研究对象,以信息检索和社会标注这两类主流应用为研究背景,分析了两类用户数据的特点,并对这两类用户数据的挖掘与应用进行了理论研究,以有效地解决相关应用中面临的众多挑战。具体包括:
本文深入地研究了用户查询日志的挖掘与应用,探讨了如何有效地使用大规模查询日志来解决查询分析与处理的相关问题。首先,我们基于用户查询日志展开了查询优化的研究。该研究着眼于解决如何对用户查询中普遍存在的多种类型、相互依赖的错误形式进行优化,以应对信息检索中词不匹配的基本问题。通过把查询优化建模为结构化预测问题,我们提出了一体化区分式查询优化模型,充分利用用户查询日志中丰富的语言知识,融合多种查询优化任务,统一高效地完成优化目标,并能显著地提高相关检索的性能。其次,我们利用查询日志展开了查询中命名实体识别的研究。该研究着眼于解决如何从简短、不规范并且富含歧义的用户查询中识别命名实体,从而进一步解析查询中的语义单元以辅助检索。通过把查询中命名实体的识别建模为最优三元组的求解问题,我们利用一个新颖的概率模型,结合对大规模查询日志中实体相关知识的挖掘和学习,高效地完成查询中命名实体识别的目标,改善了相关检索的性能。
本文进一步研究了对社会标注数据的挖掘与应用,探讨了如何利用大规模社会标注数据来解决资源标注的相关问题。我们基于社会标注数据展开了Web资源自动标注的研究。该研究着眼于解决如何对大规模Web资源进行自动、高效的语义标注,以利于资源的检索、过滤和导航。通过把自动标注问题建模为一个条件概率分布的预测问题,我们提出了一个新颖的概率话题模型,挖掘资源和社会标注之间基于话题的知识与关系,从而利用社会标签有效地实现对Web资源的自动标注。
研究结果表明,通过对问题形式化的概率建模,利用机器学习的方法融合用户数据中丰富的大众智慧以及少量的人工指导,我们可以有效地解决相关应用问题中面临的挑战。同时我们也发现,对Web上大量用户数据的挖掘与应用,不仅可以帮助我们更好地解决现有问题,而且也能为我们拓展新的研究与应用。