论文部分内容阅读
随着互联网的发展,Web已成为世界上最大的信息库。Web挖掘帮助用户从海量的Web数据中高效且准确地获取有用的信息。由于其广泛的应用前景,对于Web挖掘的研究已越来越受到学术界和工业界的关注。
本文针对如何利用机器学习技术来解决Web挖掘中的若干问题进行了研究。这些问题包括如何在用户尽量少的参与下向用户推荐其感兴趣的链接,如何在网页分类中进一步提高分类精度以及如何在交互式Web搜索中利用网页中存在的多模态信息来提高搜索性能。本文主要取得了以下创新成果:
第一,通过将目录网页视为多示例学习中的包,将网页上的链接视为包中的示例,本文将目录网页链接推荐问题转化为一种特殊的多示例学习问题,并提出了CKNN—R01算法来解决该问题。实验结果表明,系统能够在只获得用户对目录页面标记的情况下有效地推荐其感兴趣的链接。
第二,本文将属性构造技术引入网页分类。通过分布属性的构造,本文可以有效地衡量词在文档中的分布情况并在网页分类中加以利用。实验表明,引入分布属性可以显著提高分类的精度,尤其是文档较长或文风较随意时,这一提高更为明显。
第三,本文将多模态技术引入交互式Web搜索。通过图像摘录的抽取,本文提出了一种新的交互式Web搜索框架。在该框架下,用户可以利用多模态信息更高效且更准确地搜索其需要的网页并精化查询。实验显示出这一框架的有效性。