机器学习技术在Web挖掘中的应用研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:liongliong457
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,Web已成为世界上最大的信息库。Web挖掘帮助用户从海量的Web数据中高效且准确地获取有用的信息。由于其广泛的应用前景,对于Web挖掘的研究已越来越受到学术界和工业界的关注。 本文针对如何利用机器学习技术来解决Web挖掘中的若干问题进行了研究。这些问题包括如何在用户尽量少的参与下向用户推荐其感兴趣的链接,如何在网页分类中进一步提高分类精度以及如何在交互式Web搜索中利用网页中存在的多模态信息来提高搜索性能。本文主要取得了以下创新成果: 第一,通过将目录网页视为多示例学习中的包,将网页上的链接视为包中的示例,本文将目录网页链接推荐问题转化为一种特殊的多示例学习问题,并提出了CKNN—R01算法来解决该问题。实验结果表明,系统能够在只获得用户对目录页面标记的情况下有效地推荐其感兴趣的链接。 第二,本文将属性构造技术引入网页分类。通过分布属性的构造,本文可以有效地衡量词在文档中的分布情况并在网页分类中加以利用。实验表明,引入分布属性可以显著提高分类的精度,尤其是文档较长或文风较随意时,这一提高更为明显。 第三,本文将多模态技术引入交互式Web搜索。通过图像摘录的抽取,本文提出了一种新的交互式Web搜索框架。在该框架下,用户可以利用多模态信息更高效且更准确地搜索其需要的网页并精化查询。实验显示出这一框架的有效性。
其他文献
本文首先介绍了Web Services的概念,对比分析和研究了WebServices技术在J2EE与.NET平台下的不同发展及应用,并详细介绍了.NET平台下Web Services的一些关键技术以及重要特点。深
从80年代开始税收电子化到1994年开始实施的金税工程,我国税收信息化逐步从如何管理数据发展到如何利用数据的层次。随着税收信息化的推进,各税务部门已建立了一系列税收征管系
数据仓库是一种有效的数据存储工具,OLAP是面向数据仓库的数据分析和知识提取的有效工具。本文以国家重大科学工程为背景,对LAMOST的天体光谱数据仓库系统进行了研究,对提高
目前上许多应用程序需要创建和管理网络会话。由于终端的移动性,多个命名,或者同时进行多个多媒体会话,所有这些使得应用程序变得很复杂。SIP(Session Initiation Protocol)协议
随着计算机技术与通信技术的迅速发展,计算机网络得到了广泛的应用,越来越多的政府机关、军事部门和商业机构通过计算机网络存储和处理有价值的、敏感的数据。以计算机网络为核
随着.NET平台的不断完善和多层体系结构的不断发展,基于.NET分布式多层体系结构在企业的开发中应用越来越广泛。三层C/S体系结构,克服传统二层C/S体系结构的缺陷,将表示层和业务逻
作为学术界和工业界关注的热点之一,数字水印被认为是一项在数字版权保护方面非常具有潜力的技术。人们对水印技术在标识所有权、跟踪使用、保证合法授权访问、阻止非法复制和
软件构件库是软件复用中管理可复用构件的基础设施,它为基于构件的软件开发中的构件生产和构件复用两方面工作之间建立了桥梁。构件库中的构件是来自软件生命周期各个阶段的可
本文着眼于椭圆型偏微分方程的数值求解,重点研究了其在一类非规则结构化网格上的有限差分和有限元离散方法以及相应的快速解法。   经典有限元和有限差分方法在处理二维问
学位
近年来,开发单用户应用系统的协同功能,使之成为支持多用户协作的协同系统,是计算机应用领域的一项迫切工作。在交互式系统中,因为是用户操作驱动的方式,加之协同问题本身的特点,协