【摘 要】
:
网页自动分类可有效的提高互联网信息的组织与应用,在建立网页自动分类模型时,需要大量的可信的已标注数据集。相对中文网页来说网页数量增长迅速,已标注数据集缺乏,然而数据
论文部分内容阅读
网页自动分类可有效的提高互联网信息的组织与应用,在建立网页自动分类模型时,需要大量的可信的已标注数据集。相对中文网页来说网页数量增长迅速,已标注数据集缺乏,然而数据集标注又是项费时费力的工作,相对英文网页而言,有较多的已标注的英文网页,中文和英文虽然是不同的语言表述,但中文和英文之间也存在着共同的语义,可以考虑通过英文知识来对中文进行分类。已有研究表明,可以通过已标注英文网页来建立中文网页自动分类模型。在传统的分类模型中,是训练集与待分类数据集的所有共现熵特征作为分类知识进行分类的,然而实际上并不是所有的共现熵特征都能很好地表示分类知识,因此如何更好地选择共现特征是一个关键的问题。针对已标注中文数据集的缺乏,而有已标注英文网页较丰富的情况,本文提出了基于频繁共现熵的分类器,该分类器适用于待分类数据集的批量自动分类,引用了待分类数据集的词特征信息,用频繁共现熵方法选取更能表示分类知识的词特征信息。首先,为了更好把已标注的英文网页信息应用到中文网页分类中,本文使用了Google Translate翻译工具;然后,使用频繁共现熵计算所有共现特征的共现熵值,按其值从大到小进行排序,接着选取不同比例的排序靠前的共现特征作为分类知识,通过已标注英文网页信息训练分类模型,充分应用英文知识对中文进行分类。本文工作和创新点在于:1.提出了频繁共现熵方法,并把该方法应于到跨语言网页分类中,该方法能提取更好的分类特征信息。2.建立了基于频繁共现熵的自适应贝叶斯模型,还有基于频繁共现熵的朴素贝叶斯模型和向量空间模型,并把该模型应用于跨语言网页分类中,同时比较了其余其他分类器的效果,性能与基准模型相比都有相应的提高。
其他文献
互联网的发展使信息量呈规模性增长,怎样在大量的信息中找到我们真正想要的内容成了目前研究的重点。传统的搜索引擎的方式要求用户能够比较准确的描述想要搜索的东西,然而有
运动目标检测是计算机视觉研究中非常重要的一部分,它的目的是将用户感兴趣的运动目标准确、完整地从视频序列中提取出来。运动目标检测一直以来广受计算机视觉研究领域的关
IPv6作为下一代互联网的核心,对移动性有很好的支持。但是,视频、音频等对实时传输要求较高业务及移动通信的3G和4G技术要求在移动过程中实现无缝、平滑切换,这对移动IPv6的
随着计算机技术的发展和社会的进步,社会信息量急剧增加,信息时效不断缩短,人们接受信息的能力相对有限,如何组织网络资源给用户提供透明的检索服务成为亟待解决的问题。网格
立体视觉是计算机视觉领域的一个重要分支,其中三维场景理解一直是研究热点之一。本文主要面向铁路线路视频研究三维场景理解技术,恢复出场景中物体的空间相对位置,从而可以
随着电池技术的不断发展和人民日益对环境污染以及能源危机等问题担忧,使得电池行业迅速成长起来。电池产业的高速发展,带动了电池测试系统的发展,也对电池测试系统提出了更高的要求:在保证电池参数测量的精度的情况下,还必须适应工业中的大规模化测试和管理的要求。因此电池测试系统服务器必须具有强大的数据传输和处理能力。本文首先分析了Windows平台下选择模型、异步消息模型、异步事件模型、重叠端口模型以及IOC
国内外研究人员对于非线性系统的状态估计问题一直高度重视,这个问题已经成为了一个具有重要的理论意义和使用价值的热点课题。贝叶斯滤波理论中的代表:卡尔曼滤波器只能处理
随着互联网技术和科技的日益进步,网络信息不断递增,生物信息这类专业性文本持续增大。如何从这些海量专业性文本信息获取所需的知识成为了近年来学者专家的研究热点。
由
煤矿生产过中胶带机、提升机、通风机等大型机电设备起着至关重要的作用。大型设备的故障常常发生是由于滚动轴承发生故障引起的,所以一旦其发生故障异常,将不仅仅会严重影响
随着网络带宽和用户自行发布内容的稳步增长,Web包含了日益增多的流媒体内容。提高流媒体传送质量,改善Web服务性能成为近年来国内外的研究热点。代理缓存技术是重要的流媒体