以本体构造中文信息过滤中的需求模型

来源 :第二届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户：tielian77

【摘要】

：

在信息过滤系统中,用户模板是机器可理解的用户需求表示形式,是否能准确地反映出用户的真实需求将直接影响着过滤系统的性能.在向量空间模型中,用户的模板表现为一组带权重的

【作者】

：

袁兴宇[1]王挺[1]周会平[1]肖君[2]

【机构】

：

国防科技大学计算机学院,长沙,410073

【出处】

：

第二届全国信息检索与内容安全学术会议

【发表日期】

：

2005年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在信息过滤系统中,用户模板是机器可理解的用户需求表示形式,是否能准确地反映出用户的真实需求将直接影响着过滤系统的性能.在向量空间模型中,用户的模板表现为一组带权重的特征词集,但由于在这样的用户模板中缺少必要的语义信息,很难准确地反映出用户的需求.本文提出了以本体构造需求模板的方法,以本体的形式定义需求中概念间的语义关联关系,将向量空间模型中的特征向量定义为本体中的实例,通过实例间的关联路径计算特征项间的语义关联,并通过特征项闻的语义关联计算出文档与模板的语义关联度.

其他文献

一种改进的文本分类方法的研究

文本分类是自然语言处理的一个重要研究方向,它可以有效的解决信息杂乱的现象,并有助于用户发现所需的信息.特征选择和权值函数是文本分类的核心,通过对经典的TF-IDF函数和互

会议

文本分类信息因子特征选择自然语言处理算法研究方向选择方法信息特征实验验证权值函数类间分布证明用户精度经典

基于数据挖掘等技术的半分布式搜索引擎模型

本文提出了一种基于数据挖掘与智能学习技术的半分布式搜索引擎(SDSE,Semi-DistributedSearchEngine)模型,实现的系统称为PeerSearch.模型设计的主要目的:φ充分利用用户的智

会议

基于短语匹配的中文Web文档聚类算法

本文在一种采用图结构、基于短语的文档索引模型的基础上,提出了一种基于短语匹配的、在线的、无需进行中文分词的增量聚类算法来对中文搜索结果进行聚类.结合文档索引模型和

会议

短语匹配中文分词索引模型增量聚类算法自动分类文档搜索引擎搜索结果增量式图结构基础

一个基于最大熵模型的文本分类方法

本文提出了一种应用最大熵模型进行中文文本分类的方法,该方法重点在于特征函数的构建和文本的预处理这两个方面.本文把文档的预处理分为网页去标记、分词、去虚词和去停用词

会议

类别主特征结合句法特征的中文问题层次分类

问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的性能.本文提出了一种新的问题层次分类方法,该方法结合类别主特征与问题句法特征,对满足类别临界

会议

问题分类临界条件类别主特征句法特征贝叶斯分类器

中文文本聚类的特征单元比较

本文对字、词和字串等文本特征在中文文本聚类中的效果进行了比较实验.实验使用K-MEANS聚类方法,检验了字特征、字串特征、词特征以及它们的组合方式的聚类效果.

会议

中文文本聚类字串特征组合方式文本特征比较实验聚类效果聚类方法词特征和字

面向支持向量机的降维方法比较分析

支持向量机是文本分类领域在广泛采用的分类模型,应用于支持向量机的特征降维方法也成为了研究热点.本文考察了信息增益、文档频度、x2统计和潜在语义索引几种特征降维方法,

会议

支持向量机文本分类特征降维潜在语义索引

基于反馈学习自适应的中文话题追踪

话题追踪技术能够帮助人们从浩瀚的信息中获得自己感兴趣的内容.由于话题是动态发展的,在追踪过程中会产生话题漂移的问题.针对该问题以及现有自适应方法的不足本文提出了一

会议

面向中文文本的时间本体构建和自动扩充

对时间本体和本体自动扩充的研究是语义web领域的重要研究方向.本文通过对中文时间描述进行深入的分析,设计了一种新的时间本体结构,并构建了一种面向中文描述的时间本体.在

会议

Web作弊与反作弊技术综述

除提高搜索引擎自身的检索能力之外，Web作弊己成为搜索引擎面临的一个重大挑战。本文对当前常见的Web作弊进行综述，重点介绍提高排名和隐藏作弊两类方法。作弊者们利用关键词作

会议

以本体构造中文信息过滤中的需求模型

其他学术论文