基于反馈学习自适应的中文话题追踪

来源 :第二届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:zhaojian1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题追踪技术能够帮助人们从浩瀚的信息中获得自己感兴趣的内容.由于话题是动态发展的,在追踪过程中会产生话题漂移的问题.针对该问题以及现有自适应方法的不足本文提出了一种新的自适应方法--基于反馈学习的自适应方法.该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法.该算法能够解决话题漂移现象,并能够弥补现有自适应方法的不足.该算法中还考虑了话题追踪任务的时序性,将时间信息引入到了算法中.本文实验采用TDT4语料中的中文部分作为测试语料,使用TDT2004的评测方法对基于反馈学习的自适应的中文话题追踪系统进行评价,实验数据表明基于反馈学习的自适应方法能够提高话题追踪的性能.本文还考察了打分归一化对话题追踪性能的影响.
其他文献
以MPEG-7为主要技术背景的基于内容的多媒体检索,主要用来描述低层语义的问题,它的缺陷是对高级语义的支持不足,无法建立对多媒体相关行业复杂元数据的支持.本文提出了一个基
会议
由于图像的底层统计特征与高层语义特征之间存在一道鸿沟,计算机难以直接完成基于语义的文本图像检索.因此,文本图像检索的性能很大程度上依赖于底层统计特征的提取.针对该问
针对信息检索中文档与查询之间的词不匹配问题,本文提出了一种基于局部共现的查询扩展方法LOCOOC.LOCOOC利用词项与所有查询词在局部文档集合中的共现程度来评估扩展词的质量
会议
文本分类是自然语言处理的一个重要研究方向,它可以有效的解决信息杂乱的现象,并有助于用户发现所需的信息.特征选择和权值函数是文本分类的核心,通过对经典的TF-IDF函数和互
本文提出了一种基于数据挖掘与智能学习技术的半分布式搜索引擎(SDSE,Semi-DistributedSearchEngine)模型,实现的系统称为PeerSearch.模型设计的主要目的:φ充分利用用户的智
会议
本文在一种采用图结构、基于短语的文档索引模型的基础上,提出了一种基于短语匹配的、在线的、无需进行中文分词的增量聚类算法来对中文搜索结果进行聚类.结合文档索引模型和
本文提出了一种应用最大熵模型进行中文文本分类的方法,该方法重点在于特征函数的构建和文本的预处理这两个方面.本文把文档的预处理分为网页去标记、分词、去虚词和去停用词
会议
问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的性能.本文提出了一种新的问题层次分类方法,该方法结合类别主特征与问题句法特征,对满足类别临界
本文对字、词和字串等文本特征在中文文本聚类中的效果进行了比较实验.实验使用K-MEANS聚类方法,检验了字特征、字串特征、词特征以及它们的组合方式的聚类效果.
支持向量机是文本分类领域在广泛采用的分类模型,应用于支持向量机的特征降维方法也成为了研究热点.本文考察了信息增益、文档频度、x2统计和潜在语义索引几种特征降维方法,