WordNet在文本聚类中的应用研究

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:flyerhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对文本聚类算法在应用方面存在的“维灾”、簇的命名以及大规模的问题,运用WordNet词典进行词列表的降维和词干化,提出并实现基于词性标注和WordNet相结合的并行文本聚类方法,最后和基于Porter词干化的文本聚类方法进行性能的比较。实验结果表明,该方法能大幅度降低词列表的维度,提高聚类的准确率和召回率,同时增强各个簇的可理解性。
其他文献
概述图书馆RSS技术应用的现状,针对高校重点学科建设问题,提出将高校重点学科资源与图书馆信息推送服务相结合的观点。从设计思路、系统功能、技术实现三个方面介绍基于RSS技
提出一种新的基于本体和文档重构的语义检索方法,该方法通过构造本体知识库,依据本体知识进行文档重构,将本体的语义描述和语义关联能力应用到现有的信息检索系统。将隐形语义索
分析现有搜索引擎重排序方法的不足,并对初始检索结果集中的每个文档相对于其他文档与查询词之间的相似度进行研究。提出一个基于内部文档比较的重排序算法,将检索结果中的文档
针对传统的三大索引收录论文查证方式被动、实时性差以及效率低的现状,提出建立三大索引收录文献邮件推送服务系统。对系统设计思路和实现进行详细的介绍,包括如何导入原始记
美国图书馆和信息资源数字图书馆联盟计划委员会(CLIR/DLF)近日很高兴地对外宣布其与Taiga论坛结盟。Taiga论坛是一个由大学图书馆助理馆长、副馆长和研究图书馆副馆长等组成的
主要介绍南京航空航天大学图书馆于2009年自行开发的中文期刊采访通用查重比对系统的设计与实现过程。通过采用Excel VBA技术,设计开发出一套针对不同刊商目录数据通用的数据
针对图书馆的培训讲座业务,设计并实现一个图书馆讲座预约系统。该系统包括读者留言的发布与管理、讲座信息的录入与管理、讲座的预约及取消预约、讲座评论的发布与管理等多
采用开源软件Lucene、IKAnalyzer、Luke进行中文学术文献计量软件的开发实践。介绍该软件的实现框架、数据准备、索引建立、自定义semicolonAnalyzer分析器中的关键实现代码,
ProQuest已经收购英国的专家信息公司,该公司出版《论文索引》,创办了Theses.com,是成千上万的英国和爱尔兰硕博士论文的引用和摘要信息的首要来源。专家信息公司信息的加入
探讨如何基于网络自动构建大规模英汉双语句子级平行语料库的问题,即确定抓取网站和制定相应的抓取底表;利用网络抓取工具Wget自动获取含有英汉双语句子对的网页;对从网页中提取