改进TE-IDF算法的文本特征项权值计算方法

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:samdragon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(term frequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW.其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值.最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库土的实际分类实验,与其他权重算法比较,验证此种算法的有效性.
其他文献
在构建公共图书馆社会形象关键词表的基础上,以近三年中国重要报纸对公共图书馆的报道内容为样本,统计分析公共图书馆社会形象的报道热点及其变化趋势。研究结果发现,公共图
图书馆学本土化问题从图书馆学被引入我国之始就一直存在。虽然我国图书馆学研究取得了较大的进步,但本土化的过程依然非常艰难。主要原因包括:对图书馆学本土化的误解,国外
针对目前学生群体对3D网页游戏的喜爱程度,提出基于3D网页游戏的图书馆虚拟社区的设计理念、总体框架及其动画效果的实现,搭建基于3D页游的图书馆虚拟社区的功能模块,对于如何实现阅读、交流、参考咨询和信息推送等功能进行描述,并提出相应建议,以期引导学生阅读。
期刊
高温天气易对母猪产生热应激,主要表现食欲下降、免疫力下降、产仔性能下降等情况.此项研究采用2018年湛江全年气温数据,对1083窝广东小耳花猪经产母猪的分娩数据进行关联分
随着知识经济的不断发展和企业知识密集化程度的不断提高,知识资本正取代物质资本成为企业竞争力的关键因素,知识已经成为企业的竞争优势来源。为了在残酷的竞争环境中获得生
幸福是人类社会探寻的永恒主题,馆员幸福是图书馆事业发展的关键。图书馆员要成功地发展职业生涯,实现个人和组织的发展目标,就必须融入幸福规划这一新鲜元素。图书馆员幸福
随着社会的发展,科技的进步,多学科的相互交叉,人们面临的问题越来越复杂,涉及的领域越来越多,许多问题已无法由个体进行决策或者说已无法用单一的评判标准进行决策,必须依靠各方智
网络科技论文影响力的评价效果取决于评价指标变量的选择。将网络科技论文影响力评价与论文排名相关联,以Web of Science数据库中数学类论文为样本,从6个不同的排名等级组,即
数字图书馆的法律问题,实质是版权和知识产权在网络时代的运用问题,这个问题在数字图书馆的建设中已日渐突出。数字图书馆所面临的版权问题归根到底主要集中在“信息网络传播