一种快速文本归类算法的设计与实现

来源 :北京理工大学学报 | 被引量 : 0次 | 上传用户:tanjich
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为实现无维数约减技术而使分类算法可行且不浪费空间存储的超稀疏文档向量,同时保证分类精度和速度且两者相互独立的目标,提出使用类别特征信息数据库、类别特征权重向量模型、待归类文档压缩向量表示法和改进的Roechio分类算法等技术实现文档的高速归类.在相同的Reuters测试语料集上,与CRF算法和改进的kNN算法进行对比实验.结果表明,在基本不牺牲精度的情况下,归类算法的分类速度明显高于对比算法.
其他文献
目的研究脾虚泄泻仔猪应用益气健胃散进行治疗的效果。方法选取80头脾虚泄泻仔猪按照随机抽签法分为对照组和干预组,对照组使用五味健脾颗粒治疗病猪,干预组使用益气健胃散治
航天器间相对位置和姿态的确定是实现航天器编队飞行的重要基础.为了解决航天器相对位置姿态的远距离测量精度问题,该文提出了基于超分辨率重构技术的测量方法.介绍了由单帧
采用双目立体视觉系统,对空间球体三维视觉定位方法进行了研究,提出了基于双视锥曲面的球体定位方法.为了实现对球体三维位置的动态实时检测,提出一种基于预测的椭圆曲线快速搜索算法.该算法采用随机Hough变换的取样思想和启发函数预测椭圆搜索区域,减少Hough变换的计算量.为了提高Hough表的操作效率、减少存储空间,设计了一种有效的Hough表存储结构.通过多种方法的综合应用,降低了球体三维定位的计算
针对我国装备制造业企业集中度低的缺陷,提出了区域性装备制造业企业集群方式.给出了我国装备制造业企业集群的模式,以提高集群内企业的劳动生产率和技术创新能力.通过扩大集
北京市自2008年成功举办第29届奥运会以来,城乡生态建设力度不断加大,绿化美化投入连年递增,城内绿化死角几乎绝迹,大片大片新增的城市森林公园和新城滨河森林公园如雨后春笋