【摘 要】
:
自动文本分类是一种重要的文本挖掘工作.特别是对中文文本的自动分类,目前还没有达到一个统一的标准.该文在已有的研究基础上,对中文文本的自动分类方法进行了进一步的探讨,
论文部分内容阅读
自动文本分类是一种重要的文本挖掘工作.特别是对中文文本的自动分类,目前还没有达到一个统一的标准.该文在已有的研究基础上,对中文文本的自动分类方法进行了进一步的探讨,提出了一个具体的中文文本自动分类系统构架.通过对中文信息处理和文本数据库挖掘技术的研究,实现了中文内码的转换和中文文本的切词.采用向量空间模型和TFIDF公式,实现了了文本信息的结构化表示.利用数据挖掘的聚类分析的方法,对训练语料库进行分析并得到类模板,最终使用分类分析的方法,得到中文文本的分类结果.该文对中文文本自动分类的各环节进行了较为深入的研究,特别在中文信息处理方面提出了自己新的想法,在科研、信息检索、企业管理决策等方面均有较好的使用价值.
其他文献
嵌入式计算和无线通信技术的发展使得机器人应用越来越受到广泛的重视,移动机器人的边界探测作为一类重要的应用,能够为科研、军事和商业等多个应用领域提供重要的边界信息,
多媒体应用是数字图书馆研究的重要内容之一.该文阐述了钱学森生平事迹多媒体演播系统(Q-MMPS)的设计与实现.Q-MMPS的框架结构可抽象地表示为三层:媒体素材管理层、多媒体对
该文从文语转换系统前端的部分技术--字音转换、韵律短语边界识别、朗读重音判别入手,解决了文语转换中常出现的读音错误,节奏、停顿、轻重方面的处理不当,从而改善汉语语音
该论文全面分析了gdb的内部结构,对gdb的三个子系统(即用户接口、符号处理、目标系统处理)逐一做了剖析,并对实现各种调试命令的内部算法做了论述.论文在分析每个子系统时,首先
该文在研究现有嵌入式操作系统优缺点的基础之上,结合国内外操作系统的发展方向,真正实现了一个嵌入式操作系统的微内核.微内核操作系统具有可剪裁、可配置和灵活的特点,已经
为了有效的支持企业间的协同工作,本文在研究了最新计算机科学技术和理论之后,将计算机支持的协同工作,XML技术结合到工作流管理中,构建了基于XML的,基于web的多方协作的工作流管
受到流式媒体处理技术的启发,该文试图从一个新的角度提出基于网络的海量三维地形数据的流式处理方案,使之能够达到实时交互的性能.首先,该文提出了基于视点的动态多分辨率简
该文分析了企业在实施ERP系统过程中与电子商务紧密集成的途径.根据业务重组及开展电子商务的需要,使企业内部ERP系统能够提供与业务流程的灵活变化相适应的动态可扩展功能,
该文以呼和浩特炼油厂电动机保护系统的监控系统为研究对象,根据用户需求,对系统的硬件、软件以及网络结构进行了分析和设计.该课题是在美国Wondware公司1996产品Intoch的中
针对解决大词汇量手语识别的问题,该文从两方面进行了研究.首先,减少搜索空间,用分层搜索的办法.先使用一些简单的分类器将大的词汇量分成一些小的集合,再在这些小的集合里进