文本分类和聚类中若干问题的研究

来源 :北京邮电大学 | 被引量 : 22次 | 上传用户:mn012love
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类和聚类是文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息。文本分类和聚类作为获取和组织大量文本数据的关键技术,可以在很大程度上解决信息杂乱和信息爆炸的问题。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类和聚类有着广阔的应用前景。随着信息化时代的到来,文本分类和聚类的重要性日趋显著,其研究工作已经不仅仅是科学家的兴趣所在,世界上许多国家和地区的政府及工业界都十分关注并积极投身于文本分类和聚类领域的研究。本文针对文本分类和聚类中亟需解决的海量应用、分类精度以及理解深度等问题,开展了以下创新性研究:第一,探讨了基于统计模型的文本分类。主要研究了传统的统计模型方法在文本分类领域中的应用。首先,研究了基于贝叶斯方法的文本分类技术。在此基础上,利用加权的方法提出了一种改进的贝叶斯算法。其次,研究了如何利用无标签样本进行学习的问题。通过采用转导推理,整合了无标签样本和有标签样本的学习。最后,探讨了字符级统计方法在文本分类中的应用。此外,通过把垃圾邮件过滤和短信分类任务的解决贯穿始终,将这一部分的研究内容在其上逐一实现。实验结果表明,本文的方法不仅易于工程实现,能够联合无标签样本学习,而且可以较好地在分类速度和精度之间进行折衷,以达到快速准确处理海量文本信息的能力。第二,探讨了基于分类器集成的文本分类。主要研究了基于简单多数投票策略的分类器集成问题。首先,给出了一个分类器错误的分解式(E+V分解),在理论证明的基础上,提出了一个能够指示分类器集成性能的指标|V|。借由线性规划方法,分析了基于简单多数投票策略的分类器集成性能的理论上下界。最后,探讨了可能达到集成性能理论上界的两种途径:1)选择性分类器集成;2)基于|V|指标优化的分类器集成。此外,我们将这部分所研究的方法应用于垃圾邮件过滤任务。实验结果表明,本文的方法能够很好地提高集成后文本分类器的精度,具有良好的应用前景。第三,探讨了基于非线性方法的文本聚类。我们期望能够将传统的文本聚类处理提升到“理解”的层次。将文本聚类处理领域的研究,从长期专注于“语法”层次的研究,演进到“语义”的层次。首先,通过使用流形学习工具,研究了中文词汇在语义空间(分类空间)的分布情况,这部分研究将为进一步基于语义的特征选择工作打下良好的基础。在此基础上,利用WordNet词典进行了短信聚类的研究。实验结果表明,本文的方法能够更好地反映文本之间的内在联系。
其他文献
以水为溶剂,茶多酚(TP)还原AgNO3制备了银纳米颗粒。利用傅里叶转换红外光谱(FTIR)、紫外可见光谱(UV-Vis)、透射电镜(TEM)研究了TP的还原性以及纳米Ag颗粒的形貌。为了制备粒径更小、
doi:10.3969/j.issn.1007-614x.2012.01.318  洗胃是急诊科的常用抢救技术,通过洗胃可有效清除毒物或刺激物,减少毒物的吸收,用于急性食物或药物中毒。  在临床服毒患者抢救工作中做了一些尝试,方法是选用24~28号洗胃专用粗胃管从鼻腔的下鼻道径路插管洗胃,对于鼻甲肥大或鼻腔畸形不能顺利进管的改为经口插管洗胃。经过2年近百例患者的观察,发现经鼻插管洗胃与经口插管洗胃
本研究以专性肉食性鱼类南方鲇为实验对象,进行了四个系列的实验。实验一在水温27.5℃的条件下,以含0%、15%和30%糊化玉米淀粉的等能等蛋白饲料分别作为对照、中水平和高水平碳水
目的:探索已酮可可(pentoxifyline,PTX)吸入治疗对支气管哮喘患者血凝状态和血液流变学的影响.方法:41例支气管哮喘患者,随机单盲分成两组:治疗组21例,PTX100mg加入生理盐水5ml经
体育教学是我国教育中的重要组成部分,对学生进行体育教学训练,不仅能提高学生的身体素质,还有助于提高学生的体育素养,有助于促进学生的全面发展。高校体育教育作为终身体育
通过讨论不同型式的抗滑桩治理某多滑带滑坡的应用,采用基于强度折减的有限差分软件FLAC3D,对不同型式具有相同截面面积的抗滑桩支档下的多滑带滑坡安全系数及抗滑桩受力进行
目的:研究浓缩生长因子(CGF)联合引导骨再生术对重度牙周炎患者细胞增殖、骨吸收的影响。方法:选择在本院口腔科就诊的重度牙周炎患者作为研究对象并随机分为两组,手术+CGF组