【摘 要】
:
随着互联网技术的飞速发展,网上的资源呈指数增长,人工处理这些海量信息代价非常高昂,因此如何高效地组织和管理这些资源成为近些年来的研究热点。一种自动组织和管理知识的
论文部分内容阅读
随着互联网技术的飞速发展,网上的资源呈指数增长,人工处理这些海量信息代价非常高昂,因此如何高效地组织和管理这些资源成为近些年来的研究热点。一种自动组织和管理知识的技术——文本分类,作为实现这一目标的关键技术之一,得到了研究人员的广泛关注。 传统的基于概率的文本分类,如朴素贝叶斯方法,它们通常假设类模型服从单一分布,在估计类模型时往往需要大量高质量的样本才能准确反映类特征。实际上,人们在写作过程中会受到多方面因素影响,如所要描写的主题、相关背景、写作常识、文章风格、写作习惯、词汇上下文语境等等,即一个类的分布特征是受到多因素影响的。如果只用单一的分布模型来拟合类的分布特征是不准确和不完整的。 针对于此,本文提出了一种基于主题和通用知识的类模型,利用期望最大化方法(EM)估计模型参数。实验证明:基于混合模型的分类算法的整体性能明显优于朴素贝叶斯方法,是一种比较稳定的算法,尤其是在小训练样本情况下,混合模型分类算法表现突出。另外,尽管估计混合模型时增加了分类模型的复杂度,但实验表明,由于EM算法通常在3次迭代后基本收敛,对算法的整体效率影响不大。 本文还论述了我们提出的基于混合模型的文本分类器的两种用途。(1)建立用户模型:在我们的一个个性化推荐原型系统SmartWeb中,用户模型是其中的一个重要模块,好的用户模型可以大大改善其推荐结果:(2)聚焦爬虫:文本分类器是聚焦爬虫的一个重要构件。本文提出应用基于混合模型的文本分类器以满足上述两种需求。
其他文献
媒体服务器(MediaServer)是下一代网络(NGN,NextGenerationNetwork)中的重要设备,也是分组网络中的重要设备。媒体服务器在软交换设备或应用服务器的控制下提供基本和增强业务
主机涉密信息的安全是信息网络安全的重要内容之一。本文主要研究设计并实现了基于Java的主机涉密信息监测控制系统,目的在于探讨防止主机涉密信息失、泄密的方法,以减少或杜
随着现代企业信息化进程的不断深入,对企业应用系统也提出了更高的要求,希望应用系统在提高企业内部信息共享能力的同时,能够增强对企业多变的外部需求的适应能力。面向服务
90年代以来,随着信息存储技术和通讯技术的发展,大量的信息呈爆炸式增长,信息自动分类己经成为人们获取有用信息不可或缺的工具。文本分类是中文信息处理的一个重要的研究领域。
文本摘要、分类、聚类和检索是文本处理领域中的重要技术。本文结合若干具体科研项目,在上述几个方面进行了研究和探索。在文本摘要技术方面,本文实现了一个简单的文本摘要工具
互联网知识学习较传统学习具有任务明确,学习过程中学习者知识与能力同步增长的特点,但同时面临着海量知识资源与个体学习需求难以匹配的重大挑战。推荐算法是解决该问题的有
镜头检测一直是数字视频处理领域的一个重要课题。镜头是组成视频的最基本的单元,镜头检测就意味着为视频的结构化表示提供基础,使更高层的语义视频处理成为可能。 本文首
随着现代无线通信技术和因特网的发展与进步,任何人在任何时间、地点都能够获取信息并与他人通信,已经成为人们对现代信息网络的切实要求。Ad Hoc网络由于其无需固定有线基础
伴随着手机用户的增加和手机性能的提高,手机游戏目前在国内外都取得了巨大的成功,目前正向着网络化、3D化、大型化的方向发展。BREW是美国高通公司推出的无线开发平台,是一种新
由于水下环境条件有限,在水声传感器网络(UASN)中提出有效的和可扩展的路由协议有着许多的挑战。UASN中的通信是通过声音完成的,呈现为低速、高误码率、带宽小、传输高延迟等