【摘 要】
:
该文对中文网页自动分类技术这一具有重要理论意义和广阔应用前景的课题进行了研究和探索,主要的研究成果有:(1)影响分类器性能的关键因素的定量分析:针对影响分类器性能的两
论文部分内容阅读
该文对中文网页自动分类技术这一具有重要理论意义和广阔应用前景的课题进行了研究和探索,主要的研究成果有:(1)影响分类器性能的关键因素的定量分析:针对影响分类器性能的两个基本指标(分类质量和分类效率)及其相互关系,该文从系统的角度出发,综合地考虑了影响分类器性能的各种关键因素,并且通过定量地分析这些因素,提出了一种新的中文网页分类器的设计方案.(2)中文网页内"噪音"的自动清除:同普通文档相比,网页的设计比较随意,通常都包含大量"噪音",这些"噪音"影响了网页分类的质量.为此,该文提出了一种自动从中文网页中自动清除"噪音"的方法.该方法通过利用中文网页的结构信息和内容信息,并结合中文网页自动分类技术,实现了自动从中文网页中自动清除"噪音".(3)从搜索引擎日志中学习新词:针对直接从专业语料库中学习新词所面临的困难,该文提出了一种从搜索引擎日志中学习新词的方法.同传统的方法相比,该方法具有学习效率和准确率高、不受领域的局限、实现简单、易于推广等优点.(4)应用中文网页的自动分类技术,在"自动式"搜索引擎"天网"系统中同时提供目录导航服务:为了提高搜索引擎的查准率,帮助用户快速地定位其感兴趣的网页,该文应用中文网页自动分类技术,在"自动式"搜索引擎系统中实现了目录导航服务.这种同时具有目录导航功能的"自动式"搜索引擎系统,不仅能够维护大规模的网页,而且具有较高的查准率.
其他文献
隐蔽通道包括所有可以绕过系统强制访问控制机制的通信机制,隐蔽通道分析是高安全级信息系统设计开发过程中必不可少的组成部分。本文研究了隐蔽通道的标识、带宽计算模型和隐
海洋环流模式被广泛应用于海洋环境和气候预测研究。随着研究不断深入,海洋环流模式向着高分辨率的方向发展。分辨率的提高会导致模式的计算量和模式对计算资源的需求呈几何级
门户提供了对信息资源的单一访问入口。随着信息化建设的深入,门户已经成为企业新型办公环境的重要组成部分,并在消除信息孤岛等方面发挥了关键的作用。
集成企业内部和外
编译器是软件开发的基础支撑性工具,它的正确性直接影响到应用软件的可靠性,保证其质量的有效手段之一是软件测试。优化是编译过程中的重要阶段,它主要通过对程序进行等价性变换
人体目标是视频监视场景中最为重要的—类目标,其数量指标在许多实际应用中都具有十分重要的作用。因此,基于视频监视的人数统计技术研究能产生直接的经济效益和社会效益,尤其是
1895年伦琴发现X射线,并将其应用于医学成像领域,揭开了医学检测手段的新篇章。自此以后,医学成像技术的发展经历了两个阶段:结构成像、功能成像。大量现代医学成像设备(如:计算机
随着计算机软硬件技术、网络通讯技术和现代制造技术的飞速发展,数控系统正在朝着开放式、网络化和智能化方向发展,这对开放式控制器系统提出了越来越高的要求。与此同时,嵌
本文就如何建设企业配送中心信息系统进行了讨论,提出了一种适合一般企业配送中心信息系统的构建思路。并在此基础上设计实现了一个基于J2EE的从事货物运输、仓储、配送等业务
医学图像分割技术能够自动或半自动描绘出医学图像中的解剖结构和其它感兴趣的区域,从而有助于诊断,所以它在生物医学图像的应用中起着非常重要的作用。虽然己研究出不少边缘提
如何高效、低成本地开发高质量软件一直是计算机软件领域重点研究的问题。软件复用被认为是解决该问题的既实用又有效的方法。构件技术作为支持软件复用的核心技术也因此备受