基于可变精度粗糙集的文本及图像分类系统

来源 :武汉大学 | 被引量 : 0次 | 上传用户:whlwzn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
教育资源库是一个庞大的系统,包括大量的媒体素材库、课件库、题库、案例库、附件库等等,其多媒体教育资源种类繁多、形式各异.要有效的进行检索,除了要定义良好的资源库的逻辑结构以及与数据库的接口外,还需要智能化的搜索技术和知识挖掘技术.搜索引擎是联系资源库和用户的桥梁,无论是建设者还是使用者都将通过检索和浏览获取所需信息.因此,不仅要提供精确匹配检索,还需要研究多模式查询与基于特殊知识领域内容的检索.多模式查询与基于特殊知识领域内容的检索属于智能化检索技术和知识挖掘技术,其特点是根据信息化学习者的个性化要求,尽量准确地从资源库中搜索出所需的知识,以多媒体网页形式展现给用户,并能发掘一些新的知识.该文采用粗糙集理论来处理模糊和不精确的问题,实现智能搜索引擎上的知识发现与挖掘,使得搜索内容比较准确、信息流量较少、响应速度较快,并且能够发现与用户感兴趣的相关新知识.针对文本、图像混合教育资源的分类问题,该文以可变精度的粗糙集理论为基础,构造了一个统一的文本与图像分类系统.该系统由两大部分构成.其一,训练学习部分.将训练集先经过预处理,再进行特征提取和特征量化,将得到的特征保存在文件中.选择部分或全部特征构成决策表,对决策表进行最小规则提取,并保存形成的规则集;其二,识别部分.将待识别的文本或图像进行预处理、特征提取以及特征量化.如果是文本,选择相应的文本规则集;如果是图像,选择图的部分或整体作为识别对象,打开相应的图像规则集.最后,根据所确定的规则可信度阈值进行分类识别.在特征值提取方面,针对教育资源的特殊性,对文本采用了广义n-gram信息的特征单元获取方法;对图像首先按色彩分为彩色图像和灰度图像,彩色图像采用基于HSV空间模型的直方图量化方法;灰度图像,利用不变矩和傅立叶变换提取图像的形状特征.在规则提取方面,以可变精度粗糙集理论为基础,利用决策矩阵法提取规则,既能避免计算决策表的约简,减少计算时间,又因为是矩阵计算,便于计算机实现.实验表明,用该系统进行教育资源的分类,既能有效简化分类规则,又能处理噪音数据,使形成的规则集便于用户理解,从而有利于提高检索的查准率.
其他文献
随着分布式计算技术的发展,各具优势的分布式组件技术(如CORBA、COM+、EJB)应运而生.它们的出现促进了基于构件技术的企业级软件开发,为企业构建分布式应用系统提供了技术支
工作流的概念起源于生产组织和办公自动化领域。他是针对日常工作中具有固定程序的活动而提出的一个概念。目的是通过将一个具体的工作分解成多个任务、角色,通过一定的规则和
在信息时代中,对信息处理和利用能力的强弱成为了决定企业兴衰成败的关键.随着Web技术的迅速发展,有越来越多的企业开始利用数据分析技术进行企业重整.这就决定了信息时代将
该文工作的主要背景是中国科学院"十五"信息化建设重大项目——"科学数据库及其应用系统".科学数据库经过近20年的发展,已经建成了上百个不同数据类型、不同学科的专业子库,
该文针对应用领域中空间数据的不确定性,重点研究了不正确空间区域间的拓扑关系分析和模糊区域建模问题,在分析已有研究工作的基础上,提出了几种拓扑关系的形式化模型,能够更
学位
随着计算机网络的高速发展,电子邮件的应用越来越多,但是垃圾邮件也随之越来越猖獗.目前,针对不同的网络环境,出现了各种各样的邮件过滤模型,但是大多数并不能解决垃圾邮件对
由于近年来电信增值业务发展迅速,原有的业务接入方式已无法满足目前的需求,所以综合业务接入网关随之出现。目前电信运营商正在各地积极部署综合业务接入网关,但与其配套的
在高性能超标量处理器中,通过不断的提高并行取指和并行执行来提高处理器的性能已经变得相当复杂,而且程序的控制和数据相关性也使得处理器带宽提高受到很大的阻碍.踪迹处理
近年来,Internet正以令人难以置信的速度在飞速发展,越来越多的机构、团体和个人在Internet上发布信息、查找信息。虽然Internet上有海量的数据,但由于Web是无结构的、动态的,并