论文部分内容阅读
教育资源库是一个庞大的系统,包括大量的媒体素材库、课件库、题库、案例库、附件库等等,其多媒体教育资源种类繁多、形式各异.要有效的进行检索,除了要定义良好的资源库的逻辑结构以及与数据库的接口外,还需要智能化的搜索技术和知识挖掘技术.搜索引擎是联系资源库和用户的桥梁,无论是建设者还是使用者都将通过检索和浏览获取所需信息.因此,不仅要提供精确匹配检索,还需要研究多模式查询与基于特殊知识领域内容的检索.多模式查询与基于特殊知识领域内容的检索属于智能化检索技术和知识挖掘技术,其特点是根据信息化学习者的个性化要求,尽量准确地从资源库中搜索出所需的知识,以多媒体网页形式展现给用户,并能发掘一些新的知识.该文采用粗糙集理论来处理模糊和不精确的问题,实现智能搜索引擎上的知识发现与挖掘,使得搜索内容比较准确、信息流量较少、响应速度较快,并且能够发现与用户感兴趣的相关新知识.针对文本、图像混合教育资源的分类问题,该文以可变精度的粗糙集理论为基础,构造了一个统一的文本与图像分类系统.该系统由两大部分构成.其一,训练学习部分.将训练集先经过预处理,再进行特征提取和特征量化,将得到的特征保存在文件中.选择部分或全部特征构成决策表,对决策表进行最小规则提取,并保存形成的规则集;其二,识别部分.将待识别的文本或图像进行预处理、特征提取以及特征量化.如果是文本,选择相应的文本规则集;如果是图像,选择图的部分或整体作为识别对象,打开相应的图像规则集.最后,根据所确定的规则可信度阈值进行分类识别.在特征值提取方面,针对教育资源的特殊性,对文本采用了广义n-gram信息的特征单元获取方法;对图像首先按色彩分为彩色图像和灰度图像,彩色图像采用基于HSV空间模型的直方图量化方法;灰度图像,利用不变矩和傅立叶变换提取图像的形状特征.在规则提取方面,以可变精度粗糙集理论为基础,利用决策矩阵法提取规则,既能避免计算决策表的约简,减少计算时间,又因为是矩阵计算,便于计算机实现.实验表明,用该系统进行教育资源的分类,既能有效简化分类规则,又能处理噪音数据,使形成的规则集便于用户理解,从而有利于提高检索的查准率.