论文部分内容阅读
随着Internet的迅速发展,Web蕴含了大量的多媒体信息资源。但是Web中多媒体信息资源无序、分布和爆炸性增长,给人们快速、准确地找到自己感兴趣的资源带来诸多不便。建构主义强调利用各种信息资源来支持“学”,认为构建学习环境需要为学习者提供可选择的、丰富的和随时可得的与问题解决有关的各种信息资源,包括文本、图形、声音、视频和动画等形式的多媒体资源。Web多媒体信息资源对于建构主义学习环境的创建和学习者的学习具有非常重要的作用。因此,本文研究了面向Web的多媒体信息提取方法,并应用于基础教育个性化多媒体标注系统中,取得了较好的实验结果。本文研究对基于建构主义的多媒体学习环境的构建具有积极意义。论文对当前已有的Web多媒体信息提取方法进行了总结,将其分为基于内容的多媒体信息提取方法和基于文本的多媒体信息提取方法,指出了它们各自的优缺点,重点研究并实现了基于文本的多媒体信息提取方法。Web多媒体信息通常嵌入在网页中,并有相关描述文本。多媒体相关文本是指嵌入在Web网页中、与多媒体信息有关联的所有文本,包括链接文本、锚文本、周围文本、环境文本等。从这些相关文本中提取出多媒体的语义信息是简单、方便、可行的。本文给出了一种基于映射表的网页视图转换模式和基于栈的网页结构生成方法,实现对网页进行结构与内容分析、网页区域分割、特征提取与语义识别。在网页区域分割基础上,采用个体级、区域级和网页级三级分析方法完成多媒体相关文本的提取。为了进一步从多媒体相关文本中提取多媒体的语义信息,本文给出了多媒体语义表示方法和多媒体的主题分类,运用自然语言处理的方法,构建了中文分词词典和图像语义词典,并开发了基于最大正向匹配的中文快速分词算法和多媒体语义提取算法。在上述工作基础上,本文设计开发了一个面向基础教育的个性化Web多媒体标注系统。系统分为个性化元搜索模块、多媒体内容分析模块、元信息提取模块、网页结构内容分析模块、相关文本提取与语义分析模块和多媒体信息存储模块。论文详细介绍了系统的整体结构、数据库结构、关键编程技术和小学各年级、各学科主题词的搜集方法,并对该系统进行了初步实验。实验结果表明,本文提出的面向Web的多媒体信息提取方法具有较好的效果,对提高多媒体信息检索系统的查全率与查准率具有积极意义。论文最后指出了系统的不足之处和需进一步研究探索的方向。