论文部分内容阅读
随着信息技术迅速发展,促使国家大力发展教育信息事业,建设数字化、智慧型校园,实现区域化学习资源深层次整合、共建、共享,使学习者和用户在海量信息中获取学习资源为零距离。通用网络爬虫是采集海量的网页信息,采集的信息内容杂乱无序、利用率低、损耗存储空间。聚焦爬虫是按一定规则采集信息,采集的资源(TXT、Word、Excel、PPT、PDF、HTML格式)内容是有序和高质。由于网络学习资源和建构主义理论支持,结合而成的Blended Learning方式,充分调动学习者和用户的积极性、主动性、创造性。同时,学习资源是远程教育、移动教育、泛在学习基础性资源,且成本低、易管理的特点为人们所关注的热点。学习者、用户以及教育研究机构对信息化学习资源需求与日俱增,然互联网资源海量、分布松散,学习者和用户获取所需学习资源如大海捞针,且获取的学习资源内容近似、风格重复、创新较小、实用性较差。因此,应用学习资源主题采集模型剔除无关干扰信息;并结合KNN文本分类方法组织和管理好海量、异构、半异构、动态特点的学习资源,为学习者和用户快速、准确查询、获取以及共享学习资源。这都是学习者和用户所关注的焦点,也是学习资源采集与分类亟待研究和解决的问题。本文首先概述学习资源采集与分类的研究背景与意义,简述学习资源采集与分类的国内外研究现状及存在问题,研究分析本文涉及学习资源主题采集、分类相关性理论和关键技术,包括:学习资源涵义、类型、格式的概念界定;学习资源网页爬虫、信息提取、页面去重的技术;学习资源中文分词、特征选取、VSM模型、KNN文本分类。详细阐述学习资源采集与分类的需求分析、系统框架设计、学习资源主题采集结构设计、学习资源分类结构设计、系统功能设计,详细阐述学习资源采集与分类的各模块实现。最后,通过实验验证学习资源采集模型和分类算法,系统评测根据其准确率、查全率、F值并分析分类结果,证实学习资源采集与分类系统应用效果显著。同时针对大规模学习资源采集建议应用LDA模型,进一步优化局部敏感哈希和KNN算法结合改善系统分类速度和准确性。