论文部分内容阅读
论文针对我国竹类种质资源基础数据不全面、不完整、信息分析处理和利用程度低,以及竹亚科属种分类存在争议的问题,开展竹类种质资源数据抽取与分类方法研究。研究以构建竹类种质资源数据库为基础,主要解决两个问题:竹种形态学数据的自动抽取与结构化问题、基于数据挖掘的竹种归属分类建模问题,以及竹类种质资源数据挖掘系统的设计与实现。论文首先研究了基于正则抽取模型的竹种数据结构化方法,完成对竹种形态学数据的自动获取;再以竹种形态学数据库为研究对象,基于支持向量机算法构建了竹种归属分类模型;最后采用Java语言和MySQL数据库,研究开发了竹类种质资源数据挖掘系统,从实例角度验证了前述方法的可行性和有效性。具体研究内容及成果如下:(1)研究了基于正则抽取模型的竹种数据结构化方法。该方法以竹种数据库属性为抽取模板,利用正则表达式构建抽取规则,构建竹种正则抽取模型,并设计实现了竹种信息抽取系统,解决了从竹类植物历史文献和电子资源中自动抽取竹种形态学数据并结构化存储的问题。(2)研究了基于支持向量机算法的竹种分类方法。该方法以ReliefF算法为属性选择策略,以SMO函数为建模算法,以网格搜索法结合交叉验证优化模型参数,构建了基于混合策略的竹种归属分类模型,并在竹种数据库上进行小样本实例验证,证明模型对竹种分类的有效性。该方法为竹亚科分类提供了一种基于数据和多参数定量分析的方法。(3)研发了竹类种质资源数据挖掘系统。在Eclipse平台上通过Java语言和MySQL数据库编程,设计开发了竹种数据挖掘系统,实现了论文中提出的方法。系统从功能上设计了对不同用户的权限管理、对源数据的多方式采集、对竹种数据的预处理与分类挖掘、以及对数据库的维护与检索模块。论文研究探索了数据挖掘技术在竹类种质资源信息保护、存储、分析以及竹类植物分类上的应用和实现。研究成果对提高竹类种质资源信息利用程度,创新竹类种质资源数据分析、处理与优化的方法和技术,建立竹亚科植物分类方法体系具有重要的理论研究价值和实际意义。