论文部分内容阅读
随着数据库技术的快速发展,各个领域堆积的数据也越来越多。数据库虽然有着很强大的采集数据和存储数据的能力,但是数据分析能力却相对薄弱。无法挖掘到隐藏在海量数据背后的信息,导致数据爆炸和知识匮乏的普遍现象。如何从海量的数据中提取有用的知识成为当务之急,数据挖掘也正成为当今信息技术的一个重要研究内容。
我国的证券市场从上个世纪90年代起步,到现在已经经历了几十年的发展壮大,各个证券公司都积累了海量的历史数据,如何对这些数据进行有效的处理,成为证券市场发展的一个难题。同时,证券业中的很多业务都需要对历史数据进行处理后才能展开,数据挖掘技术的诞生为海量数据的处理提供了有效的方法。通过对历史数据的加工处理,挖掘历史数据中隐藏着的有价值信息,为证券公司和股票投资者提供参考意见。
本文阐述了数据挖掘的基本概念,并对数据挖掘中的分类技术进行了深入分析,主要研究分析了经典的决策树算法、自组织特征映射图(SOM网络)、K-means聚类算法。
本文的主要工作有以下三点:
(1)把经典的决策树算法应用到股票历史数据分析中,通过对历史数据的分析,建立了股票价格走势决策树预测模型。经过对测试数据的测试,实验结果是可以达到指导投资者进行股票投资的目的。
(2)具体的分析了SOM网络与K-means算法的特点,并根据SOM网络与K-means算法的各自缺点建立了基于SOM&K-means混合聚类算法。通过对数据的训练与测试,最终得到的聚类结果明显优于单独的SOM网络和K-means算法。
(3)在SOM&K-means混合聚类算法的基础上,提出了基于SOM&K-means混合聚类的交易规则。把此交易规则应用到沪深300指数走势的预测中,最后通过与B&H策略和Resta的R1,R2,R3交易规则在统计指标和经济指标上的比较,得出在band等于0的情况下,基于SOM&K-means混合聚类的交易规则在统计指标和经济指标上要优于B&H策略和Resta的R1,R2,R3交易规则。
本文的创新:在决策树应用中,根据股票走势的特殊性,提出了一种特殊的剪枝方法,得到了比较满意的决策树预测模型;在股票投资预测中引入了SOM&K-means混合聚类方法,并在混合聚类的基础上提出了基于SOM&K-means混合聚类的交易规则。