论文部分内容阅读
上世纪70年代,股票交易市场的计算机化,促成了计算机智能选股策略的问世。2012年后,以深度学习为核心的人工智能,则开启了智能选股的新时代。智能选股就是使用计算机对市场上不同股票的各项特征信息进行分析,对股票的未来价格做出预测后,自动地选择股票进行最优化交易。因此获取有价值的影响股票价格的特征变量,能够使计算机更精准地预测出股价的未来价格,做出优质的选股策略,从而获得超额的投资收益。然而目前大多数研究者在选取影响股票价格的特征变量时,主要选取的是个股的历史交易信息、各项技术指标以及公司的财务数据,忽视了其他重要的影响股票价格的特征变量,使得股价预测模型无法更加准确地预测出股票的未来价格。
本文以2016年1月5日至2020年1月23日上证50指数中29绩优股作为样本,从风险和舆情的角度出发,创新地引入个股收益的偏度、峰度,并对东方财富股吧论坛的投资者评论进行文本情感分析,分别构造出了风险指标、舆情指标以衡量个股风险和量化投资者情感倾向。为量化投资者的情感倾向,本文创新地将投资者情绪分为个股投资者情绪和行业投资者情绪,从东方财富股吧网上分别爬取了个股和行业的股评数据。在对股评数据进行降噪处理后,从中抽取部分数据,通过人工标注的方式,构建了包含16664条投资者评论的语料库。同时本文对现有的中文分词表和停用词表进行了扩充。在对个股和行业的股评数据进行分词和去除停用词的基础上,本文使用Word2Vec模型的skip-gram架构进行词向量的训练,随后通过计算得到句子向量,并输入至LSTM深度神经网络模型对股评信息进行情感分类。同时本文建立了支持向量机模型、随机森林模型、逻辑回归模型以及基于这三种模型的集成学习模型,与LSTM情感分类模型进行对比分析。本文将所有模型进行五折交叉验证,通过模型评估指标F1值选取最优情感分类器。实证结果表明,LSTM情感分类模型的分类预测F1值为70.48%,均高于集成学习模型的分类预测F1值69.27%、支持向量机模型的分类预测F1值69.17%、随机森林模型的分类预测F1值67.58%、逻辑回归模型的分类预测F1值69.23%。
随后本文构建了一个双层LSTM深度神经网络股价预测模型以探究常用的技术、财务指标与本文构建的风险、舆情指标对股价预测模型的影响。本文将以交易指标为输入变量的股价预测模型作为基础模型,并将技术、财务、风险、舆情指标分别与交易指标进行组合后分别输入至股价预测模型中,以平均百分比误差作为模型评估指标,分析了各项指标及其组合对模型预测的影响。实证结果表明,以交易指标、技术指标、风险指标和舆情指标作为输入变量的模型,比仅以交易指标作为输入变量的模型的预测平均百分比误差降低了11.30%。同时实证研究发现,当输入变量加入财务指标后,模型的预测平均百分比误差均有不同程度的增加。
为进一步提高LSTM深度神经网络股价预测模型的精度,本文将交易、技术、风险和舆情指标作为模型的最优输入变量,分别从神经网络层数量、神经元个数、batchsize大小、优化器的选择与训练样本长度方面对该模型进行优化。同时本文构建了基于支持向量回归的股价预测模型,并使用网格搜索法进行惩罚系数C和gamma值进行调优。随后本文将参数调优后的LSTM股价预测模型和SVR股价预测模型进行对比分析,结果表明参数调优后的LSTM股价预测模型的误差更小,准确度更高。
最后本文将29只股票的最优输入变量、交易指标分别输入至参数优化后的LSTM股价预测模型中进行收盘价格预测,在此基础上构建了两种选股策略。本文设置的选股策略回测时间为2019年5月20日至2020年1月23日、2019年7月23日至2020年1月23日,通过对比不同回测时间的两种策略回测结果,发现以本文选取的最优输入变量和LSTM深度神经网络股价预测模型为基础构建的选股投资策略,能够获得比大盘风险相对更低、收益更高的投资回报。
本文构建的投资者情感分类模型、LSTM股价预测模型以及智能选股投资策略,对量化投资者情感、预测股票价格和制定选股投资策略有一定的参考意义,并能够在一定程度上帮助投资者进行投资决策,提高投资收益。
本文以2016年1月5日至2020年1月23日上证50指数中29绩优股作为样本,从风险和舆情的角度出发,创新地引入个股收益的偏度、峰度,并对东方财富股吧论坛的投资者评论进行文本情感分析,分别构造出了风险指标、舆情指标以衡量个股风险和量化投资者情感倾向。为量化投资者的情感倾向,本文创新地将投资者情绪分为个股投资者情绪和行业投资者情绪,从东方财富股吧网上分别爬取了个股和行业的股评数据。在对股评数据进行降噪处理后,从中抽取部分数据,通过人工标注的方式,构建了包含16664条投资者评论的语料库。同时本文对现有的中文分词表和停用词表进行了扩充。在对个股和行业的股评数据进行分词和去除停用词的基础上,本文使用Word2Vec模型的skip-gram架构进行词向量的训练,随后通过计算得到句子向量,并输入至LSTM深度神经网络模型对股评信息进行情感分类。同时本文建立了支持向量机模型、随机森林模型、逻辑回归模型以及基于这三种模型的集成学习模型,与LSTM情感分类模型进行对比分析。本文将所有模型进行五折交叉验证,通过模型评估指标F1值选取最优情感分类器。实证结果表明,LSTM情感分类模型的分类预测F1值为70.48%,均高于集成学习模型的分类预测F1值69.27%、支持向量机模型的分类预测F1值69.17%、随机森林模型的分类预测F1值67.58%、逻辑回归模型的分类预测F1值69.23%。
随后本文构建了一个双层LSTM深度神经网络股价预测模型以探究常用的技术、财务指标与本文构建的风险、舆情指标对股价预测模型的影响。本文将以交易指标为输入变量的股价预测模型作为基础模型,并将技术、财务、风险、舆情指标分别与交易指标进行组合后分别输入至股价预测模型中,以平均百分比误差作为模型评估指标,分析了各项指标及其组合对模型预测的影响。实证结果表明,以交易指标、技术指标、风险指标和舆情指标作为输入变量的模型,比仅以交易指标作为输入变量的模型的预测平均百分比误差降低了11.30%。同时实证研究发现,当输入变量加入财务指标后,模型的预测平均百分比误差均有不同程度的增加。
为进一步提高LSTM深度神经网络股价预测模型的精度,本文将交易、技术、风险和舆情指标作为模型的最优输入变量,分别从神经网络层数量、神经元个数、batchsize大小、优化器的选择与训练样本长度方面对该模型进行优化。同时本文构建了基于支持向量回归的股价预测模型,并使用网格搜索法进行惩罚系数C和gamma值进行调优。随后本文将参数调优后的LSTM股价预测模型和SVR股价预测模型进行对比分析,结果表明参数调优后的LSTM股价预测模型的误差更小,准确度更高。
最后本文将29只股票的最优输入变量、交易指标分别输入至参数优化后的LSTM股价预测模型中进行收盘价格预测,在此基础上构建了两种选股策略。本文设置的选股策略回测时间为2019年5月20日至2020年1月23日、2019年7月23日至2020年1月23日,通过对比不同回测时间的两种策略回测结果,发现以本文选取的最优输入变量和LSTM深度神经网络股价预测模型为基础构建的选股投资策略,能够获得比大盘风险相对更低、收益更高的投资回报。
本文构建的投资者情感分类模型、LSTM股价预测模型以及智能选股投资策略,对量化投资者情感、预测股票价格和制定选股投资策略有一定的参考意义,并能够在一定程度上帮助投资者进行投资决策,提高投资收益。