论文部分内容阅读
股票市场价格预测一直是金融与管理科学领域最为重要和困难的课题之一。如何发掘显著影响股票市场价格波动的因素,是准确理解股票市场波动机制与动态发展的基础,它是解释股票市场异常波动的理论依据,同时还能够为股票市场预测提供有效的信息。现有股票市场价格预测模型研究均与如何通过改变预测模型来提高预测精度有关,这些理论上较为成熟的预测模型,将历史时间序列作为输入变量,虽然能够通过数学手段降低预测误差水平,但是在方向准确率的预测上则始终不尽如人意。因此,本文转换了预测思路,通过寻找能够提前体现股票市场未来变化的新变量,从而构建有效的股票市场价格预测模型,实现在降低预测误差水平同时,还能够提高方向准确率。 基于行为金融学理论,即股票市场波动的根本原因是由投资者行为(包括理性和非理性)造成的。随着互联网用户信息交互平台的发展与普及,投资者的行为和情绪能够被互联网实时记录,这些互联网信息丰富了股票市场投资者行为的数据样本。在此背景下,本文首先通过文本挖掘技术从互联网收集了大量投资者行为数据,包括搜索行为数据、社交网络文本数据和网络新闻数据等;再通过情感分析和数据处理技术将这些大量且非结构化的数据转化为可用于建模的结构化指数数据,基于此构建新的股票市场价格预测模型。本文以数据驱动预测为核心思想,结合现有技术,提出了新的股票市场集成预测模型——互联网多源数据驱动的股票市场集成预测模型,进而加强对股票市场收益率异常波动的解释力度,同时提高对股票市场价格预测的准确率。具体的,本文的主要工作有以下几个方面: (1)基于现有文本量化分析技术,构建针对我国股票市场的搜索引擎数据、社交网络文本数据和网络新闻文本数据的量化分析方法。 互联网不同信息平台的投资者行为数据,为我们分析股票市场波动规律和预测股票市场走势,提供了新的角度与思路。投资者互联网行为数据建模的最大难题是数据的非结构化特征,大量文本数据(中文)是不能直接输入到数学模型中进行建模计算的,需要对其进行数据预处理,以转化为数学模型可识别的结构化数据。因此,本文根据现有研究,构建了适用于我国股票市场的搜索引擎数据、社交网络文本数据和网络新闻文本数据量化分析方案,从而实现非结构化数据向结构化的转变。 (2)构建了互联网多源数据与股票市场价格的相关关系检验方法,以揭示股票市场与互联网多源数据之间的因果关系。 本文通过线性与非线性格兰杰因果检验法,对互联网多源数据与股票市场价格的因果关系进行了深入的梳理和实证分析。该方法可有效地检验互联网多源数据与股票市场价格之间的线性与非线性关系,在有效揭示关系特征的同时,还能为后续的建模预测提供理论指引。实证结果表明,搜索指数与股票市场的因果关系最强,网络新闻数据次之,社交网络评论数据的因果关系最弱。 (3)构建了基于互联网行为数据的股票市场价格时间序列预测模型,实证互联网行为数据对股票市场价格预测的提升作用。 该部分基于搜索指数、社交网络情感指数和网络新闻情感指数,分别构建了时间序列预测模型,以实证互联网行为数据对于股票市场预测的提升作用,并对比分析了三种互联网大数据在不同股票市场价格走势预测效果上的差异性。实证结果证明,基于搜索指数的时间序列预测模型预测效果是最好的,网络新闻情感指数对预测准确率的提升作用次之,而基于社交网络情感指数的时序预测模型预测效果最差。实证结果有力地支撑了线性与非线性格兰杰因果检验结果。 (4)提出了基于互联网多源数据的股票市场金融风险预测模型,提高股票市场金融的提前防范和风险管理能力。 本文基于vine-copula模型有效地将搜索指数、社交网络情感指数、网络新闻情感指数与股票市场历史收益率分布有机地结合在一起,构造了具有相依关系的新分布,并基于该分布对股票市场未来的收益率进行预测,最后采用VaR技术得到最终的预测结果,实证结果证明了该方法的有效性。 (5)提出了互联网多源数据驱动的股票市场集成预测方法,通过集成预测技术有效地解决了多源异构数据的集成预测,提高股票市场价格短期走势的预测准确率。 结合数据处理,关系检验与时序建模和集成预测模型,本文提出了互联网多源数据驱动的股票市场集成预测方法。特别地,该模型根据自变量与因变量之间的关系特征,进而选择恰当的方法构建预测模型,显著提高了模型在股票市场价格预测中的预测准确率。此外,高效的非线性集成技术也实现了预测准确率的进一步提升。具体的,实证结果首先证明集成模型显著的优越性,在所有预测精度评价指标下的表现都是最好的;其次,验证了关系检验结果与预测模型匹配关系的有效性与合理性;最后,基于遗传算法优化的LSSVR模型作为集成技术击败其他线性和非线性的集成模型,证明了该方法是一种高效稳定的集成技术。