论文部分内容阅读
本文针对自动聚类技术进行了一定的研究工作,并将其应用于研究上市公司公告对股价的影响。详细分析和研究了文本聚类技术的各个方面。针对文本聚类中特征词抽取的不足,在结合经典统计量互信息和t-测试的基础上,提出一种基于上下文统计反馈模型的特征词自动抽取方法,使之更好地满足对大规模中文文本进行处理的需求。实验表明,该方法能够快速、准确地对大规模中文文本进行特征词抽取。此外,针对公告文本需要结合股价信息以及由标题和正文组成的特点,提出了有别与一般文本聚类步骤的处理方法,并结合经过改进的聚类算法来实现公告文本聚类系统。最后,经过一系列的对比实验,证明了这个系统的可行性,并得到了一些有用的结论。