面向上市公司公告的文本聚类技术研究与应用

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:Bryson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对自动聚类技术进行了一定的研究工作,并将其应用于研究上市公司公告对股价的影响。详细分析和研究了文本聚类技术的各个方面。针对文本聚类中特征词抽取的不足,在结合经典统计量互信息和t-测试的基础上,提出一种基于上下文统计反馈模型的特征词自动抽取方法,使之更好地满足对大规模中文文本进行处理的需求。实验表明,该方法能够快速、准确地对大规模中文文本进行特征词抽取。此外,针对公告文本需要结合股价信息以及由标题和正文组成的特点,提出了有别与一般文本聚类步骤的处理方法,并结合经过改进的聚类算法来实现公告文本聚类系统。最后,经过一系列的对比实验,证明了这个系统的可行性,并得到了一些有用的结论。
其他文献
中国网通长途数据网是一个全国性的、以ATM技术为基础的电信级服务网络,是中国网通集团电信基础网络的有机组成部分,有效管理长途数据网是中国网通集团提高用户服务质量的重要
学位
本文在总结了访问控制相关的理论和虚拟企业特点的前提下,提出了基于任务的虚拟企业访问控制模型,实现了虚拟企业基于任务的协作。 模型将访问控制的角色职责分离和任务结合
软件复用是解决软件危机、实现软件产业工业化生产方式的有效途径。软件复用活动包含两个相关的阶段:可复用软件资产的生产阶段和基于可复用软件资产的应用系统开发阶段。领域
互联网的蓬勃发展带来网络信息的爆炸式增长,如何快速准确地找到用户需要的信息一直是亟待解决的重大问题。信息搜索是解决信息获取的主要技术之一。传统基于关键词匹配的搜索
随着互联网、云计算的发展,虚拟化技术受到越来越多的关注。虚拟化技术可以在一台物理计算机上虚拟出多台虚拟机,虚拟机间相互隔离,每个虚拟机可以运行各自的操作系统和应用。虚
当今我们生活在数据时代。通过数据挖掘和机器学习能够从数据中获得大量有价值的知识。与此同时,数据亦是危险的“潘多拉之盒”,一旦泄漏用户的隐私将被侵犯。如何保护隐私数据
网络取证分析技术是当今机器学习、计算机安全以及数字取证等领域的前沿课题。目前国内外在网络取证技术方面的研究才刚刚起步。本文针对智能网络取证分析中存在的大数据量处
学位
本文首先概要介绍了当前因特网流量工程体系结构及其主要技术,又介绍了多协议标签交换(MPLS)的基本原理以及与流量工程相结合的主要思想,进而深入研究了在MPLS区域内如何在并行
多主体系统已成为建模大型复杂分布式信息系统的一种理想范型。随着多主体系统研究的进展,开放多主体系统由于其更大的应用范围和强调对系统开放性的支持而受到越来越多研究者
学位
在自动化控制系统的发展过程中,完全专有的不开放的技术愈来愈成为控制系统发展的障碍和瓶颈。集成了众多控制,信息,网络和通讯发展新技术的总线控制系统给工业控制领域带来了一