基于语义的网上股评信息的提取研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:xxx555xxx777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
每天众多的财经网站会发布股票信息,这些信息数据量巨大、存在大量冗余和容易混淆的数据,一般的用户需要花费很多时间才能获得自己想要的股评信息。本文从国内互联网股评及网上信息抽取技术的分析入手,对网上股评信息的提取进行研究,具体工作如下:(1)采用网络蜘蛛的信息抽取技术实现了对网页上的信息提取。在网页中先定位到用户所需信息的链接的URL,并把这些URL放入等待抓取的队列中;然后依次下载每个URL对应的网页,对其HTML文档进行结构化分析,从中查找股票信息。(2)建立股评特征信息的词库。首先,根据对财经网站上的大量股评信息进行特征分析,找出既频繁出现、又能表示股票趋势的特征词汇。其次,由于所研究的股评信息具有前半句常为描述股票特征、后半句给出操作建议的结构,所以,对股评信息的前半句的分析得到描述股评的多特征词汇,有时表示为一个特征,有时需要用结合两个特征词描述,综合分析后可将这些特征词汇后建立特征词库、结合词库;对股评信息的后半句分析得到的建议词汇可组成建议词库。最后,对特征词库、结合词库、建议词库三个词库中的特征词汇进行总结。(3)利用所建立的特征词库对股评信息进行解析。首先从特征词库中依次取出特征词,与股评信息进行匹配,解析出第一特征词和第二特征词;如果特征词库中没有可以匹配的词汇,则从结合词库中依次取词匹配,根据解析出的第一特征词,然后匹配出第二特征词。在解析股评信息的前半句后继续解析后半句中的建议词,过程同特征词库匹配类似。解析得到特征信息后就通过已定义好的数据库接口将股票代码、名称、特征信息、原始股评等信息存储到相应的数据库表中。(4)设计与实现网上股评信息提取模块。首先介绍了模块的总体设计,给出了系统的层次结构图;其次结合网络抓取模块结构图和流程图介绍了网络蜘蛛的信息提取的过程,以及网络蜘蛛主控模块对抓取进程的控制;最后对股评特征信息库的结构进行了设计,并且给出了从股评信息中解析特征词汇的主要伪代码描述。
其他文献
Web服务编排描述语言(Web Services Choreography Description Language,简称WS-CDL)从全局的视点描述服务组合各个参与方的行为规范,并且具有可重用性以可及描述事务性等特
中国电信“无线全球眼”业务通过前端即无线PU的无线视频采集,提供中国电信3G网络的传输信道,可以实现在有线网络不能到达的区域以及移动状态下的视频监控,在各行业有着广泛的需
图像的二维形状以其简单、高效、易用等特点成为图像表示的重要选择之一。目前基于二维形状的识别已被应用到很多领域,如目标识别,基于内容的图像检索,文字识别,医疗诊断等,
近年来,基于物理模型的可视化仿真技术不断进步,如帽子自由落体与桌面碰撞变形、旗帜在风中飘扬、粘弹性物体之间的互相撞击等,具有高度真实感的仿真技术已经成为未来几年里
可扩展标记语言(eXtensible Markup Language,XML),是基于标准广义标记语言,用于定义语义标记的一套规则。它已经在数据挖掘、数据库系统等诸多应用领域发挥了重要的作用。XM
在数字图像处理中,由于受到环境、成像方法的影响,图像的边缘、细节特征等重要信息可能被噪声湮没,对边缘检测、图像分割、匹配等后续处理带来一定的干扰。有效的减少和消除
在软件过程中,比较频繁出现的情况是在已经存在的过程中增加或更新需求,通常要求改变软件模型中的一系列任务,角色,工作产品,工具,步骤等元素,它们通常横切不同模块而且缺乏
随着IPv6技术的发展和人们对多媒体信息服务需求的增加,基于下一代互联网的视频直播系统成为多媒体应用的一个重要方向,得到了迅速的发展。但是组播方式的IPTV系统面临着许多
射频识别(RFID)是一种高效的自动识别与数据采集的技术,它利用无线射频信号对物体进行识别与信息传递,在制造、医疗、运输、物流等领域有着广泛的前景,被誉为21世纪最有前途
随着软件技术的迅速发展,软件系统的规模不断扩大,对系统模块化要求也越来越高。面向方面编程(AOP)作为一种新的软件开发范型,利用方面来实现横切关注点的模块化,使系统的可