基于语义的网上股评信息的提取研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户：xxx555xxx777

【摘要】

：

每天众多的财经网站会发布股票信息,这些信息数据量巨大、存在大量冗余和容易混淆的数据,一般的用户需要花费很多时间才能获得自己想要的股评信息。本文从国内互联网股评及网

【作者】

：

孙文婷

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2011年01期

【关键词】

：

网上股评语义网络蜘蛛信息提取股评特征

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

每天众多的财经网站会发布股票信息,这些信息数据量巨大、存在大量冗余和容易混淆的数据,一般的用户需要花费很多时间才能获得自己想要的股评信息。本文从国内互联网股评及网上信息抽取技术的分析入手,对网上股评信息的提取进行研究,具体工作如下：(1)采用网络蜘蛛的信息抽取技术实现了对网页上的信息提取。在网页中先定位到用户所需信息的链接的URL,并把这些URL放入等待抓取的队列中；然后依次下载每个URL对应的网页,对其HTML文档进行结构化分析,从中查找股票信息。(2)建立股评特征信息的词库。首先,根据对财经网站上的大量股评信息进行特征分析,找出既频繁出现、又能表示股票趋势的特征词汇。其次,由于所研究的股评信息具有前半句常为描述股票特征、后半句给出操作建议的结构,所以,对股评信息的前半句的分析得到描述股评的多特征词汇,有时表示为一个特征,有时需要用结合两个特征词描述,综合分析后可将这些特征词汇后建立特征词库、结合词库；对股评信息的后半句分析得到的建议词汇可组成建议词库。最后,对特征词库、结合词库、建议词库三个词库中的特征词汇进行总结。(3)利用所建立的特征词库对股评信息进行解析。首先从特征词库中依次取出特征词,与股评信息进行匹配,解析出第一特征词和第二特征词；如果特征词库中没有可以匹配的词汇,则从结合词库中依次取词匹配,根据解析出的第一特征词,然后匹配出第二特征词。在解析股评信息的前半句后继续解析后半句中的建议词,过程同特征词库匹配类似。解析得到特征信息后就通过已定义好的数据库接口将股票代码、名称、特征信息、原始股评等信息存储到相应的数据库表中。(4)设计与实现网上股评信息提取模块。首先介绍了模块的总体设计,给出了系统的层次结构图；其次结合网络抓取模块结构图和流程图介绍了网络蜘蛛的信息提取的过程,以及网络蜘蛛主控模块对抓取进程的控制；最后对股评特征信息库的结构进行了设计,并且给出了从股评信息中解析特征词汇的主要伪代码描述。

其他文献

Web服务编排语言的分析与测试

Web服务编排描述语言(Web Services Choreography Description Language,简称WS-CDL)从全局的视点描述服务组合各个参与方的行为规范,并且具有可重用性以可及描述事务性等特

学位

Web服务组合WS-CDL关系演算程序验证符号执行测试自动化

中国电信视频监控系统(无线全球眼)的建设与调测

中国电信“无线全球眼”业务通过前端即无线PU的无线视频采集，提供中国电信3G网络的传输信道，可以实现在有线网络不能到达的区域以及移动状态下的视频监控，在各行业有着广泛的需

学位

无线全球眼电信视频监控系统数据采集传输信道

二维形状表示及分类方法研究

图像的二维形状以其简单、高效、易用等特点成为图像表示的重要选择之一。目前基于二维形状的识别已被应用到很多领域,如目标识别,基于内容的图像检索,文字识别,医疗诊断等,

学位

二维形状识别分层隐马尔可夫模型遗传算法主成分分析最远点距离

金属薄片自适应变形

近年来,基于物理模型的可视化仿真技术不断进步,如帽子自由落体与桌面碰撞变形、旗帜在风中飘扬、粘弹性物体之间的互相撞击等,具有高度真实感的仿真技术已经成为未来几年里

学位

金属薄壳塑性变形拉伸弯曲自适应网格仿真

基于Hadoop的XML关键字查询算法研究

可扩展标记语言(eXtensible Markup Language,XML),是基于标准广义标记语言,用于定义语义标记的一套规则。它已经在数据挖掘、数据库系统等诸多应用领域发挥了重要的作用。XM

学位

云计算可扩展标记语言关键字查询智能分组MapReduce

基于Rank变换的噪声图像边缘检测算法研究

在数字图像处理中,由于受到环境、成像方法的影响,图像的边缘、细节特征等重要信息可能被噪声湮没,对边缘检测、图像分割、匹配等后续处理带来一定的干扰。有效的减少和消除

学位

数字图像噪声处理边缘检测中值滤波算法

面向方面的可执行软件过程的研究

在软件过程中,比较频繁出现的情况是在已经存在的过程中增加或更新需求,通常要求改变软件模型中的一系列任务,角色,工作产品,工具,步骤等元素,它们通常横切不同模块而且缺乏

学位

软件过程面向方面SPEMXPDL

基于下一代互联网的IPTV终端系统的研究与应用

随着IPv6技术的发展和人们对多媒体信息服务需求的增加,基于下一代互联网的视频直播系统成为多媒体应用的一个重要方向,得到了迅速的发展。但是组播方式的IPTV系统面临着许多

学位

IPv6IPTV组播拥塞控制组密钥管理

复杂事件处理及RFID中间件模型的研究

射频识别(RFID)是一种高效的自动识别与数据采集的技术,它利用无线射频信号对物体进行识别与信息传递,在制造、医疗、运输、物流等领域有着广泛的前景,被誉为21世纪最有前途

学位

射频识别中间件模型复杂事件处理事件检测

面向方面程序切片技术及其在测试数据生成中的应用

随着软件技术的迅速发展,软件系统的规模不断扩大,对系统模块化要求也越来越高。面向方面编程(AOP)作为一种新的软件开发范型,利用方面来实现横切关注点的模块化,使系统的可

学位

面向方面程序通知波动效应程序切片系统依赖图测试数据生成

基于语义的网上股评信息的提取研究

其他学术论文