论文部分内容阅读
每天众多的财经网站会发布股票信息,这些信息数据量巨大、存在大量冗余和容易混淆的数据,一般的用户需要花费很多时间才能获得自己想要的股评信息。本文从国内互联网股评及网上信息抽取技术的分析入手,对网上股评信息的提取进行研究,具体工作如下:(1)采用网络蜘蛛的信息抽取技术实现了对网页上的信息提取。在网页中先定位到用户所需信息的链接的URL,并把这些URL放入等待抓取的队列中;然后依次下载每个URL对应的网页,对其HTML文档进行结构化分析,从中查找股票信息。(2)建立股评特征信息的词库。首先,根据对财经网站上的大量股评信息进行特征分析,找出既频繁出现、又能表示股票趋势的特征词汇。其次,由于所研究的股评信息具有前半句常为描述股票特征、后半句给出操作建议的结构,所以,对股评信息的前半句的分析得到描述股评的多特征词汇,有时表示为一个特征,有时需要用结合两个特征词描述,综合分析后可将这些特征词汇后建立特征词库、结合词库;对股评信息的后半句分析得到的建议词汇可组成建议词库。最后,对特征词库、结合词库、建议词库三个词库中的特征词汇进行总结。(3)利用所建立的特征词库对股评信息进行解析。首先从特征词库中依次取出特征词,与股评信息进行匹配,解析出第一特征词和第二特征词;如果特征词库中没有可以匹配的词汇,则从结合词库中依次取词匹配,根据解析出的第一特征词,然后匹配出第二特征词。在解析股评信息的前半句后继续解析后半句中的建议词,过程同特征词库匹配类似。解析得到特征信息后就通过已定义好的数据库接口将股票代码、名称、特征信息、原始股评等信息存储到相应的数据库表中。(4)设计与实现网上股评信息提取模块。首先介绍了模块的总体设计,给出了系统的层次结构图;其次结合网络抓取模块结构图和流程图介绍了网络蜘蛛的信息提取的过程,以及网络蜘蛛主控模块对抓取进程的控制;最后对股评特征信息库的结构进行了设计,并且给出了从股评信息中解析特征词汇的主要伪代码描述。