论文部分内容阅读
随着金融产业的发展,人们对于金融相关信息的需求越来越多,金融领域资讯也随之增多。金融领域资讯文本往往有助于分析相关个股和公司股价的走势。然而,日渐增多的金融领域资讯文本杂而乱,充斥大量的非金融领域文本,如广告类文本、软文类文本、纯技术类文本等。为此,文本的金融领域相关性分析十分重要。已有的base版本的文本分类方法受限于训练语料的数据量大小,且基于词语的特征维度对文本建模,忽略了语义信息,准确率和召回率都比较低。从而提出对base版本的文本分类方法进行改进的措施,首先采用基于关键词和pattern等规则的方法召回文本生成训练语料;其次采用基于active learning和聚类等模型的方法标注文本生成训练语料;紧接着从基于文本内容和媒体账号两个维度对文本进行清洗挑选出高质量的训练文本;最后在文本分类的特征中引入带有语义信息的词向量特征对文本建模,采用不同的文本分类模型对文本建模做对比试验,对模型预测概率做实验调整,从而更准的去判断文本与金融领域是否相关。与此同时,为了更多更准的召回金融领域相关文本,改进的版本中在文本分类模型策略识别之前,融入了基于金融领域关键词识别的规则策略。实验结果表明,扩充训练语料的数据量,保留高质量的训练语料,在文本分类的特征中使用带有语义信息的词向量,以及融合基于金融领域关键词识别的规则方法,对文本分类的召回率和准确率的提升有很大帮助。金融领域相关性的判别,可以更精确的保留下与金融领域相关的资讯文本。不仅极大的减少了以往人工过滤的成本,而且极大的提升了用户的阅读体验。