金融领域文本分类算法的优化

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tian1_sheng2_wo3_cai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着金融产业的发展,人们对于金融相关信息的需求越来越多,金融领域资讯也随之增多。金融领域资讯文本往往有助于分析相关个股和公司股价的走势。然而,日渐增多的金融领域资讯文本杂而乱,充斥大量的非金融领域文本,如广告类文本、软文类文本、纯技术类文本等。为此,文本的金融领域相关性分析十分重要。已有的base版本的文本分类方法受限于训练语料的数据量大小,且基于词语的特征维度对文本建模,忽略了语义信息,准确率和召回率都比较低。从而提出对base版本的文本分类方法进行改进的措施,首先采用基于关键词和pattern等规则的方法召回文本生成训练语料;其次采用基于active learning和聚类等模型的方法标注文本生成训练语料;紧接着从基于文本内容和媒体账号两个维度对文本进行清洗挑选出高质量的训练文本;最后在文本分类的特征中引入带有语义信息的词向量特征对文本建模,采用不同的文本分类模型对文本建模做对比试验,对模型预测概率做实验调整,从而更准的去判断文本与金融领域是否相关。与此同时,为了更多更准的召回金融领域相关文本,改进的版本中在文本分类模型策略识别之前,融入了基于金融领域关键词识别的规则策略。实验结果表明,扩充训练语料的数据量,保留高质量的训练语料,在文本分类的特征中使用带有语义信息的词向量,以及融合基于金融领域关键词识别的规则方法,对文本分类的召回率和准确率的提升有很大帮助。金融领域相关性的判别,可以更精确的保留下与金融领域相关的资讯文本。不仅极大的减少了以往人工过滤的成本,而且极大的提升了用户的阅读体验。
其他文献
借款合同中保证人的免责问题刘丽飞保证合同是银行在办理借款合同时常用的一种担保形式,《担保法》实施两年来,银行运用保证合同在减少呆帐、呆滞、逾期贷款,提高信贷资产质量,防
采用射频溅射法制备了纳米'铁磁金属-半导体基体'Fex(In2O3)1-x颗粒膜,并研究了其结构和磁特性.根据颗粒膜低场磁化率x(T)温度关系和不同温度下的磁滞回线,证实了在
固溶淬火态Ti100-xNix合金中,x=40.0-49.0时,合金的马氏体相变(MT)温度(TM)、热滞(△TM)不变,相变热(△HM)升高;x=49.0-52.0时,合金的TM和△HM急剧下降,△TM急剧升高;x=52.0-
利用X射线衍射ODF分析方法,研究了电场对08Al深冲钢板单台阶退火和双台阶退火再结晶织构的影响。结果表明:电场提高了再结晶γ纤维织构的强度,同时降低了再结晶α纤维织构的强度