论文部分内容阅读
术语识别是信息处理领域的基础研究任务之一,快速识别金融领域术语对金融领域的文本挖掘、信息抽取、舆情分析等任务有很高的应用价值。目前术语识别任务多采用机器学习方法,而现有机器学习模型的特征选择过程繁琐且多依赖于人工参与,后处理规则的制定多依赖于特定语料而不具有通用性。本文提出一种新的金融领域术语识别方法,该方法首先使用两类机器学习模型初步识别金融术语。第一类是传统的浅层机器学习模型—CRF模型,本文仅选择了简单基础的特征。第二类是代表性的神经网络模型—LSTM模型,该模型避免了传统循环神经网络在学习远距离信息时出现的梯度弥散问题。同时,本文也尝试了LSTM模型的典型变体—GRU模型,并把其记忆单元拆分为左右新记忆单元,在相同的参数条件下,改进的GRU模型F值可达88.13%,比基本的GRU模型结果高出0.68%。其次,本文使用基于信息熵的术语可信度模型优化上述识别结果,该模型利用基于边缘概率的信息熵公式,筛选出属于特定错误类型的候选术语,从而对候选术语的处理更有针对性;过滤候选术语时将词转换为蕴含丰富语义信息的词向量,通过计算语义相似度与传统的互信息方法互为补充,可以过滤得到高质量的金融领域术语。实验证明,该优化方法不但有利于提高召回率,还能够提高术语结构的完整性,可作为通用的过滤方法。在金融领域的语料上,CRF的识别结果经过优化后准确率、召回率和F值分别为:95.30%、91.58%、93.40%;神经网络模型的识别结果经过优化后F值可提升1.3%~1.5%左右。综上,本文分别用CRF模型和神经网络模型两种方法实现了金融领域术语的识别。这两种方法均属于有监督学习,神经网络模型由于语料规模有限,结果略低于CRF模型,但该方法无需人工干预,已经在领域适应性和识别性能方面展示出其巨大潜力。最后,本文提出了基于信息熵的术语可信度优化模型,在上述两种方法中表现稳定良好,可作为通用的优化方法。