金融领域术语识别的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:yangsh1967
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语识别是信息处理领域的基础研究任务之一,快速识别金融领域术语对金融领域的文本挖掘、信息抽取、舆情分析等任务有很高的应用价值。目前术语识别任务多采用机器学习方法,而现有机器学习模型的特征选择过程繁琐且多依赖于人工参与,后处理规则的制定多依赖于特定语料而不具有通用性。本文提出一种新的金融领域术语识别方法,该方法首先使用两类机器学习模型初步识别金融术语。第一类是传统的浅层机器学习模型—CRF模型,本文仅选择了简单基础的特征。第二类是代表性的神经网络模型—LSTM模型,该模型避免了传统循环神经网络在学习远距离信息时出现的梯度弥散问题。同时,本文也尝试了LSTM模型的典型变体—GRU模型,并把其记忆单元拆分为左右新记忆单元,在相同的参数条件下,改进的GRU模型F值可达88.13%,比基本的GRU模型结果高出0.68%。其次,本文使用基于信息熵的术语可信度模型优化上述识别结果,该模型利用基于边缘概率的信息熵公式,筛选出属于特定错误类型的候选术语,从而对候选术语的处理更有针对性;过滤候选术语时将词转换为蕴含丰富语义信息的词向量,通过计算语义相似度与传统的互信息方法互为补充,可以过滤得到高质量的金融领域术语。实验证明,该优化方法不但有利于提高召回率,还能够提高术语结构的完整性,可作为通用的过滤方法。在金融领域的语料上,CRF的识别结果经过优化后准确率、召回率和F值分别为:95.30%、91.58%、93.40%;神经网络模型的识别结果经过优化后F值可提升1.3%~1.5%左右。综上,本文分别用CRF模型和神经网络模型两种方法实现了金融领域术语的识别。这两种方法均属于有监督学习,神经网络模型由于语料规模有限,结果略低于CRF模型,但该方法无需人工干预,已经在领域适应性和识别性能方面展示出其巨大潜力。最后,本文提出了基于信息熵的术语可信度优化模型,在上述两种方法中表现稳定良好,可作为通用的优化方法。
其他文献
区别于中小学课程体系安排,大学课程体系留给教师和学生共处的时间普遍缺乏,因此,教师给予学生们的个性化、人本化的关注严重缺失,如何弥补这样的缺失是本文研究的重点。本文
公路施工会使用到大量的沥青混凝土,在长期使用后,会出现水破坏、坑槽、裂缝、车辙等病害,严重影响了公路交通品质,埋下了安全隐患。分析了沥青路面质量问题,全面提出沥青混
选用高效镇痛药双氢埃托啡(DHM99),强镇静、安定和肌松药保定宁、氟哌啶醇,进行了动物麻醉合剂的组合研究。通过正交试验筛选出最优组合为每毫升合保定宁60mg、DHM994μg和氟