【摘 要】
:
随着互联网的发展,网页数据以及新媒体文本等数据日益增多,全文信息检索的效率已经不足以支撑海量数据的检索,从而关键词抽取技术广泛的应用于搜索引擎(如百度搜索)和新媒体服务等领域(如新闻检索)。传统关键词抽取方法依据文档中词语的上下文信息与语法信息判断词语的关键性。这种算法简单而有效,但是无法获取文档中的深层信息与特征,在抽取效果上无法达到人工抽取的精度。针对以上问题,本文提出一种包含多元特征信息与多
论文部分内容阅读
随着互联网的发展,网页数据以及新媒体文本等数据日益增多,全文信息检索的效率已经不足以支撑海量数据的检索,从而关键词抽取技术广泛的应用于搜索引擎(如百度搜索)和新媒体服务等领域(如新闻检索)。传统关键词抽取方法依据文档中词语的上下文信息与语法信息判断词语的关键性。这种算法简单而有效,但是无法获取文档中的深层信息与特征,在抽取效果上无法达到人工抽取的精度。针对以上问题,本文提出一种包含多元特征信息与多元方法结合的融合模型,从两个方面对关键词抽取模型进行改进与优化:1.提出一种将多种算法与神经网络模型结合的融合模型。针对TF-IDF与Text Rank两种传统算法进行归一化平滑优化,从而使两者结果可进行对比并混合使用。使用Bi LSTM模型对输入文档进行关键词标注,并结合条件随机场进行优化。为解决深度学习模型泛化性不足的问题,本文使用传统关键词抽取模型的结果对深度学习模型进行反馈训练,从而不断优化融合模型的综合效率。经过实验论证,基于融合模型的关键词抽取在与传统模型的对比中F1值提高了21.02个百分点,与目前流行的Bi LSTM-CRF序列标注模型相比提高了5.05个百分点。2.提出一种将多种人工特征与Bi LSTM-CRF模型融合的算法,并提出更加适合本文融合模型的“LMRSN”序列标注方法。融合模型采用多种算法采集文档的词性、词频、词长、词位置等特征,将人工特征与词嵌入层进行混合编码得到包含人工特征的词嵌入向量。多维度的特征信息可以更加全面的辅助模型提取到关键词的深层特征信息。并且在处理标注任务时,本文提出使用“LMRSN”方法进行标注,从而有效解决无法抽取关键短语的问题。在完成关键词抽取技术的研究后,本文继续研究关键词的应用方向,将基于融合模型的关键词抽取技术应用于新闻推荐任务,提出多种有效的候选新闻文档选取方法与新闻文档间推荐指数的计算方法,并最终用实验的方式论证了基于融合模型的关键词抽取技术应用的有效性。
其他文献
图像分类是计算机视觉领域中的重要研究课题之一,它已经在多个领域得到了成功的应用,受到了国内外学者们越来越多的关注。图像分类是指根据某种分类规则将图像自动分到一组预定义类别中的过程。图像分类已经被广泛研究,大量图像分类算法被相继提出。概率混合模型因其表达能力强而受到了极其广泛的关注,并成功应用于分类问题,其中包括图像分类。在基于概率混合模型的分类方法中,选择一个合适的概率分布作为基础分布来描述数据的
在日常生活中,人与人之间最简单、最有效的沟通方式就是面对面交流,但除了语言沟通外,面部表情也可以传递和表达出个体的信息,达到沟通的目的。如今,人们为了追求更好的人机交互体验,表情作为重要的沟通手段,表情识别逐渐成为重点研究课题。传统表情识别算法虽在小样本任务中具有好的表现,但人脸表情复杂,个体间的差异性无法仅靠底层特征去描述,导致识别精度较低,泛化能力差。并且传统识别方法需要科研人员手工提取特征,
鳍式场效应晶体管(FinFET)是目前半导体行业中16/14技术节点中的主流器件结构。然而,随着晶体管器件尺寸的不断缩小,硅基FinFET技术的改进变得愈发困难,引入新材料也势在必行。作为可以替代的沟道材料,高迁移率沟道近年来愈来愈收到人们的关注。其中SiGe材料由于其具有比硅材料更高的空穴迁移率,可以替换Si基P型FinFET的沟道。但是对于新的沟道材料,特别是与已建立的硅技术的相互作用,存在许
近年来随着数字化、信息化技术的发展,对智能设备应用范围不断扩大。对于传统制造行业,完成智能化改造是提高生产效率、优化产业结构、降低环境污染的最优途径。水泥是经济建设的基础材料,其主要的生产设备为回转窑。为优化行业内水泥生产工艺,并提供一种可靠的智能化改造思路,本文以水泥回转窑作为研究对象,对其系统状态数据、生产工艺参数等内容进行研究。结合虚拟仪器、工业物联网等技术,设计一种状态监控及故障断系统解决
空蚀是一种常见水力现象,会造成材料表面破坏,机械性能下降、产生噪音和振动。这不仅影响设备的正常运行,还会降低其使用寿命,造成巨大经济损失。目前空蚀影响因素和诱发机制尚不明确。因此研究空蚀的影响因素和诱发机制对抑制和利用空蚀有深远的意义。本文使用超声振动空蚀实验装置,系统的研究了实验条件、微颗粒、润湿性对超声空蚀的影响。采用空蚀坑数量法表征了空蚀的破坏程度。使用激光共聚焦显微镜结合Image J软件
钛合金因为其具有较高的强度、密度低等性能,并且作为一种新型金属材料被广泛的应用在航天航空、军事兵器、石油化工、生物医疗、船舰及机械加工等领域。但是由于钛合金存在一定的缺陷,比如:高温易氧化、摩擦磨损性能差、硬度低、组织不稳定等,所以其应用范围有了一定的局限性。对钛合金进行表面处理制备出硬度高耐磨性良好的熔覆层来弥补其缺陷已经成为了研究领域的热点之一。激光熔覆技术作为一种新型的表面处理技术,除了含有
本论文以ZnO-Mg O-Al2O3-SiO2体系为研究对象,通过分别掺杂了过渡离子Co2+和稀土离子Nd3+,采用熔融法和热处理制备了透明微晶玻璃,研究了热处理工艺参数对微晶的形核与生长、微晶玻璃的组织结构和光学性能的影响。结果表明,热处理时间会影响微晶玻璃中尖晶石相的析晶程度,导致了更多掺杂离子聚集在尖晶石相中,进而影响微晶玻璃的光学性能。制备了Co2+离子掺杂的ZMAS体系的透明微晶玻璃,由
随着IOT服务的规模不断扩大,在云-边-端架构下IOT服务呈现松散分布、海量独立等特点。除了传统的基本信息外,IOT服务带有典型的位置信息以及由此产生的服务之间具有位置关联、数据关联、控制依赖等关联关系信息。在此背景下,传统的服务集中式管理显然无法高效管理大规模分布且多关联关系的IOT服务,所以IOT服务的分布式管理是必然趋势。如何设计一个与云边端架构相适应且有利于提升服务发现和管理效率的IOT服
伴随着大数据和云计算技术的快速发展,数据量随之增大,这种趋势给资源受限用户带来巨大挑战。为降低存储负载,用户常会将文件上传到云服务器。然而,文件中可能包含敏感数据,很多用户会在外包数据前执行加密操作,生成大量密文,但密文过多不利于检索和解密。由于可搜索加密技术允许用户在密文中进行搜索,近年来得到广泛应用,提供便利的同时也带来一些隐患。首先,原始的可搜索加密在实际应用中存在交易不公平性:用户需要先支
随着农业科技的发展,人们早已解决了温饱问题,追求更高的生活质量,因此如何确保绿色、无公害、安全的食品是目前的主要问题,尤其是国际重大活动或会议的食品来源,更应该确保安全。但是目前大多数食品溯源系统主要包括四个缺点:1、食品溯源信息完整性不够;2、溯源系统多是中心化,导致溯源信息易篡改、删除、伪造;3、溯源信息传输安全性低,信息易被截取、泄漏;4、大多数食品难以做到对单个食品进行追溯,溯源效率低。导