【摘 要】
:
互联网的迅猛发展、网民数量的极速增长导致网络信息呈指数级暴增,使得用户从繁杂的信息中获取关注的新闻信息越来越困难。追踪用户关注话题的后续新闻信息,可以有效节约用户的查询时间,同时可将新闻信息按话题组织分类,故话题追踪技术变得尤为重要。在信息量庞大的网络环境下,如何高效组织新闻信息是话题追踪面临的最大挑战。现有的概率话题模型主要包括潜在狄利克雷分布(Latent Dirichlet Allocati
论文部分内容阅读
互联网的迅猛发展、网民数量的极速增长导致网络信息呈指数级暴增,使得用户从繁杂的信息中获取关注的新闻信息越来越困难。追踪用户关注话题的后续新闻信息,可以有效节约用户的查询时间,同时可将新闻信息按话题组织分类,故话题追踪技术变得尤为重要。在信息量庞大的网络环境下,如何高效组织新闻信息是话题追踪面临的最大挑战。现有的概率话题模型主要包括潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)话题模型、语言话题模型、朴素贝叶斯网络话题模型和信念网络话题模型。上述模型在话题追踪时,都存在概率推导繁琐和存储推导过程中的数据占用大量空间的问题。为解决该问题,将简单贝叶斯网络检索模型的相关知识用于话题追踪,提出两个话题追踪模型。论文的工作主要包括两个方面:(1)针对概率话题模型追踪效率低、推理过程计算量大的问题,借鉴简单贝叶斯网络检索模型的思想,提出简单贝叶斯网络静态话题追踪模型(Simple Bayesian Network Static Topic Tracking model,SBNSTT模型),给出模型的拓扑结构、话题和报道相似度计算公式。SBNSTT模型是含术语和话题两层节点的有向图,图中弧的指向表明术语和话题的索引关系。话题和报道相似度的计算转换为条件概率的推导,概率推导时采用推理加估计的方法,在保证准确率的前提下,简化推理过程,提高追踪效率。(2)考虑事件是话题的子类,观察事件便于了解话题的各个方面,因此在SBNSTT模型的基础上添加一层事件节点,构建三层节点的贝叶斯网络静态话题追踪模型(Bayesian Network Static Topic Tracking model,BNSTT模型)。BNSTT模型是含术语、事件和话题三层节点的有向图,图中弧的指向表明三者的包含关系。话题和报道的相似度通过待测报道和事件、事件和话题的相似度求得。在TDT4官方数据集上验证新模型的性能。实验结果表明:SBNSTT模型的DET曲线在向量空间话题模型下方,追踪性能更好。与SBNSTT模型相比,BNSTT模型最小错误识别代价降低了1.7%,追踪性能进一步提高。
其他文献
自我修正是一种常见的会话现象,在母语交流和二语对话中经常出现。同声传译因其即席性和即时性而成为一项高难度的跨语言交际活动,因此同传过程中必然出现自我修正现象。同声传译的方向性问题在学界一直颇具争议,有学者认为从外语译入母语才能保证译文质量,有学者认为译入外语才是最佳模式。学界对于口译中自我修正现象的研究大多是对停顿、重复和不流利现象的考察,关于方向性的研究也只是聚焦于其如何影响译文质量,而对同声传
大数据时代已经到来,大数据的出现使得传统的机器学习算法无法在单机环境下完成训练。分类是机器学习和数据挖掘领域中最基本的学习任务,传统的分类算法都是在假设所处理的数据为平衡数据的前提下设计的,但在许多实际应用中,需要处理的数据常为非平衡数据。因此,研究非平衡数据分类问题,特别是大数据环境下的非平衡数据分类问题,具有重要的理论及应用价值。在非平衡问题中,根据处理数据所包含的类别数,可以将非平衡问题分为
遗嘱同其他意思表示一样,以语言文字为其载体,但语言却并非思想本身。由于立遗嘱人特殊的语言习惯以及语言的历时性等因素的存在,使得不同的解释者会对遗嘱内容有不同的认知。当出现纠纷时,法官则需要进行遗嘱解释,以定纠纷。相对于合同解释而言,我国立法及理论研究上对遗嘱解释问题不够重视,导致司法实践中存在一些问题。除引言外,本文共分为五个部分。第一部分,问题的提出。本部分的内容首先从古罗马的一则库流斯案出发,
近年来,随着市场经济的不断发展,越来越多的主体参与到了金融市场中来,不论是自然人、社会团体还是公司法人对金融服务的需求都日趋多元化,其中的融资需求也日益增加,融资目
条件推理是指根据大前提和小前提提供的信息,通过对前后件关系的判断从而推出确切结论的推理,前人围绕条件推理的形式和内容对成年人的推理机制展开了丰富的研究,认为其能摆脱具体内容的影响,更关注逻辑规则,且推理过程更符合心理模型理论。但是以往研究多采用问卷的方式研究充分条件推理,被试多以成年人为主,对于初中生在必要条件关系推理的发展情况及机制问题没有过多的讨论。那么初中作为一个过渡期其条件推理是否受推理形
当前抗菌剂的频繁使用使菌体的耐药性不断增强,极大的威胁着人类的健康和农畜牧业的发展。鉴于此,开发具有抗菌活性并能够避免菌体产生耐药性的先导化合物具有重要的应用意义
20世纪70年代,法律逻辑学的发展受到法哲学领域“实践哲学的复归”思潮的影响。同时,为了解决传统法律论证中存在的问题,实现“法的正当性”,众多学者为此提出了法律论证理论,阿列克西的法律论证理论是其中的杰出代表。阿列克西以逻辑学为基础,结合法律实践中的现实需求,提出了他的法律论证理论。阿列克西首先对法律论证的概念进行了界定,他认为法律论证就是对特殊的法律规范性命题进行证成的过程。他首先指出了传统法律
镍基高温合金GH4169是一种具有高硬度、高强度、耐腐蚀、耐高温的难加工材料,普通的刀具在车削过程中常出现刀具磨损严重,失效快,寿命短等加工问题。表面微织构被证明是一种
目的:探讨CLEC4M对鼻咽癌细胞黏附、侵袭和迁移的影响,进一步了解CLEC4M与鼻咽癌淋巴结转移之间的关系。方法:1.通过Realtime-PCR检测本实验室常见鼻咽癌细胞株及人淋巴管内皮细胞株(human lymphatic endothelial cell,HLEC)中 CLEC4M 基因的表达情况。2.将HLEC细胞分别感染CLEC4M空载、颈段7个重复序列及9个重复序列的慢病毒,并通过琼
本文对B30铜镍合金在静态和动态条件下的腐蚀与结垢性能进行了实验研究。其中在静态条件下探讨了海水中Mg2+、SO42-以及海水温度变化对于铜镍合金表面钙质沉积层形成过程的影