【摘 要】
:
如何快速、准确地从海量网络数据中找到有用的信息,已经成为必须面临的一个重要问题。短文本聚类作为一种信息处理方法,成为挖掘数据信息的重要手段之一。针对传统聚类算法处理具有“长尾现象”的短文本时存在特征信息不足,特征维度高,小类别信息丢失的问题和针对如何解决传统聚类算法在处理网络短文本时严重忽略短文本的外在特征导致聚类结果精度不高的问题,提出了两个不同类型的短文本聚类算法:(1)针对“长尾现象”短文本
论文部分内容阅读
如何快速、准确地从海量网络数据中找到有用的信息,已经成为必须面临的一个重要问题。短文本聚类作为一种信息处理方法,成为挖掘数据信息的重要手段之一。针对传统聚类算法处理具有“长尾现象”的短文本时存在特征信息不足,特征维度高,小类别信息丢失的问题和针对如何解决传统聚类算法在处理网络短文本时严重忽略短文本的外在特征导致聚类结果精度不高的问题,提出了两个不同类型的短文本聚类算法:(1)针对“长尾现象”短文本的频繁项协同剪枝迭代聚类算法(Frequent itemsets collaborative pruning iteration clustering framework,FIPC);(2)考虑短文本外在特征的基于二元异质网络与标签传播的短文本聚类算法(Short text clustering algorithm for binary heterogeneous networks and label propagation,HINLP)。主要工作如下:(1)分析总结了近年来国内外传统算法在短文本聚类领域的研究现状。分别从短文本特征扩展算法、短文本特征选择算法、短文本聚类算法三个方面对短文本聚类相关技术进行研究。(2)针对短文本聚类中的“长尾现象”,采用向量空间模型对短文本进行建模,选取TF-IDF进行空间降维。采用协同剪枝策略构建了协同剪枝聚类框架,同时结合K中心点算法提出优化算法FIPC,深度挖掘“长尾”部分小类别短文本信息,解决了传统聚类算法在具有“长尾现象”的短文本上进行聚类所面临特征维度高,小类别信息丢失的问题,提高了聚类结果的精确度。同时,基于频繁词筛选阈值逐步减小机制,避免了类簇重叠问题的发生。(3)针对传统短文本聚类算法没有结合短文本文本信息与社交网络信息,进而造成了在聚类结果中存在偏差的问题,提出了一种基于二元异质网络与标签传播的短文本聚类算法HINLP。算法在数据预处理阶段,深度挖掘短文本之间的外在特征(如:文本作者特征,文本转发特征等等)增强了短文本表示的精确度。在构建异质网络阶段,使用加权元路径精确地表示了短文本之间的相似性关系。在短文本聚类阶段,采用标签传播算法发现相同社区进行聚类,基于网络的有向加权特性,避免了标签随机性传播的问题发生。(4)通过与经典短文本聚类算法的实验比较证明,FIPC算法有效地解决了“长尾”短文本聚类中所面临的特征维度高,小类别信息丢失的问题。综合研究目前已有的短文本聚类算法以及网络社区发现算法,进行对比实验证明,提出的HINLP算法在提高短文本聚类精确度上具有很好的效果。
其他文献
电磁感应加热是一种重要的制造工艺,它具有效率高、输出功率控制精确、性能高等优点,目前已经广泛应用于汽车、航空、家庭以及可再生能源等工业领域。目前仍然存在的主要挑战
随着高水平大学建设的提出,国际化建设的重要性日渐得以体现。高校国际化建设推进师资队伍国际化,积极鼓励高校教师走出去,但原有流程上的弊端也逐渐凸显。高校因公出访管理
量子进化算法是一种结合了量子计算和进化算法的智能优化算法,在传统进化算法的基础上加入了量子计算的相关概念,采用量子比特编码、量子门更新的方式完成进化搜索。比传统的进化算法拥有更高的搜索效率及收敛速度,因此对量子进化算法的研究具有理论价值和应用前景。本文针对量子进化算法解决复杂优化问题的能力不强,容易陷入局部最优的缺点,采用小生境策略和粒子群算法,提出一种改进的量子进化算法,并通过标准函数和枢纽机场
混沌控制与同步问题自提出以来,已取得大量研究成果,其研究具有很高的理论和实用价值,并广泛应用到化学、生物学、电子学和信息学等不同领域;马尔科夫跳变系统属于随机混杂系统,20世纪90年代以来,由于数学理论和计算机的发展,越来越多的学者开始研究马尔科夫跳变系统,其成果广泛应用于航天航空、通信等领域.本文主要研究了,具有混合模态依赖时滞的中立型马尔科夫跳变神经网络的鲁棒自适应同步性问题和部分转移概率未知
本次模拟口译实践选取的语料是爱立信公司内部定期举行的新产品发布会,内容是对最新的6000型路由器系列产品的推广和介绍。爱立信公司是世界最大的移动系统供应商之一,能够为世界主要移动通信标准提供设备和服务,全球40%的移动呼叫通过爱立信的系统进行。本报告结合了译员的口译模拟实践录音,在释意理论和目的论的忠实原则的指导下,分析并总结了口译实践中遇到的问题,并提出了对应的口译策略。译员从词、信息段和句子三
目的:研究实体肿瘤骨髓转移患者的流行病学特点、临床特征及预后,重点分析乳腺癌骨髓转移患者的临床特征、治疗转归及预后。方法:收集自2010年10月至2018年10月在吉林大学第一医院明确诊断为骨髓转移的145例成人实体肿瘤患者及同时期36例因血细胞减少行骨髓涂片及活检排除骨髓转移的晚期乳腺癌患者的基本资料,包括患者的临床特征、血象情况、转移部位、既往治疗情况、后续治疗情况及生存时间。分析实体肿瘤骨髓
属性约简作为邻域粗糙集的关键技术,其主要思想是在不影响决策系统分类能力的基础上,将冗余的、不相关的条件属性删除。由于属性约简被证明是一个NP-hard问题,传统属性约简算法搜索空间较小,往往不能得到更小的约简集合,而与群智能算法结合的属性约简算法有着更大的搜索空间,能够得到更小的约简集合,因而研究更高效、更快速的群智能属性约简算法成为属性约简领域的主要研究课题之一。本文提出一种基于改进鱼群算法的邻
能源作为国民经济和社会发展的重要战略资源,对现代经济的发展起到了至关重要的作用,但由于能源的粗放消耗方式,给环境带来了巨大压力。目前,环境与资源之间的矛盾日益突出,而河南省作为我国重要的经济大省和人口大省,在其经济社会发展的进程中,同样也受到能源与环境的双重压力,如何提高能源的利用效率,降低污染物排放,实现能源、环境与经济三者协调发展,成为河南省未来社会发展的重中之重。论文从河南省城市能源效率与环
精准扶贫、信息化扶贫是当前我国扶贫工作的重要指导思想。互联网时代和大数据时代的到来为各行业的发展提供了机遇,同时也为扶贫工作的信息化提供了契机。当前,计算机技术应用于贫困户扶贫,主要体现在三个方面:第一,应用计算机系统有效管理扶贫信息,提高办事效率,加速扶贫进程;第二,利用大数据处理技术高效统计分析数据变化、数据指标;第三,利用机器学习技术,对贫困户数据做分类识别或预测,协助帮扶人员决策。虽然计算
猪流感病毒(Swine influenza virus,SIV)属正黏病毒科,流感病毒属,该病毒引发的猪流感(Swine influenza,SI)是一种急性呼吸系统传染病,传染性极强,并且常与猪的其他传染病并发,增