面向社会媒体短文本的话题分析与演化建模

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:l87521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,社会媒体快速发展,成为人们沟通交流、表达观点、查找与分享信息的重要的渠道。很多社会媒体数据以短文本的形式呈现,如微博、状态信息等。对社会媒体短文本进行话题分析与演化建模可以帮助人们更好的分析和理解社会媒体数据,掌握社会热点,把握舆论态势,在政府决策、公共安全和商务智能等领域具有十分重要的研究意义和应用价值。本论文面向社会媒体短文本这一重要的数据形式,对话题分析与演化建模这一文本挖掘的重要课题展开研究。本论文从话题检测、话题层级结构构建和话题演化建模三个方面对社会媒体短文本进行话题分析,并采用真实的社会媒体数据集,如Twitter数据集和微博数据集,对提出的话题分析与演化建模方法进行了有效性验证。  本论文的主要贡献包括:  1.在话题检测方面,针对以往研究工作存在的需人为确定话题数目、受短文本数据稀疏影响较大等问题,本论文结合非参贝叶斯方法和词共现建模思路,提出一种适用于社会媒体短文本、可自动确定话题数目的非参话题检测模型npCTM;为有效提升话题检测的质量,模型在建模过程中融合文档集的词汇共现信息并结合词汇类型分布,实现对背景话题和普通话题的区分;基于真实社会媒体数据集,实验验证了该方法在短文本话题检测上的有效性;  2.在话题层级结构构建方面,针对以往研究工作在表达复杂语义、设定话题层级参数、处理短文本数据等方面存在的问题,本论文提出了一种适用于社会媒体短文本、可自动构建话题层级结构的方法TCM;该方法利用树结构表达层次结构语义明晰的特点,通过自下而上扩充树结构进行层级结构构建;以检测到的话题为基础,提出话题树的树间相似度和树内相似度的计算方法,并据此设计话题树的合并模式,通过迭代求解得到完整的话题层级结构;基于真实社会媒体数据集,实验验证了该方法在短文本话题层级结构构建上的有效性;  3.在话题演化方面,针对以往研究工作存在的需人为设定话题数目,不同时段话题数目相同,无法根据文本内容自动调整,受短文本数据稀疏影响较大等问题,提出一种适用于社会媒体短文本、可自动确定不同时段话题数目的非参话题演化模型sdTEM;将词嵌入向量和非参贝叶斯方法结合,提出一种新的非参话题演化先验,即循环语义依赖CRP过程(rsdCRP),以帮助模型自动确定各时段的话题数目;进而将rsdCRP和适用于短文本的词共现建模思路结合来构建话题演化模型sdTEM;基于真实社会媒体数据集,实验验证了该方法在短文本话题演化建模上的有效性。
其他文献
运动目标的检测的研究内容包括视频或图像序列的采集、图像处理、目标位置的确定、目标的识别、目标运动的跟踪等。运动目标检测需要分割前景目标和背景图像,检测图像中的运
经过近二十年的发展,我国的医疗机构信息化建设已经取得了长足的发展,各地已建成了不同规模的医疗信息系统以实现医疗信息的数字化管理。然而由于医疗系统的主要功能是提供医
本论文研究了Hammerstein系统的子空间辨识方法(SIMs),主要的问题集中在秩的限制及相关的维数问题。本论文分析了秩的限制对子空间辨识方法统一框架的三个步骤所产生的影响:
多率现象在过程工业,特别是化工过程中普遍存在。由于技术、资金或环境等条件的限制,过程数据的采集常呈现出多频率的特性,采用常规的单率控制策略无法快速抑制来自输入信号、过
融合了移动机器人可移动性和机械臂可操作性的移动机械臂,比非操作型的移动机器人或工作范围受限的机械臂拥有更多的自由度和更广的操作空间,是近年来机器人领域的研究热点。移
人脸与行人识别是生物识别与安全技术领域中的关键技术。实际应用中,由于光照、姿态、模糊、低分辨率、遮挡等因素的影响,人脸与行人数据往往包含着多种噪声,并由此带来较大的类
随着科技的发展和社会的进步,无论在生产、生活方面,亦或是军事、科研领域,人们对产品性能或其可靠性的要求越来越高.可靠性在产品的开发、设计和操作阶段都是非常重要的概念
学位
为推动水中机器人技术发展和提高机器人比赛水平,本文基于MicrosoftRobotics Studio(MSRS)设计并实现了一种机器鱼水球比赛实时仿真系统。基此系统可测试机器鱼控制指令与关
随着生产自动化水平的日益提高,企业对产品质量的要求越加严格,基于机器视觉的检测技术以其非接触、精度高、速度快、成本低等优点逐渐被企业所了解和接受。基于视觉的物料识
学位
随着我国航天科技工业的飞速发展,我国航天科技工业政策体系的调整与完善需求也愈发紧迫,研究与我国航天科技工业发展相适应的政策体系为本文的研究目的。   本文以公共政
学位