基于文本微内容的信息提取和推荐技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ylh644894056
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络服务的快速发展,为用户分享和传播信息提供了极大的便利,由此产生了海量丰富的数据。而这些海量信息也为人们带来了信息过载问题。微内容以短小精悍的表达方式,对其背后完整、复杂的内容进行了描述,从而提高了人们获取信息的快捷性。如今,微内容的形式已经非常多样化,但文本形式的微内容仍然是最主流的一种形式,也是本文的主要研究对象。  微内容具有社交性、特征多样性、实时性、更新快速性等诸多新特性,给面向海量丰富的微内容的信息获取领域带来了全新的挑战。本文从用户对信息获取的需求出发,研究基于文本微内容的信息提取和推荐技术。  首先,由于传统的文档摘要方法无法处理动态、快速到达、大规模的微博流数据,我们提出一种叫做连续摘要的新方法,并设计了Sumblr系统来支持连续摘要。该系统由两个模块组成,在微博流聚类模块中,我们提出在线的微博流聚类算法,增量式地将海量的微博数据浓缩为微博类,将重要的统计信息存储在微博类向量结构中,并动态更新该结构。同时,采用金字塔型时间帧结构每隔一定时间对微博类向量的快照信息进行存储和组织,以支持获取历史微博信息。在高层次摘要模块中,提出TCV-Rank算法生成实时摘要和任意时间段的历史摘要。在大规模Twitter数据集上的充分实验验证了Sumblr系统的有效性和高效性。  其次,面对海量实时的话题相关微博流,用户需要一种自动地、在线地生成时间轴的技术,以方便他们更直观地了解话题的来龙去脉。而现有的方法无法自动地、在线地生成时间轴,因此无法处理实时的微博信息。为解决这个问题,我们提出了面向实时微博流的时间轴自动生成方法。首先提出话题演变检测算法以发现时间轴上的关键节点。然后,定义和量化了基于摘要内容的波动、基于微博量的波动和基于融合信息的波动,并分别设计其相应的检测机制。在实验中,利用真实的Twitter数据集对三种方法进行了比较和分析。  最后,我们研究基于微内容来解决个性化推荐中的新对象问题。我们提出上下文环境增强的事件推荐方法,深入挖掘事件社交网络中丰富的环境信息,整合了用户和事件的微内容信息、用户之间的线上和线下社交关系,以及用户和事件的地理位置信息。基于这些信息,提取出用户偏好、线上/线下社交影响、当地流行度等多项特征。将事件推荐问题转化为学习排序问题,聚合以上特征来对事件进行排序。基于真实的Meetup数据集的实验结果证明了方法的有效性。
其他文献
本文所要着重研究的是中文信息过滤系统及其相关问题.英文的句子以空格作为固定的分隔符,而中文中没有,这给中文信息处理带来很大障碍,所以首先对中文文档进行分词,本文采用
Internet从诞生到成为全球最大的数据网络仅经过了数十年的时间,它已经成为全球数据通信的基础,并且从根本上影响了整个人类社会的生活方式.但是随着Internet规模的爆炸性增
BPM(业务流程管理)产生于该世纪伊始,是流程自动化和系统设计领域最新的发展方向,它的发展和XML技术、WEB服务的发展紧密相关,主要作用在于帮助企业进行业务流程分析、监督和
互联网在方便人们获得各类信息的同时也刺激了不良信息的传播,带来了许多负面影响。因此有必要对网络不良信息进行监控并对其过滤。本文在对国内外研究现状进行了深入分析的基
本论文主要研究一类随机需求服从Poisson分布、最大服务失败次数允许为两次的VRP问题,主要工作如下:1.介绍了VRP问题产生的背景、发展状况、约束条件和分类以及SVRP问题的国
该文首先对Freenet技术的概况进行了介绍,并将它与其它的P2P模式做了比较,总结了Freenet技术的特点.然后对Freenet协议进行了深入的研究.通过分析发现对Freenet进行有效的管
计算机网络的安全性在确保计算机操作的有效性和存储信息的完整性方面起着至关重要的作用.网络安全漏洞是网络攻击的基础,如果系统中存在漏洞,就可能被攻击者利用并导致系统
随着计算机技术和网络通信技术的迅速发展,企业间和企业内部间的关系变得越来越复杂,工作流技术成为解决日益复杂的企业管理过程的一个较好选择.在工作流技术中,工作流过程建
车牌识别系统(LPR)在智能交通领域具有重要的地位,并广泛应用于电子收费、车辆监控、停车场管理等领域。但现有的车牌识别方法应用场景比较单一,难以适用于多场景的多车牌识别,
近年来,神经网络已经在各个领域中得到了广泛的应用,特别是在模式识别、经济等领域中的应用.本课题研究目的是对电子商务供应链管理过程中的创新性产品库存进行研究,采用神经