基于兴趣的博客挖掘研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:jjJJ012689
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,人们对信息的获取途径也逐渐增多,从传统的媒体转向互联网,越来越多的用户习惯通过网络来寻找他们所关心的信息。与此同时,网民也开始习惯于在网络上记录生活、展现自我,博客正是在这样的背景下出现并成长起来的。 针对博客领域的挖掘研究随着博客的不断普及逐渐引起科研人员的重视,同时对于博客作者的兴趣信息的提取和利用也开始吸引学者们的目光。因而,如何以兴趣为基础,更好的对博客数据进行挖掘并得到我们需要的信息已经成为博客挖掘领域的新课题。 本文针对基于兴趣的博客挖掘若干问题进行了研究,主要工作包括以下几个方面: (1)将博客作者兴趣用于博客圈的自动构建。在对传统以文本内容相似度为依据的博客圈构建方法进行分析的基础上,提出了一种利用作者兴趣自动构建具有明确类别的博客圈的方法。该方法以作者的兴趣类别取代传统方法中的文本内容,通过对作者兴趣的聚类得到对应的博客圈。这样生成的圈子不仅可以明确知道其类别,而且圈内的成员都具有相同或者相似的兴趣集合,从而实现了真正意义上针对具有共同兴趣爱好的博客作者而构建的博客圈。 (2)提出了基于兴趣的信任传递模型。通过将兴趣信息引入到博客社区的信任传递问题当中,利用兴趣作为领域因素来引导信任信息的传递过程,从而对传统的信任传递模型进行了扩展和改进。基于兴趣的信任传递模型充分发挥了兴趣在该领域的重要作用,使得信任信息严格的在相同领域传播,其提高了信任传递的有效性和正确性,避免了许多不必要的冗余传递,在一定程度上降低了预测信任关系算法的时间复杂度。 (3)提出了一种以访客评分为基础,以评论和访客兴趣为补充的博客排名方法。在已知作者兴趣的情况下引入了熟知度的概念,并结合访客评论信息对访客评分进行修正,计算出改进的博客综合得分。此外,还使作者的自身得分参与到博客得分的计算当中,进一步提高博客得分计算的可信度。实验结果表明,作者的兴趣和自身评分都对博客排名的改进起到了一定的作用,这也为博客排名研究提供了新思路。 本文所做研究的创新之处在于将作者的兴趣信息引入到部分博客挖掘问题当中,并对传统的方法进行了改进,提出了基于兴趣的解决方案,从而为相关问题的研究提供了新思路。
其他文献
随着数字多媒体技术以及因特网技术的飞速发展,多媒体产品的安全问题成为目前一个相当重要而又富有挑战性的研究课题。数字水印技术是实现数字产品版权保护的一种有效方法,目
隐蔽信道是互联网安全的巨大威胁之一。在学术上,对于隐蔽信道的研究分为构造和检测两个方向。构造方作为检测方的对立面希望通过研究隐蔽信道的特性以促进和丰富检测手段。
随着计算机技术的发展和普及,各行业的管理手段从人工逐步转变成自动或半自动方式。本文探讨对ICU监控屏幕字符图像进行实时采集、识别、记录相关信息的技术,以提高工作效率,
目标跟踪做为数据融合问题的一个典型应用,受到了学术界的广泛关注。它的主要目的是确定监测区域内目标的位置、个数、速度等。随着无线传感器网络的发展,基于无线传感器网络的
本论文的主要工作是在研究了基于ARM9体系结构的Samsung S3C2410处理器的基础上,并以该处理器为核心,加上外部存储器和音频编码解码芯片等器件,完成了一个嵌入式音频系统的硬
在无线网络中,系统资源的总量总是要小于对其的需求量,资源共享是不可避免的。有共享就有分配,如何使用无线资源管理的各种方法对复杂的无线物理信道、网络资源进行合理配置,完善
在当前的基于统计的翻译方法中,双语语料库的规模、词对齐的准确率对于翻译系统的性能有很大的影响。虽然大规模语料库可以改善词语对齐的准确度,提高系统的性能,但同时会以增加
入侵检测技术是继传统的安全保护措施之后新一代的安全保障技术。作为信息安全保障中的一个重要环节,它很好地弥补了访问控制、身份认证等传统机制所不能解决的问题,对计算机和
在近半个世纪以来,专家系统技术已经获得了迅速发展,广泛地应用于社会中的各个领域。但是专家系统在其发展过程中还有许多待解决的问题,例如:知识获取的“瓶颈”问题;不具有联想记
随着嵌入式实时系统的广泛应用,使用“防”、“检”思想来实现安全性的传统信息系统安全技术,如防火墙、入侵检测等,由于存在增加系统整体风险的问题已不能满足系统安全需要