基于网络社区的高影响力主题的发现及应用

来源 :陕西科技大学 | 被引量 : 0次 | 上传用户:zhang_250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于现代网络的流行,人与人之间的交流已经不仅仅是停留在现实环境中,网络社区在日常生活中逐渐形成。随着网络世界越来越发达,网络社区的规模也越来越壮大,覆盖面越来越广。网络社区具有其独特属性即超越时空性,人们可以不受时间和地域地限制在这一平台彼此沟通,从而在网络社区中产生大量的信息。通过网络社区中的信息能够反映出人们现实需求、价值观及世界观等。因此对网络社区中信息地研究具有较深远的意义。   在国内外,为从网络社区中提取热点话题,通常利用最为简便的统计数据方法如浏览数或者回帖数等来判断其关注度。此方法能够在一定程度上反映其影响力,然而也有不足之处:由于网络社区基本不会设置门槛,人人都可以是社区的成员,如此便会出现大量的灌水现象或者有害的信息。因此仅依靠数据已不能够准确地反映信息的价值,而是应该进一步从信息的内容出发。   本文主要围绕网络社区信息的处理,内容的分析和价值的评估进行研究,最终从社区中提取出高影响力主题。在网络社区中能够表达信息语义的最小单位是词语,因此如果能够从社区中提取出关键词则就类似于从中提取了有价值的信息。   首先需要对信息进行分词处理,将能够表达句子语义的词语保存下,提取词语的准确率高低会在一定程度上影响主题选择的效率。   其次利用词语权重公式计算每个词语的权重值,根据主题内的权重值来提取高权词。主要依照网络社区信息存储的方式对传统权重计算公式TF*IDF进行了适当的修改,使其将词语出现位置纳入考虑因素即词语位置因子。   然后通过改进后的内容影响力传播模型IDM计算高权词的影响力并从中选择高频词语。此时高频词便被认为是网络社区中关键词。关键词语间必定会存在关联,因此本文进一步探讨词语间关联度,将关联度高的关键词进行聚类。   最后还通过计算词语的CHI统计量进一步提取潜在高KEY词并添加到聚类中,从而在社区中提取出高影响力主题。   经分析,本文的高影响力主题提取系统能够较好的弥补传统数据统计方法的不足,从根源杜绝通过灌水来提高帖子人气的现象,并且能够在一定程度上观察出近期社区信息的走向。
其他文献
在众多的陶瓷生产工艺过程中,陶瓷配方发挥了极其重要的作用,如果配方计算不准确,将影响到整个陶瓷制品的质量。由于陶瓷具有复杂的物理性能和化学工艺,采用传统经验配方已经不能
压缩传感突破了奈奎斯特定理中要求采样率不小于最高频率两倍的瓶颈,在信号处理领域中具有广泛的应用前景。本文在学习压缩传感理论和重构算法后,对贝叶斯压缩传感算法进行了
由于国内外高等院校已经普遍深入开展网络教学,通过网络教学平台的使用,彻底改变了传统的面对面教学模式,可以实现在线学习、交流、资源共享以及答疑解惑等功能,提高了学习效
随着信息技术的发展,Web服务越来越多地被企业用于各种业务应用,将多个Web服务按照一定的流程组合起来形成组合服务,是用Web服务实现业务流程的主要形式。在服务计算中,一个业务
形态学联想记忆和传统的联想记忆相比有很多优点,如不仅能处理二值模式还能处理实值模式,良好的抗膨胀噪声或腐蚀噪声的性能,对于自联想无限的存储能力,一步回忆记忆等。当然
传统无线mesh网络大都假定网络节点在二维或三维空间随机分布,然而有大量应用具有特殊的网络拓扑结构:线状拓扑,如高压输电线路在线监控系统,路灯节能控制系统等。线状mesh网
智能规划是人工智能的一个重要分支,是智能代理和自主机器人发展的核心领域。近年来,确定性规划理论取得了巨大进展,目前的研究热点在于将确定性规划技术引入到非确定规划问题中
随着互联网的迅猛发展和普及,P2P流媒体近年来获得了极大的关注。流媒体以其丰富的内容和特有的实时性,对人们的工作和生活产生深远的影响。最近几年,CoolStreaming、PPLive
下一代无线网络具有网络异构和全IP等特性,移动终端在不同的网络中移动时,如何管理移动终端,使其保持业务的连续性称为移动性管理。网络层中的移动IPv6解决方案因其与下层具
自主导航问题是移动机器人研究领域中的关键技术之一,其中避障路径规划高效算法的研究,长期以来一直受到人们的关注和重视,是实现移动机器人完全自主运动的关键。在以往的机器人