论文部分内容阅读
由于现代网络的流行,人与人之间的交流已经不仅仅是停留在现实环境中,网络社区在日常生活中逐渐形成。随着网络世界越来越发达,网络社区的规模也越来越壮大,覆盖面越来越广。网络社区具有其独特属性即超越时空性,人们可以不受时间和地域地限制在这一平台彼此沟通,从而在网络社区中产生大量的信息。通过网络社区中的信息能够反映出人们现实需求、价值观及世界观等。因此对网络社区中信息地研究具有较深远的意义。
在国内外,为从网络社区中提取热点话题,通常利用最为简便的统计数据方法如浏览数或者回帖数等来判断其关注度。此方法能够在一定程度上反映其影响力,然而也有不足之处:由于网络社区基本不会设置门槛,人人都可以是社区的成员,如此便会出现大量的灌水现象或者有害的信息。因此仅依靠数据已不能够准确地反映信息的价值,而是应该进一步从信息的内容出发。
本文主要围绕网络社区信息的处理,内容的分析和价值的评估进行研究,最终从社区中提取出高影响力主题。在网络社区中能够表达信息语义的最小单位是词语,因此如果能够从社区中提取出关键词则就类似于从中提取了有价值的信息。
首先需要对信息进行分词处理,将能够表达句子语义的词语保存下,提取词语的准确率高低会在一定程度上影响主题选择的效率。
其次利用词语权重公式计算每个词语的权重值,根据主题内的权重值来提取高权词。主要依照网络社区信息存储的方式对传统权重计算公式TF*IDF进行了适当的修改,使其将词语出现位置纳入考虑因素即词语位置因子。
然后通过改进后的内容影响力传播模型IDM计算高权词的影响力并从中选择高频词语。此时高频词便被认为是网络社区中关键词。关键词语间必定会存在关联,因此本文进一步探讨词语间关联度,将关联度高的关键词进行聚类。
最后还通过计算词语的CHI统计量进一步提取潜在高KEY词并添加到聚类中,从而在社区中提取出高影响力主题。
经分析,本文的高影响力主题提取系统能够较好的弥补传统数据统计方法的不足,从根源杜绝通过灌水来提高帖子人气的现象,并且能够在一定程度上观察出近期社区信息的走向。