改进的话题检测和跟踪算法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:CHEUNGKWOKKUNG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题检测可以及时发现互联网舆情热点和突发性事件,并可对话题进行持续跟踪,从而实时掌握舆情事件动向。文中提出了一种基于聚类的改进话题检测和跟踪算法。首先,对文本的特征向量进行改进,增加了基于句子主干的主干向量。然后对每个检测到的话题提取两个中心向量,一个是基本中心向量,另一个是基于主干向量提炼的主干中心向量。在此基础上再通过计算每个文本与中心向量之间的距离进行聚类分析,保证话题中各个文本之间的内聚性。同时基于主题词抽取,在主题词的基础上计算话题之间的主题相关性,有效地实现了子话题检测功能,从而提高了话题检测
其他文献
直肠是结直肠发生恶性肿瘤最常见的部位,低位直肠癌发病率呈上升趋势,因恶性肿瘤邻近肛门、位于盆腔底部,保留肛门正常排便和控便及性功能、提高患者生活质量也需要考虑加入
为适应现代社会对会计人才高质量的需求,学校对其教学内容、方式方法正在努力尝试改革。笔者正是在这样的大背景下,针对会计教学中启发式教学方法做出论述。在会计课教学中采
生产函数是抽象分析投入产出关系的一个工具.用生产函数计算最大产量是生产函数的滥用,是生产函数教学上的一个误区.
良好的输入校验是成熟软件的必备条件。针对Struts2框架的Web页面服务器端校验代码难于编写等问题,文中研究将页面的数据设置到表中,由应用程序自动生成validation.xml配置文件
在一个城域网中,数字电视机顶盒在对节目进行下载的时候,拥有这个节目资源的机顶盒的数量也许有很多个,怎么才能找到最近的一个机顶盒进行节目的下载是网络负载均衡中比较重要的