论文部分内容阅读
为了从大量微博信息中提取重要事件并预测发展趋势,基于微博的地理特征和时间特征,提出了一种对微博进行聚类和索引的多层次方法。该方法使用X均值聚类,根据用户输入的关键词建立索引,并根据索引自动评估聚类的数量。同时,基于情感特征对微博进行聚类,创建包含负面情感微博和正面情感微博的两个聚类。实验结果表明,所提索引机制不仅便于搜索,而且有利于检索任务。与其他微博聚类方法相比,所提方法在DBI指标和S系数两个指标上均有更好的表现,且时间复杂度较传统方法更低,与输入数据量的对数成正比。