论文部分内容阅读
Internet高速发展使互联网成为人们获取新闻的主要途径之一。但是,面对海量的新闻报道,人们经常会迷失在信息的海洋中。人们希望能够快速准确地从海量的网络新闻报道中获得新闻热点信息,同时避免浏览大量冗余的新闻报道。然而,现有的网上新闻信息管理模式和检索方式还不能充分的满足用户的这种需求。虽然新闻网站的分类目录对新闻的浏览起到了一定的导航作用,但是这种目录一般来说都比较粗略,并且分类仅仅局限于网站内部,相对于整个Web上的新闻来说,仍然没有统一的信息组织方式;基于关键字的搜索引擎返回给用户的查询结果中通常包含大量的冗余信息,并且对于“今天发生了哪些大事”、“上一周什么事件最热门”等这样的检索需求,用户只能抽象地加以描述,无法定义准确的关键字来通过搜索引擎进行查询。
理想的解决方案是将内容相似的新闻报道组织成新闻主题的形式,自动检测并追踪新闻主题,分析新闻主题信息形成新闻热点信息,并对其进行有效组织以满足高效的信息检索和分析需求。本文正是在上述应用需求和解决思路下设计并实现了COMMIX系统中新闻热点发现子系统。
本文设计的新闻热点发现子系统基于Web文档聚类技术,结合新闻网页上相关新闻链接,对海量的新闻报道进行语义分析,自动生成新闻主题,提供基于时间的新闻热点查询功能和当日新闻热点信息主动推送功能。本系统的主要特色有:
●给出了一种评价网上新闻热点的度量准则,全面有效地衡量了网上新闻的受关注程度,定量地度量了网上新闻热点;
●探讨将网页上相关新闻链接和文本内容分析相结合的Web文档聚类方法,设计了基于频繁链接项集的聚类方法FHSC(FrequentHyperlinkSet-basedClustering),充分利用了网页的链接信息提高了聚类准确度;
●研究新闻主题簇的动态变化规律,设计了新闻主题簇能量模型NTE(NewsTopicClustersEnergymodel),利用NTE模型指导聚类,降低了聚类结果的凝聚粒度,进一步增强了聚类的准确性;
●设计了基于时间间隔的增量式聚类机制和基于网站频道聚类的策略,使系统适用于大数据量、长时间运行需求。
本文设计的新闻热点发现子系统已经在973国家重点基础研究发展规划课题的COMMIX原型系统中实现,并采用COMMIX原型系统收集提取的数据进行实验,实验结果表现出了良好的算法效率和聚类质量。