COMMIX系统中新闻热点发现子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:TDM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet高速发展使互联网成为人们获取新闻的主要途径之一。但是,面对海量的新闻报道,人们经常会迷失在信息的海洋中。人们希望能够快速准确地从海量的网络新闻报道中获得新闻热点信息,同时避免浏览大量冗余的新闻报道。然而,现有的网上新闻信息管理模式和检索方式还不能充分的满足用户的这种需求。虽然新闻网站的分类目录对新闻的浏览起到了一定的导航作用,但是这种目录一般来说都比较粗略,并且分类仅仅局限于网站内部,相对于整个Web上的新闻来说,仍然没有统一的信息组织方式;基于关键字的搜索引擎返回给用户的查询结果中通常包含大量的冗余信息,并且对于“今天发生了哪些大事”、“上一周什么事件最热门”等这样的检索需求,用户只能抽象地加以描述,无法定义准确的关键字来通过搜索引擎进行查询。 理想的解决方案是将内容相似的新闻报道组织成新闻主题的形式,自动检测并追踪新闻主题,分析新闻主题信息形成新闻热点信息,并对其进行有效组织以满足高效的信息检索和分析需求。本文正是在上述应用需求和解决思路下设计并实现了COMMIX系统中新闻热点发现子系统。 本文设计的新闻热点发现子系统基于Web文档聚类技术,结合新闻网页上相关新闻链接,对海量的新闻报道进行语义分析,自动生成新闻主题,提供基于时间的新闻热点查询功能和当日新闻热点信息主动推送功能。本系统的主要特色有: ●给出了一种评价网上新闻热点的度量准则,全面有效地衡量了网上新闻的受关注程度,定量地度量了网上新闻热点; ●探讨将网页上相关新闻链接和文本内容分析相结合的Web文档聚类方法,设计了基于频繁链接项集的聚类方法FHSC(FrequentHyperlinkSet-basedClustering),充分利用了网页的链接信息提高了聚类准确度; ●研究新闻主题簇的动态变化规律,设计了新闻主题簇能量模型NTE(NewsTopicClustersEnergymodel),利用NTE模型指导聚类,降低了聚类结果的凝聚粒度,进一步增强了聚类的准确性; ●设计了基于时间间隔的增量式聚类机制和基于网站频道聚类的策略,使系统适用于大数据量、长时间运行需求。 本文设计的新闻热点发现子系统已经在973国家重点基础研究发展规划课题的COMMIX原型系统中实现,并采用COMMIX原型系统收集提取的数据进行实验,实验结果表现出了良好的算法效率和聚类质量。
其他文献
服务组合作为面向服务的计算(Service-Oriented Computing,SOC)和面向服务的体系架构(Service-Oriented Architecture,SOA)中的关键技术,一直以来都是服务计算领域倍受关注的焦
目前,随着互联网络的飞速发展,分布式拒绝服务(DDOS)攻击的危害日益严重,已达到泛滥的程度,DDOS攻击已成为互联网上最具威胁的恶意攻击之一。因此,DDOS攻击的检测和防御是当前安全
随着软件设计结构和代码的复杂化,在软件开发过程中,调试技术越来越重要。调试器,特别是源代码级调试器是目前最方便的调试方式,它可以提供程序源代码、栈、反汇编代码、断点、寄
Web服务具有松散耦合,互操行性强和平台无关等特点,是面向服务体系架构SOA的主要实现方式。基于XML的SOAP协议是Web服务的核心协议之一,它是独立于特定编程语言和平台的可扩展消
本文研究目的是在计算机和手持工具之间或者计算机之间实现数据信息同步时,对数据进行保护。为了验证此目的,运用两台计算机,其中一台配置成SyncML服务器,另一台配置成SyncML客户
随着计算机技术的不断发展,Web已成为人们获取信息的一个重要途径。由于信息技术的高速发展,Internet上的信息资源呈指数膨胀,面对海量数据人们不得不花费大量的时间去搜索、浏
概率主题建模是发现数据中隐藏的主题结构的一类方法。在概率主题建模中引入数据本身具有的标注信息,将无监督概率主题建模拓展成为监督概率主题建模,是概率主题建模的一个重要
本文介绍了一种新型时间自动机模型——有限精度时间自动机。它介于离散时间自动机和连续时间自动机之间,可以描述异步系统并进行相关性质的验证。所谓“有限精度”,是指有限精
数据中心能耗控制与应用服务质量(QoS)优化是当前云计算产业面临的关键问题。在保障应用QoS的前提下,优化整个数据中心资源组合与分配方式,将不同资源需求的应用程序环境(AEs)
目前,我国在许多商业和政府机构、通讯、医院、保险行业中,票据处理是个繁重的劳动。长期以来,票据管理工作因管理手段落后,各类票据的打印、整理、装订和归档需要花费大量的