一个用于中文新闻主题检测与追踪的原型系统

来源 :北京大学 | 被引量 : 0次 | 上传用户:Whding713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文首先分析了主题检测和追踪技术以及文本聚类技术,并设计了针对中文新闻主体的主题检测、聚类和追踪技术.其中,在文本特征提取上改进了词的TF值计算公式;对于主题检测技术采用了基于加窗策略和动态IDF的增量式聚类算法,并改进了加窗策略;对于主题追踪技术则提出了基于查询的追踪器构造方法,在追踪器构造过程中采用了全新的特征词选择方法;对k-means聚类算法进行了改进,为避免孤立点的影响,对第n+1轮聚类中心的计算只考虑第n轮中与中心比较接近的若干点,提高了聚类结果的稳定性和准确性.该文针对现有新闻信息管理模式的缺点,提出了一种基于新闻主题的新闻信息管理模型.该模型利用主题检测技术从新闻报道流中检测出新闻主题,并对新闻主题进行聚类形成专题,使得新闻信息能按照新闻—主题—专题三个层次或更高层次进行组织和管理,同时利用主题追踪技术追踪特定的新闻主题,实现个性化服务.以内容管理系统为背景,该文设计并实现了一个主题检测和追踪原型系统,并进行了实验,分析了实验结果.最后,该文介绍了一个主题检测和追踪、聚类技术的实际应用系统——新华网数据中心的设计和实现技术.
其他文献
20世纪90年代以来,随着网络计算的普及,使得中间件技术成为了当前发展最快,应用最为广泛的网络计算技术之一,其成功典例当属Sun公司的J2EE/EJB、OMG的CORBA和Microsoft的DCOM
网络仿真技术在网络研究中所起的重要作用已引起人们越来越多的关注。目前地面网络仿真技术应用广泛,各方面都有了成熟的方法。但是具有动态拓扑和无线链路的卫星网络的仿真技
当前中国数字电视方兴未艾,各电视台正积极进行数字化改造.该文以解决演播室数字化过程中数字视音频信号传输中所存在问题为目的,在对国内外研究现状进行了深入分析地基础上,
随着互联网的迅速扩展,计算机安全事件每年也以惊人的数量增长,网络安全日益受到人们的关注。作为计算机安全中不可缺少的组成部分,入侵检测系统(IDS)已经受到广泛的应用,对其进
随着金融自由化、资本市场国际化的步伐加快,国内金融市场面临着前所未有的竞争压力。除市场结构、业务范围和经营理念外,国内金融企业与国际先进金融企业的差距还在于没有一个
随着越来越多的台式机和工作组升级为快速以太网,网络骨干上的集中通信业务量明显增长,千兆以太网成为当前主流的组网技术.但是由于千兆以太网络技术正处于发展阶段,许多技术
万维网自20世纪90年代初有了第一个真正意义上的网页之后,其信息量与日俱增,速度发展之快,是始料未及的。人们庆幸摆脱了信息匮乏的困境之余,又因为万维网的海量性、复杂性、分布
本文对自动指纹识别技术作了简要综述.研究了指纹图像处理的各种常用算法及数学形态学在指纹图像处理中的应用.本文主要从以下几个方面对指纹识别技术进行了研究:●对于指纹
软件会随着时间变得越来越难以理解,越来越难以维护。因而,程序员必须在软件失去控制前重新构造它。重构是在保持程序外部可观察行为不变情况下,对软件的内部结构进行重新改造和
随着科技的迅猛发展,很多的领域都对人脸识别技术有了迫切的需求,而人脸识别的众多方法也成为学者们的研究热点,其中基于子空间分析的方法因其效果好,计算少等优点而倍受关注