中文新闻多文档文摘关键技术研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:lonlinyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的迅速发展和普及,人们获得的信息日益丰富,如何从这些丰富的信息中快速、准确的获取有用的信息,如何从海量的文档中抽取出事件发展的趋势报告等变得越来越重要,客观需求使多文档自动文摘成为自然语言处理领域的一个研究热点。  目前在多文档文摘的主要建立在单文档文摘的基础上,但这种做法主要关注文档内部的关系,忽略了文档间的联系,因此在抽取多文档文摘上存在着其先天不足,如何平衡主题文摘覆盖率与冗余度是本文的研究重点。本文采用两种方法抽取中文新闻多文档文摘,基于主题的方法和基于聚类的方法,主要研究工作如下:  1)针对中文新闻的特点提出了一种联合权重算法建立向量空间模型,两种方法均采用此方法产生的向量空间模型,考虑到了新闻报道的时间、标题等特点,克服了采用原始的TF*IDF建立向量空间模型的弊端。  2)基于主题抽取的方法中采用HOWNET来计算文档主题聚合度,在聚合度的基础上进一步的获取文档间的相关度及文档主题重要度等特征,采用以MMR为基础针对中文新闻文档的方法抽出主题文档,进而抽选出主题文摘。  3)在分析基于主题抽取方法在处理文本多样性上的不足后,采用了基于聚类的方法,用语义向量空间代替文本向量空间解决了同义项合并的问题,提出最大覆盖圆的概念改进了K-means聚类算法,使其能够自动的确定初始主题单元的数量。  上述两种方法是对多文档文摘技术的初步探索,取得了一定的成果,通过大量的实验,并进行大量的横向、纵向的对比,找到各自的优缺点及所适应的语料特点。相信中文新闻多文档文摘技术会有更大的发展空间。
其他文献
时-频分析是信号处理中的重要手段之一。作为经典的时频分析工具Fourier变换建立了信号从时域到频域的桥梁。但它反映的只是整个信号在全部时间下的整体频域特征,而不能提供
在21世纪,以网络通讯技术和多媒体技术为核心的信息技术的迅猛发展在社会的许多领域中引发各种深层的变革,从而加速了人类迈向信息社会的步伐。教育信息化是当今世界教育发展
本文对NTFS文件系统进行了较为深入的研究,系统论述了NTFS文件系统中的各主要的数据结构,并动态分析了NTFS文件系统中各数据结构之间协调工作的原理,并且设计了一个嵌入式NTFS文
随着HT-7、EAST托卡马克物理实验的不断深入,更多的物理论断应用到实验中来,数据量较过去有了爆发性的增长,信号采样频率、数据存取速率、网络带宽等方面都有了新的要求。不
学位
专利信息作为重要的信息资源,越来越受到人们的重视。目前,专利分类采用传统的手工分类方法,存在分类周期长、费用高、效率低、一致性差等缺点。近年来,随着专利申请数量的迅
车身是汽车各大总成中极为重要的一部分,新车型的开发首先是新车身的开发,其开发周期,制造成本约占整车的50%左右。车身外形各曲面片要求光滑拼接,圆滑过渡,遵从光顺原理,其
基于计算机网络传输的远程数字视频监控系统弥补了传统监控系统因专线布局而限制传输距离的不足,使监控主体与客体摆脱了地理位置的束缚,理论上可以相隔任意远的距离,只要通过计
现今标准领域成为一个热门话题,我国在标准领域起步较晚,所以我们要参考国际先进的标准技术信息研制情况从而制定有利于我国标准发展的政策。参考热点信息所具有的行业属性情况
树木的模拟是计算机图形学在林学可视化领域应用的前沿课题之一,树木的形态结构在其生长过程中起着重要的作用,在树几何建模的过程中,真实地模拟树木枝条的自然弯曲状态是一
近年来,伴随着互联网的快速发展,如何有效获取网络信息和互联网资源的增长之间的矛盾日益突出。通用搜索引擎简单的宽度优先或深度优先搜索策略,由于需要遍历网络中的所有资