面向历史网页查询与展示的主题生成及自动摘要技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:ade4444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,越来越多的网页成为了历史网页,这些网页虽然很少能被查询到,但其中依旧蕴藏着丰富的知识。中文历史网页库(Web InfoMall)保存了超过50亿的中文历史网页,如何从这些网页中提炼出人们需要的知识和信息并将其展示出来,是一个很有意义的研究课题。传统的搜索引擎为用户提供的检索服务,一般是根据用户查询,返回与查询相关的一组网页的集合,对于网页的内容未加精炼和提取。在历史检索中,由于历史网页具有很大的时间跨度,同时历史在时间上具有较为明显的时间聚集性。因此,我们希望提供一种历史信息的检索服务,根据用户查询,自动生成与查询相关的若干题表,并根据内容提炼出与对应的历史网页信息,用户可以通过浏览这段信息,快速地了解一系列历史事件或者历史信息。我们通过这种信息的形式,将中文历史网页库中知识提炼并展示出来,是一次对历史网页知识挖掘的有益尝试。多文档技术是本文使用的主要方法,该方法通过对文档集合的特征进行分析,提取出反映文档集合内容的信息。通过观察分析,我们发现历史网页具有时间跨度大、集中性强的特点,因此历史网页的内容随着时间的改变,其内容的重要性也会发生变化,尤其是其对于历史主题的重要性。  本文针对历史网页的这一特点,提出了一种基于时间聚集度的多文档算法。该算法利用核函数对句子权重在时间轴上进行修正,从而优化句子打分环节,使之更符合历史信息特点,并以此为基础,完成字句提取及最终的信息自动生成。在评测方面,由于DUC提供的标准评测集只针对英文多文档信息,而且其中缺少文档时间信息的描述,不适合本文历史网页库的应用场景,因此我们以Web InfoMall中的数据为基础,利用Web InfoMall中网页的时间信息,根据查询构建了3个网页集合,为保证网页具有一定的时间跨度,相对于一般多文档评测,我们增加了网页数量,同时为降低人工的难度,我们将每个集合的网页数量控制在60~80之间,以此网页集合作为测试集。我们使用标准的ROUGE-N评测方法,对自动检索结果与标准进行比较,实验证明,我们的方法,在ROIJGE-1及ROUGE-2的评测中,均优于随机选择方法及基于质心的方法。本文利用基于时间聚集度的多文档方法设计实现了一个面向历史网页查询与展示的题表生成与自动信息的原型系统,系统根据用户查询,从WebInfoMall中检索与查询相关的网页集合,并通过信息聚类及多文档过程,最终生成若干与查询相关的对应的信息,实现了对于历史网页库中历史知识的挖掘工作。
其他文献
云存储是一种新的存储服务模式,运营商通过网络为客户提供存储资源和存储服务,具有安全、可靠、可扩展等特性。单机存储与云存储相比,具有难扩展、数据容易丢失损坏、且难迁
教育科研网统一认证和资源共享基础设施(CARSI)是由北京大学发起的一项跨域认证和授权项目,采用SAML标准,以Shibboleth技术为基础,用来加强高校间的资源共享。目前世界上有31
随着感知技术、普适计算技术、通信技术和智能控制技术的快速发展,智能硬件越来越广泛地应用到社会生活的各个领域。基于智能硬件的互联与互操作,可以构建物联网系统,实现社会空
随着GPS技术的不断完善和发展,基于位置的服务LBS(Location-Based Service)也呈现出多样化的发展趋势,应用领域不断得到扩充,如电子地图系统、旅游信息查询系统、日常兴趣点
威胁软件安全最大的问题就是软件漏洞。由于软件漏洞的存在,大量的计算机病毒、蠕虫或恶意用户都可以利用软件中存在的漏洞进行信息窃取或提升权限等行为,严重威胁了个人乃至国
立体电影的上马,譬如阿凡达的热映,引发了人们对立体电影的竞相追捧。立体电影的原理是利用人双眼的视角差和会聚功能,而产生了三维立体的效果。多视点视频技术,由于是立体电
随着现代服务业的快速发展和企业信息化的逐步推进,企业级应用开发成为了软件平台厂商和软件工程学术界关注的一大焦点。通过对主流的面向对象开发范型的分析可以发现,现有的
作为隐私保护的重要手段,匿名鉴别机制引起了各界的广泛关注,口令鉴别作为应用最广泛的鉴别方式,研究设计仅依赖于口令的匿名鉴别系统具有重要意义。在此背景下,国际标准化组织IS
Maze文件共享系统是北京大学网络实验室在2005年发布的一款软件,主要服务于教育网的用户,它是一款基于P2P的软件,同时Maze也是一个很好的研究P2P的平台。用户下载并安装Maze
当前随着因特网技术的高速发展与广泛应用,虚拟社区已经成为个人或组织间交流信息、共享知识的重要手段。在以知识共享为目的的虚拟社区中,社区成员既是知识的提供者,又是知