论文部分内容阅读
随着互联网的不断发展,越来越多的网页成为了历史网页,这些网页虽然很少能被查询到,但其中依旧蕴藏着丰富的知识。中文历史网页库(Web InfoMall)保存了超过50亿的中文历史网页,如何从这些网页中提炼出人们需要的知识和信息并将其展示出来,是一个很有意义的研究课题。传统的搜索引擎为用户提供的检索服务,一般是根据用户查询,返回与查询相关的一组网页的集合,对于网页的内容未加精炼和提取。在历史检索中,由于历史网页具有很大的时间跨度,同时历史在时间上具有较为明显的时间聚集性。因此,我们希望提供一种历史信息的检索服务,根据用户查询,自动生成与查询相关的若干题表,并根据内容提炼出与对应的历史网页信息,用户可以通过浏览这段信息,快速地了解一系列历史事件或者历史信息。我们通过这种信息的形式,将中文历史网页库中知识提炼并展示出来,是一次对历史网页知识挖掘的有益尝试。多文档技术是本文使用的主要方法,该方法通过对文档集合的特征进行分析,提取出反映文档集合内容的信息。通过观察分析,我们发现历史网页具有时间跨度大、集中性强的特点,因此历史网页的内容随着时间的改变,其内容的重要性也会发生变化,尤其是其对于历史主题的重要性。 本文针对历史网页的这一特点,提出了一种基于时间聚集度的多文档算法。该算法利用核函数对句子权重在时间轴上进行修正,从而优化句子打分环节,使之更符合历史信息特点,并以此为基础,完成字句提取及最终的信息自动生成。在评测方面,由于DUC提供的标准评测集只针对英文多文档信息,而且其中缺少文档时间信息的描述,不适合本文历史网页库的应用场景,因此我们以Web InfoMall中的数据为基础,利用Web InfoMall中网页的时间信息,根据查询构建了3个网页集合,为保证网页具有一定的时间跨度,相对于一般多文档评测,我们增加了网页数量,同时为降低人工的难度,我们将每个集合的网页数量控制在60~80之间,以此网页集合作为测试集。我们使用标准的ROUGE-N评测方法,对自动检索结果与标准进行比较,实验证明,我们的方法,在ROIJGE-1及ROUGE-2的评测中,均优于随机选择方法及基于质心的方法。本文利用基于时间聚集度的多文档方法设计实现了一个面向历史网页查询与展示的题表生成与自动信息的原型系统,系统根据用户查询,从WebInfoMall中检索与查询相关的网页集合,并通过信息聚类及多文档过程,最终生成若干与查询相关的对应的信息,实现了对于历史网页库中历史知识的挖掘工作。