论文部分内容阅读
随着Internet技术的快速发展和日益普及,互联网信息迅速增长,如何从海量的Web信息中快速、准确、全面地查找用户所需要的信息是当前信息科学和技术领域面临的一大挑战。尤其在面向Web的信息检索、信息过滤、信息抽取等方面受到学术界广泛关注。
本文从分析新闻事件的特点入手,提出了一种基于事件特征的新闻标注方法。本文提出的新闻标注内容包括:时间、地点、人物、机构、事件、事件类别等部分。从半结构化(或非结构化)数据中提取新闻事件并予以结构化的表达,为更精确的信息检索、信息过滤、信息抽取提供技术支撑。其中新闻事件的分类和中文命名实体(Chinese Named Entity)(包括人名、地名、机构名等)识别是实现新闻标注的两大关键技术。
本文的主要研究内容和成果包括:
(1)在新闻事件分类方面,提出了一种基于SVM与KNN相结合的分类方法。根据待识别样本x与两类支持向量代表点x+和x-的距离差判定分类方法。如果距离差大于给定的阈值即x离分界面较远,用SVM分类的准确率较高。当距离小于给定的阈值,即x离分界面较近,采用KNN对测试样本分类,将每个支持向量作为代表点,计算待识别样本和每个支持向量的距离判断其类别。实验表明,该方法性能优于独立的SVM分类器和KNN分类器。
(2)在中文命名实体识别方面,提出了一种基于双层隐马尔科夫模型的中文命名实体识别方法。第一层隐马尔科夫模型以字为单位。对中文语句中的词做初步标注;第二层隐马尔科夫模型根据中文命名实体的上下文和内部构成特征,对第一层隐马尔科夫模型的结果进行修正。实验表明,该方法能够有效提高命名实体识别的准确度。
(3)在解决了上述两个关键技术问题的基础上,本文研制开发了一个基于事件特征的新闻标注系统。利用新闻事件的分类结果,实现新闻事件类别的标注;基于双层隐马尔科夫模型的中文命名实体识别方法实现新闻中的人物、地点、机构名的标注;同时运用时间模板匹配的方法实现新闻中时间的提取;采用TF/IDF计算词的权重,提取新闻中的关键词,进而利用关键词集合实现新闻事件的标注。
上述成果在基于Web的信息检索、信息抽取、语义标注等领域具有良好的应用前景。