基于事件特征的中文新闻标注系统的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:joiner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的快速发展和日益普及,互联网信息迅速增长,如何从海量的Web信息中快速、准确、全面地查找用户所需要的信息是当前信息科学和技术领域面临的一大挑战。尤其在面向Web的信息检索、信息过滤、信息抽取等方面受到学术界广泛关注。   本文从分析新闻事件的特点入手,提出了一种基于事件特征的新闻标注方法。本文提出的新闻标注内容包括:时间、地点、人物、机构、事件、事件类别等部分。从半结构化(或非结构化)数据中提取新闻事件并予以结构化的表达,为更精确的信息检索、信息过滤、信息抽取提供技术支撑。其中新闻事件的分类和中文命名实体(Chinese Named Entity)(包括人名、地名、机构名等)识别是实现新闻标注的两大关键技术。   本文的主要研究内容和成果包括:   (1)在新闻事件分类方面,提出了一种基于SVM与KNN相结合的分类方法。根据待识别样本x与两类支持向量代表点x+和x-的距离差判定分类方法。如果距离差大于给定的阈值即x离分界面较远,用SVM分类的准确率较高。当距离小于给定的阈值,即x离分界面较近,采用KNN对测试样本分类,将每个支持向量作为代表点,计算待识别样本和每个支持向量的距离判断其类别。实验表明,该方法性能优于独立的SVM分类器和KNN分类器。   (2)在中文命名实体识别方面,提出了一种基于双层隐马尔科夫模型的中文命名实体识别方法。第一层隐马尔科夫模型以字为单位。对中文语句中的词做初步标注;第二层隐马尔科夫模型根据中文命名实体的上下文和内部构成特征,对第一层隐马尔科夫模型的结果进行修正。实验表明,该方法能够有效提高命名实体识别的准确度。   (3)在解决了上述两个关键技术问题的基础上,本文研制开发了一个基于事件特征的新闻标注系统。利用新闻事件的分类结果,实现新闻事件类别的标注;基于双层隐马尔科夫模型的中文命名实体识别方法实现新闻中的人物、地点、机构名的标注;同时运用时间模板匹配的方法实现新闻中时间的提取;采用TF/IDF计算词的权重,提取新闻中的关键词,进而利用关键词集合实现新闻事件的标注。   上述成果在基于Web的信息检索、信息抽取、语义标注等领域具有良好的应用前景。  
其他文献
非真实感绘制(Non-Photorealistic Rendering, NPR)是近些年来快速发展的一种绘制技术。不同于传统的真实感绘制方法,它主要采用某种艺术风格(素描、水彩、油画等)对物体进行
随着我国对外经济和文化交流与合作的迅猛发展,“汉语热”在全球范围内也日渐升温。在国际交流大发展的时代背景下,国际汉语教学迎来了难得的发展机遇。而汉语的推广和普及也成
无人艇在海洋环境侦察、扫雷、港口保护、海洋科考等领域具有广阔的应用前景,越来越受到大家的关注。无人艇上通常搭载有摄像机、热像仪等光电传感器,由于受到无人艇在海洋中
学位
在以信息数字化和网络化为主要特征的时代,信息传播的深度和广度都有极大的发展,信息表达的效率与准确性也得到了很大的提高。但同时随之而来的也有一些负面影响,比如数字产
阿尔茨海默型老年痴呆症(Alzheimer’s Disease,AD)是一种神经系统退行性疾病。患者表现为近事记忆障碍,渐渐出现语言、情绪、认知等障碍,最终不能独立生活以致死亡[1]。目前
信息时代的到来,使得人类社会每日产生的数据量呈现出指数性增长的态势。随着数据规模的日渐庞大,数据中蕴含的价值信息的时效性却往往越来越短,因此在不改变传统的流式数据处理
软件复用可以提高软件生产效率、提高软件质量。软件复用中,资源的存储和利用是关键过程。在传统的构件库管理中,资源打包存储后的资源包中仅有资源分类描述。在复用者使用时,在
随着网络技术的快速发展,互联网已经逐渐成为当今社会信息产生和传播的重要场所。面对每天产生的大量网络信息,如何对这些信息进行观点判断、情感分析等已经成为了当前互联网
作为智能视频监控系统中的关键技术之一,运动目标跟踪技术受到国内外学者的广泛关注,近年来成为了计算机视觉领域的热点研究问题。但由于受到光照变化、遮挡以及复杂环境带来
随着计算机网络应用的发展,数据存储的安全性变的越来越重要。而硬盘存储器作为数据存储的主要载体,其数据安全也越来越受到重视。因此,如何在硬盘数据丢失前备份数据,如何在