检索评测中的关键技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:mxltx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展促使信息检索技术必须要不断地得到改革与创新,以更好地满足用户的信息需求。为此,一种旨在推动这种创新的检索评测活动得到越来越多的组织机构的认可和参与,它给予参与者共同探索前沿信息检索技术的机会和平台,促进先进技术成果的商业化应用。   本文主要研究了检索评测中的两个关键技术:实体主页查找和中文情感句的识别。对这两个技术的研究分别源自国际著名的TPEC评测中相关实体检索任务和国内COAE评测中中文文本情感倾向的识别任务。本文结合实际参加上述评测的经历,针对上述两个技术进行了一定的研究与实验,其主要研究工作及成果如下:   第一,设计并实现了一种利用Google搜索引擎改进的实体主页查找方法,称之为基于规则的方法。该方法针对基于实体和文档相似度方法的缺点,利用搜索引擎返回的实体相关网页的三个主要主页特征,人工制定打分的规则,取最后得分最高的网页作为实体主页。实验证明该方法明显提高了实体主页查找的准确度。   第二,同样利用Google搜索引擎的结果设计实现了一种基于文本分类的实体主页查找方法。该方法将实体主页查找的过程转化为搜索网页分类的过程。搜索得到的实体的相关网页被表示为特征向量,利用训练好的主页分类器对其进行分类。类别包括权威主页、相关主页和非主页。该方法比基于规则的方法对准确度提高的更明显。   第三,本文在中文情感句的识别与分类中,一方面通过分析情感分类所需的句子语义信息,采用了窗口N-Gram特征和否定词特征来表示句子,并通过χ2统计方法进行特征抽取;另一方面设计并实现了一种级联多分类的框架,采用最大熵分类模型,在一定程度上降低了客观文本对情感分类的干扰,提高了情感分类的效果。实验证明本文提出的分类系统能有效地识别喜、怒、哀和惧这四类情感句。
其他文献
随着科学技术的不断发展,人类已经迈入信息时代。作为信息时代的重要里程碑一网络,也在不断向着更高速,更安全,更易于接入等方向演进。与此基于网络的各种资源,服务,也不断的改变这
生态系统退化问题是阻碍国民经济发展的重大问题。在岩溶分布广泛的广西,生态系统退化问题更加严重,以石漠化现象表现出来,如何进行岩溶区生态系统的恢复和重建,成为广西当前的重
黄酮类化合物在自然界中分布广泛,并具有多种生物活性,特别是抗氧化及抗自由基作用和防腐抑菌等生理作用。 本试验采用滤纸片扩散法和液体稀释法对4种黄酮类化合物进行体外
目的建立星形胶质细胞与脑微血管内皮细胞共培养模型,研究星形胶质细胞源性VEGF对脑微血管内皮细胞的影响。方法(1)分离纯化Wistar大鼠大脑皮质星形胶质细胞(astrocyte, Ast)
近些年来,水体富营养化现象日益加剧,绿潮(大型海藻藻华)在世界范围内的近海海域频繁暴发,这不仅给沿海渔业造成了严重的经济损失,还显著影响着水体生态环境和磷的循环。本文以绿潮
英语短文自动评分,作为文本分析技术的一项具体应用,是一项利用先进的自然语言处理相关技术对英语短文质量进行评估,从而实现客观公正而又快捷有效的英语短文自动评分的技术
无线传感器网络是当前研究的热点问题,被认为是改变世界的十大新技术之一。它能通过散布在环境周围的无线传感器节点实时检测采集环境信息,利用无线技术将环境信息以自组多跳方
近年来随着畜禽养殖业的规模化发展,大量畜禽粪便随意堆放,但畜禽粪便的处理技术不足。畜禽粪便中含有丰富的营养元素以供植物生长,是发展绿色无公害农业生产的主要肥料来源
学位
近年来随着数据业务和多媒体业务的不断增长,现有网络承载业务的多样化趋势越发明显,不同类型业务对于光传输网络传输速度和质量提出了不同的要求。同时随着网络规模的增大,对于