论文部分内容阅读
互联网的飞速发展促使信息检索技术必须要不断地得到改革与创新,以更好地满足用户的信息需求。为此,一种旨在推动这种创新的检索评测活动得到越来越多的组织机构的认可和参与,它给予参与者共同探索前沿信息检索技术的机会和平台,促进先进技术成果的商业化应用。
本文主要研究了检索评测中的两个关键技术:实体主页查找和中文情感句的识别。对这两个技术的研究分别源自国际著名的TPEC评测中相关实体检索任务和国内COAE评测中中文文本情感倾向的识别任务。本文结合实际参加上述评测的经历,针对上述两个技术进行了一定的研究与实验,其主要研究工作及成果如下:
第一,设计并实现了一种利用Google搜索引擎改进的实体主页查找方法,称之为基于规则的方法。该方法针对基于实体和文档相似度方法的缺点,利用搜索引擎返回的实体相关网页的三个主要主页特征,人工制定打分的规则,取最后得分最高的网页作为实体主页。实验证明该方法明显提高了实体主页查找的准确度。
第二,同样利用Google搜索引擎的结果设计实现了一种基于文本分类的实体主页查找方法。该方法将实体主页查找的过程转化为搜索网页分类的过程。搜索得到的实体的相关网页被表示为特征向量,利用训练好的主页分类器对其进行分类。类别包括权威主页、相关主页和非主页。该方法比基于规则的方法对准确度提高的更明显。
第三,本文在中文情感句的识别与分类中,一方面通过分析情感分类所需的句子语义信息,采用了窗口N-Gram特征和否定词特征来表示句子,并通过χ2统计方法进行特征抽取;另一方面设计并实现了一种级联多分类的框架,采用最大熵分类模型,在一定程度上降低了客观文本对情感分类的干扰,提高了情感分类的效果。实验证明本文提出的分类系统能有效地识别喜、怒、哀和惧这四类情感句。