论文部分内容阅读
随着电子商务的普及与繁荣,针对电子商务的检索技术开始被越来越多的研究者所关注,其中,作为电子商务检索技术的核心问题之一的产品名实体识别技术也成为了一个重要的研究课题。本文主要研究产品名实体的定义与语料库的构建、产品名实体识别及规范化技术,具体内容包括以下几个方面:第一,根据产品名实体在网络环境中的变化规律,提出了产品名实体的组成成分的全新定义,从而有利于更为细致的针对不同组成成分的识别问题开展研究。在此基础上,制定了产品名实体语料标注规范,并采用半监督的方法构建了一个高质量的产品名实体识别语料库。另一方面,为了使得产品名实体规范化能够顺利展开,还给出了产品名实体规范化定义,并据此构建了一个包含21240产品的层次型产品实体库。第二,针对产品名实体划分结构的特点,将产品名实体识别分为两个阶段,第一阶段识别产品的品牌名、系列名、型号名及公司名,第二阶段在第一阶段的识别基础上,对产品名实体进行识别,并给出了基于隐马尔科夫模型、最大熵模型、条件随机场模型的产品名实体识别方法。在基于最大熵模型和条件随机场模型的产品名实体识别方法中,将产品的品牌库和系列库融入到模型的特征模板中,用于触发产品的品牌名、系列名及型号名的识别。实验结果表明,在融入产品的品牌特征和系列特征之后,系统对产品名实体识别的F值提升了8.42%。最后,比较分析了三个方法之间的优缺点,其中基于条件随机场模型的产品名实体识别方法取得了最好的识别性能,系统的F值取得了86.45%。第三,针对产品名称简写及产品多名等原因造成产品名实体的歧义问题,给出了产品名实体规范化概念,并根据产品名实体组成结构的特点,给出基于编辑距离算法的产品名称相似度的计算方法,在产品名实体规范化中系统的准确率达到84.72%。此外,采用了基于自学习的关系抽取方法抽取相邻产品实体之间的关系,并依据关系的传递性质,推导出全文中各个产品实体之间的关系,利用产品实体之间的关系和产品名称相似度计算方法规范化产品名实体,系统的准确率取得了88.09%。