产品名实体识别及规范化研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sdsdfe45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的普及与繁荣,针对电子商务的检索技术开始被越来越多的研究者所关注,其中,作为电子商务检索技术的核心问题之一的产品名实体识别技术也成为了一个重要的研究课题。本文主要研究产品名实体的定义与语料库的构建、产品名实体识别及规范化技术,具体内容包括以下几个方面:第一,根据产品名实体在网络环境中的变化规律,提出了产品名实体的组成成分的全新定义,从而有利于更为细致的针对不同组成成分的识别问题开展研究。在此基础上,制定了产品名实体语料标注规范,并采用半监督的方法构建了一个高质量的产品名实体识别语料库。另一方面,为了使得产品名实体规范化能够顺利展开,还给出了产品名实体规范化定义,并据此构建了一个包含21240产品的层次型产品实体库。第二,针对产品名实体划分结构的特点,将产品名实体识别分为两个阶段,第一阶段识别产品的品牌名、系列名、型号名及公司名,第二阶段在第一阶段的识别基础上,对产品名实体进行识别,并给出了基于隐马尔科夫模型、最大熵模型、条件随机场模型的产品名实体识别方法。在基于最大熵模型和条件随机场模型的产品名实体识别方法中,将产品的品牌库和系列库融入到模型的特征模板中,用于触发产品的品牌名、系列名及型号名的识别。实验结果表明,在融入产品的品牌特征和系列特征之后,系统对产品名实体识别的F值提升了8.42%。最后,比较分析了三个方法之间的优缺点,其中基于条件随机场模型的产品名实体识别方法取得了最好的识别性能,系统的F值取得了86.45%。第三,针对产品名称简写及产品多名等原因造成产品名实体的歧义问题,给出了产品名实体规范化概念,并根据产品名实体组成结构的特点,给出基于编辑距离算法的产品名称相似度的计算方法,在产品名实体规范化中系统的准确率达到84.72%。此外,采用了基于自学习的关系抽取方法抽取相邻产品实体之间的关系,并依据关系的传递性质,推导出全文中各个产品实体之间的关系,利用产品实体之间的关系和产品名称相似度计算方法规范化产品名实体,系统的准确率取得了88.09%。
其他文献
随着P2P网络和多媒体技术的日趋成熟,流媒体技术的应用和研究也取得了长足的进步。由于流媒体数据量大,对网络带宽要求高,传统的组播方式难以满足需要。应用层组播能够在终端
随着数字多媒体技术和因特网的快速飞跃发展,信息尤其是多媒体数字信息的传播交流达到了一个空前的强度和广度。数字多媒体信息便利传播处理的同时,也给数字媒体作品的版权带
随着信息技术的快速发展,工业无线网络技术成为继现场总线之后自动化领域新的研究热点。工业无线网络技术以其灵活性强、扩展性强、成本低和能耗低等特点,能有效降低工业测控
工作流技术是实现业务过程建模、分析、优化、集成与管理,并最终实现业务过程自动化的核心技术。随着信息技术的迅速发展,将业务流程用计算机实现的工作流系统的应用越来越广
随着网络资源的爆炸式增长,特别是图书情报领域,数据库资源的种类和数量越来越多。由于各个数据库都有其独特的界面、网站结构、认证方式,用户在使用时往往需要从头开始熟悉数据
随着大数据时代的到来,对数据有效合理的分析变得越来越重要,而可视化则是数据分析中一种极其重要的方法。本文提出了一种基于领域特定语言的智能数据可视化引擎,专门用于数
随着无线技术的发展,无线传感器网络,车载传感器网络和移动网络在近些年内受到了越来越多的关注。然而,由于无线信道开放的特性,无线网络容易受到信息窃听、消息篡改、身份假冒等
目前市场上的计算机多采用多核多处理器结构,然而软件技术的研究远远落后于硬件技术的发展,多数程序员还不能掌握并行程序的开发技术,传统应用程序无法利用多核多处理器的卓
随着Internet和宽带多媒体业务的发展,视频成为现代信息传播的主流载体之一。视频信息的大量涌现,使得如何快速的从海量的视频数据中检索出所需的资料变得至关重要。基于内容
在当今网络的中,P2P技术的应用变的越来越普遍,人们对P2P技术的关注与研究也越发深入,随着用户间信息的频繁交换,P2P网络中的搜索方法也变得尤为重要。P2P网络中的信息交换,