面向专利的文本聚类与信息抽取相关技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:liuye1111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着我国经济飞速发展,知识产权的重要性日益突出,而专利是知识产权中的重要组成部分,其重要性是不言而喻的。互联网的快速发展将人们置身于一片信息的海洋。如何从不计其数的书籍、期刊,报告,电子文档,专利等文本中获取自己感兴趣的信息。自动问答系统和数据挖掘技术的出现从一定程度上解决了这个一直困扰着人们的难题。  本文针对中文专利的信息抽取技术进行了深入调研,在此基础上设计并开发了针对专利文本的信息抽取系统。针对中文专利文本制定标记集对中文专利摘要文本进行人工标注,形成原始的训练集,将原始训练集转化为正则表达式的集合,利用正则表达式的捕获组技术抽取专利摘要文本中的目标信息,并对抽取结果进行人工评价。其中技术主题信息抽取结果的准确率和召回率均达到80%以上,实验结果表明,本文针对中文专利文本设计的信息抽取系统达到了较好的抽取效果。  本文还对中文专利文本的聚类技术进行了研究,通过自然语言处理常用技术进行前期处理,并利用信息熵的方法进行初步降维,我们利用向量空间模型将中文专利文档集转化为数学模型,在建模过程中,引入了外部同义词词典降低文档集矩阵的稀疏程度,然后利用LSI、ISOMap等降维算法对文档集矩阵进行大幅度降维,在此基础上分别采用层次聚类算法、谱聚类算法、K-means聚类算法对中文专利文档集进行聚类,并对K-means算法进行了改进。我们采用了准确率、召回率、F值、信息熵、误差平方和等五个评价指标对各种聚类算法和降维方法进行评价分析。  聚类的实验结果表明,针对中文专利文本,层次聚类算法和改进的K-means算法取得较优的F值,达到0.79以上。通过对K-means算法的改进,使得算法的部分评价指标甚至达到层次聚类算法同等效果。在将维度降到较低维度时,ISOMap算法比LSI算法有着更强的适应性。
其他文献
随着互联网和多媒体技术的快速发展,图像信息资源遍布人们的日常生活,因此从中快速查找到所需的资源成为了亟待解决的问题。从20世纪70年代末期开始,图像检索技术发展至今经历了
随着通信业的不断发展,下一代网络技术受到各大电信运营商的瞩目,NGN成为当前电信网络的主流发展方向。目前,国内外针对下一代网络(NGN)的研究已经越过了NGN概念、体系框架的范
传感器的种类繁多价格低廉,它们监控着世界上的各种变化,产生了大量的数据。对这些数据进行处理和整合,可以得到对现实生活更真实和准确的描述。传感器数据共享平台SenMart能够
随着我国市场经济和信息技术的不断发展,企业对科学化财务管理的需求越来越强烈,财务管理系统作为企业财务管理信息化系统的软件平台,对提高企业财务部门工作效率、提高企业
近年来,随着Web应用和HTML5的普及,Web安全问题也日益突出。OWASP公布的2013年十大Web应用安全风险中,跨站脚本漏洞XSS(Cross Site Scripting)名列第三,已成为当前各类Web应
电网需求侧用电管理是智能电网的一个重要组成部分,居民生活用电在电网需求侧占据相当重要的位置,对电力系统用电和配电的影响越来越明显。在电力系统运营中,对小区用户用电进行
随着科技水平的不断发展,人们对计算能力的要求也随之增高,因此,片上多核处理器已经成为主流处理器发展的趋势。伴随着片上多核处理器集成的核数越来越多,DRAM内存系统承受的
随着信息技术与生物技术的飞速发展,人脸识别技术在各领域的应用越来越广泛。本文以Olivetti Research Laboratory(ORL)人脸库和Yale人脸库为研究对象,对人脸识别技术中的特
P2P系统中冷门文件(依据种子数或副本数)凭借其巨大的数量基数,收到不容忽视的用户请求比例。然而,由于冷门文件在P2P系统中缺少足够的上线副本,下载该类文件通常会遭遇文件不可用
该文对经典关联规则的开采算法进行了较全面和深入的研究,并基于国产数据库管理系统DM2设计和部分实现了一个集成的关联规则开采系统原型。主要研究内容如下:该文首先研究了经