基于分布式多Agent系统的二层专利数据库信息获取系统研究

来源 :北京工业大学 | 被引量 : 3次 | 上传用户:pptcowboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高北京市知识产权预警能力和高新技术产业竞争力,需要我们构建知识产权预警平台,为企业、政府和中介机构提供理论、方法和技术支持。而进行这各项研究最基本的就是有大量而准确的面向主题的专利信息。目前,虽然有人针对于专利数据库信息获取进行了研究,但是在数据源关系、效率及易用性方面还是存在着缺陷。由于德文特专利数据库是建立在各国专利数据库之上的主题数据库,其中的专利信息是由专业的专利分析人员将各国专利数据库中的信息整合编译过之后而形成的,具有很高的参考价值。而德文特专利数据库中只包含了专利的主题信息,不能够支持专利详细信息分析,需要到原始数据库中查询下载专利详细内容。本文通过使用分布式的系统结构,研究了从德文特专利数据库到USPTO专利数据库的二层专利数据源信息获取机制。系统采用模块化思想,抽象为四个模块,并通过使用分布式结构提高了专利抽取速率,并开发具有针对性的负载均衡调度算法,实现了整个系统的负载均衡。其中涉及到Multi-Agent技术、XML相关技术、分布式系统技术等。同时,为了提高系统易用性,为用户提供了基于自主标注的信息抽取模板生成功能模块,用户不需要任何专业知识即可生成信息抽取XSLT。最后,针对于下载到本地的专利信息,生成专利统计文件,为用户进行专利分析提供数据基础。本文的创新之处在于:第一,综合运用多种方法,实现了多源异构层次化专利数据库的专利信息抽取,并使用分布式多Agent系统,解决的专利信息的抽取速率问题。第二,针对于专利信息抽取的特点,制定了具有针对性的负载均调度指标体系,并采用了轮询式的负载均衡调度算法,使系统的负载均衡调度更为高效。第三,使用DOM、锚点、XSLT等技术,并结合自主设计的空白节点剪枝算法和动态节点剪枝算法,通过两颗源于深网的信息页面匹配,获得页面模板元数据,并由用户对模板的标注,实现了信息抽取规则的简易生成。
其他文献
期刊
科学巨匠爱因斯坦说过:“只有兴趣,才是最好的老师”.学习兴趣是内外因最自觉的沟通者,它是能够引导一个人循序渐进地不懈追求,加强记忆的重要因素.学习兴趣是诞生灵感的催产
商业银行(CommercialBank)是银行的一种类型,也是中国金融体系的重要组成部分,在中国经济运行和社会发展中发挥着重要的作用。近年来,我国商业银行贷款业务存在的问题较多,其中不良
期刊
建筑业、房地产业、金融业和生活服务业这四大行业纳入营改增,标志着中国税制改革迈出了实质性的一大步。生活服务业营改增力度在四个行业中最大,因此,本文在全面实行“营改
新课标倡导让学生感知、体验、实践、参与和合作,实现任务目标,感觉成功,促进他们的合作学习与交流。由于小组合作学习能有效地增加学生课堂参与度和提高课堂效益而被广泛使用。但在实际的教学应用中,我们发现小组合作学习活动常常存在很多问题,流于形式而实际效果并不明显,影响了小组合作学习应有的功能,使课堂效益大打折扣。下面谈谈我们学校在英语教学当中实施小组合作学习普遍遇到的困难及实践措施。  一、英语小组合作
期刊
期刊
基于传统的报童模型,在考虑零售商的资金约束,以及其可以使用营销手段促进下游市场需求等合乎实际情况的假设下,本文研究了零售商在面对不同的营销函数的情况下,如何确定最优订货策略。在针对不同的营销函数下,本文发现零售商营销资金的投入对于市场需求函数的刺激会产生理想和不理想两种情况,且针对两种情况,零售商面临的资金约束关键点是不同的,因此零售商在不同的营销函数和不同的资金约束条件下,会做出不同的订货量与营
2007年1月16日,“2007封面故事——重庆卫视品牌推介暨答谢会”在北京五洲皇冠假日酒店隆重举行。在岁末年初收获成功 January 16, 2007, “2007 Cover Story - Chongqing S
期刊