论文部分内容阅读
现今网络技术的飞速发展,加快了各领域信息化的步伐,信息化技术也逐步向农业领域渗透,极大地推动了农业信息化的进程。“十二五”规划期间,农业信息化已经被明确成为我国社会发展和国民经济前进的重要任务。农业领域知识具有地域性、时效性、复杂性等特点,而服务主体——农民的科技认知水平普遍较低,在农业信息化服务中,如何从海量多样的数据中获取人们需要的信息,已经成为研究热点。问答系统的产生和发展,改善了传统搜索方式的不足,它允许用户以自然语言的方式进行提问,并返回给用户精确答案,而不是相关网页和信息。现有的问答系统在进行答案检索时大多采用对问句的关键词进行匹配的方法,而很少涉及句子或词语的语义理解层面。针对上述问题,本文引入本体(Ontology)概念,将农业本体论(Agriculture Ontology)用于农业知识的组织和管理,为问答系统的检索提供知识语义网络基础。本体是对概念和概念之间的关系进行规范化的描述,搭建出某个领域的知识体系,使知识具有很好的共享性和重用性。农业本体是对农业领域知识中的概念和概念之间的关系以计算机可识别的形式化描述语言进行组织。本体的引入在一定程度上解决了在语义理解层面的不足。以柑橘为例构建一个小型的柑橘病虫害知识本体来协助问答系统的问题理解、信息检索和答案抽取等过程的完成。在分析柑橘病虫害领域知识的基础上,给出了柑橘病虫害知识本体的形式化定义和元数据语义关系定义,确定了本体构建框架及核心本体,并运用本体开发工具Protege实现了柑橘病虫害知识本体的构建。针对农业领域特点,对用户提出的问句进行预处理,使用特定分词器进行分词。基于领域本体进行问句语义理解,提取问句关键概念及其扩展概念。利用Lucene对问题-答案库构建倒排索引,设计检索方案,确定候选问题集。结合已有的句子相似度算法,在本体的基础上,讨论了基于领域本体和基于知网的概念语义相似度算法,提出了多重信息融合的句子语义相似度计算模型,该模型综合考虑了句子的表层相似度和语义相似度。将用户问句与候选问题集中的问句进行相似度计算,将达到阈值的问句按顺序返回其相应答案给用户。最后介绍系统总体设计,并通过实验验证了模型的有效性和正确性。