论文部分内容阅读
一、知识组织的概念
“知识组织”一词最初是在图书情报学领域提出并开始使用的,它是对文献分类、编目等文献组织活动的统称或概括[1]。这种知识组织概念,目前来看,应该算是狭义的知识组织概念,因为文献组织活动只是一种客观知识的组织活动。广义的知识组织应包括主观知识组织和客观知识组织两方面。广义上,对知识组织是这样定义的:知识组织是指对知识客体所进行的诸如收集、整理、分类、过滤、加工、提供等一系列组织化过程及其方法,它包括主观知识(隐性知识)的组织和客观知识(显性知识)的组织两方面。对(主观)隐性知识的组织表现为知识的自组织过程,对(客观)显性知识的组织表现为外在的、社会的控制与组织过程。一般来说,隐性知识的组织无法透过操作系统流程化的读取,必须通过不断地沟通、分享、互动、学习才能进行知识转移。而显性的知识可以通过操作系统进行知识的精炼、补充等处理。
知识组织不仅仅局限于利用片面的信息来满足用户的需求,而是对用户的需求进行系统地分析;其目标是对知识进行整序与存储,提供给用户直观的、可操作性强的系统化知识。通过知识组织,可以展现知识内容,构建知识体系,提供知识存储与检索。由于知识组织是模拟人脑的思维模式对知识进行存贮和检索。而人脑对于知识的存贮和检索表现为复杂的大脑神经生理与心理过程,所以知识组织除了以语言学、逻辑学、系统科学为基础外,还应以认知科学、脑科学等以人类精神活动为研究对象的学科理论为基础。
二、主要的知识组织方法
从上世纪90年代以来,知识组织方法的研究与应用逐步升温。从信息分类角度,有对分类法、主题法以及分类主题一体化的研究;从信息描述角度,有对元数据、数字对象等的研究;从自然语言理解的角度,有对自动标引、自动分类技术等的研究与试验。近年来,在概念层次上,语义网、主题地图与OntoloSy 3种方法成为了众人关注的焦点。笔者认为,严格说来,主题地图与OntoloSy是语义网的延伸和发展。
1.语义网
早期,人们通过搜索引擎方式,以自然语言处理技术寻找信息,通过人工维护方式协助得到索引服务。这样,为了方便用户使用,还需要对资源进行有效的组织;需要诸如书签或列表等工具应用在商业性的3W浏览器上,因此,用户找到的信息以树状的阶层结构展现[2]。现在来看,这种分层式的资源组织结构只能展现资源的某一方面,无法充分展现出网络资源与知识的含义。
近年来,语义网的发展,弥补了以阶层方式组织网络信息资源的缺憾。语义网以图形方式展现资源及其关联性,可以有效地层现资源,避免重复[3]。实际上,语义网不是独立的、另一类的Web,而是现有Web的一个延伸。语义网就是机器可理解的信息,是数据网。在语义网中,一切可以确定的内容,例如人、时间、事件、物体等,都作为实体分布在网中,每一实体都有一个统一资源标识。语义网的核心就是元数据,它通过在现有Web基础上增加共用的、标准的、机器可理解的元数据,使得原来Web环境下难以实现的许多应用成为可能或变得更有成效。语义网的结构,包括一组节点、标记和弧线。节点代表在学科领域下的概念、物体或情境,而弧线与标记则是链接,表示不同概念、物体或情境之间的关系。
实际上,在3W上使用频繁的超文本方式可算是语义网的一种早期形式,只是缺乏明确的标记。目前,语义网理论已经突破传统超文本缺乏明确标记的弱点,以资源间的关联性为主轴,尝试建立一套更具结构性的知识展现架构。但目前语义网的缺陷,主要是难以形成完整正式的语义,对于展现的网络结构也缺乏一致性。语义网还需要借助其他的机制与方式来改善实际应用上的困难,主题地图算是其中的一种机制。
2.主题地图
主题地图是一种类似语义网的知识表示模式,它结合了传统索引、图书馆学与人工智能等领域的优点,在资源世界中,有如GPS般提供定址与连结的功能,可以有效地组织知识以利于探索、推理、解决大量无序资源所带来的问题。可以说,主题地图是一项结合了知识工程和资源组织的新技术。
主题地图的概念包括TAO三要素[3]:T是主题(Topics),A是关联(Associations),O是资源指引(Occurences)。TAO以主题描述知识结构及其关联性,主题又可以被对应到其他主题或现实世界中的实体,而资源指引则是指引到一个属于该主题资源的可识别载体。
(1)主题
在主题地图中,知识的基本单元称为“主题”。在主题地图标注中定义了3种名称:基本名称、显示名称和排序名称,其中基本名称为必备,显示和排序名称可以没有,但这些名称都必须是惟一的。
主题可以被归类。所归的类称为主题类型。换言之,主题类型就是主题所归属的类别,一个主题可以归属于一个以上的相同主题类型,主题类型在主题地图中也被定义为一个主题。例如,人、哺乳动物和动物分别都是主题,但是,人同时也分属于哺乳类、动物这两个主题类型。
(2)资源指引
一个主题可同时拥有一个以上的“资源指引”,表示连结一个或多个可定址的信息资源,例如就“某人”这一主题而言,其资源指引可以链接到某人的出生证明、结婚证书、出版著作、个人网页或一小段简介文字等。资源指引内含在主题地图内,也可以独立在主题地图之外,透过诸如HyTime addressing或XPointer等机制来定址[4]。
(3)关联
主题之间可以利用“关联”来显示其语义关系,例如“罗贯中”和“三国演义”两主题之间具有“写作”关系,可以利用“写作”来显示其语义关系。不同于资源指引(资源指引连结到文件来源),关联表示一个包含信息本质、体现信息主要价值的知识,一个关联并不限制相关主题的数量。在主题地图中,关联同时也被视为一个主题,也可属于关联类型,如上例中的“写作”即可以被视为一种关联。关联类型把具有相同关系的主题进行分类,有助于增加地图的表达能力。
就本质而言,主题地图是以主题作为基本素材,利用关联建立主题间的关系,并利用范围限制名称、资源指引和关联的有效范畴,这就是最基本的主题地图。
目前,采用主题地图的知识组织方法面临的问题主要是:如何以原则性的方式组织知识;如何让不同的知识系统能够互通;如何处理异质的主题资料。
3.Ontology[5]
对于Ontology定义,在信息科学领域,比较著名、有影响力的是Gruber在1993年给出的“Ontology是一个概念模型的明确的规范说明”。它是一个规范的、得到公认的描述,Ontology中的词(概念或类)
“知识组织”一词最初是在图书情报学领域提出并开始使用的,它是对文献分类、编目等文献组织活动的统称或概括[1]。这种知识组织概念,目前来看,应该算是狭义的知识组织概念,因为文献组织活动只是一种客观知识的组织活动。广义的知识组织应包括主观知识组织和客观知识组织两方面。广义上,对知识组织是这样定义的:知识组织是指对知识客体所进行的诸如收集、整理、分类、过滤、加工、提供等一系列组织化过程及其方法,它包括主观知识(隐性知识)的组织和客观知识(显性知识)的组织两方面。对(主观)隐性知识的组织表现为知识的自组织过程,对(客观)显性知识的组织表现为外在的、社会的控制与组织过程。一般来说,隐性知识的组织无法透过操作系统流程化的读取,必须通过不断地沟通、分享、互动、学习才能进行知识转移。而显性的知识可以通过操作系统进行知识的精炼、补充等处理。
知识组织不仅仅局限于利用片面的信息来满足用户的需求,而是对用户的需求进行系统地分析;其目标是对知识进行整序与存储,提供给用户直观的、可操作性强的系统化知识。通过知识组织,可以展现知识内容,构建知识体系,提供知识存储与检索。由于知识组织是模拟人脑的思维模式对知识进行存贮和检索。而人脑对于知识的存贮和检索表现为复杂的大脑神经生理与心理过程,所以知识组织除了以语言学、逻辑学、系统科学为基础外,还应以认知科学、脑科学等以人类精神活动为研究对象的学科理论为基础。
二、主要的知识组织方法
从上世纪90年代以来,知识组织方法的研究与应用逐步升温。从信息分类角度,有对分类法、主题法以及分类主题一体化的研究;从信息描述角度,有对元数据、数字对象等的研究;从自然语言理解的角度,有对自动标引、自动分类技术等的研究与试验。近年来,在概念层次上,语义网、主题地图与OntoloSy 3种方法成为了众人关注的焦点。笔者认为,严格说来,主题地图与OntoloSy是语义网的延伸和发展。
1.语义网
早期,人们通过搜索引擎方式,以自然语言处理技术寻找信息,通过人工维护方式协助得到索引服务。这样,为了方便用户使用,还需要对资源进行有效的组织;需要诸如书签或列表等工具应用在商业性的3W浏览器上,因此,用户找到的信息以树状的阶层结构展现[2]。现在来看,这种分层式的资源组织结构只能展现资源的某一方面,无法充分展现出网络资源与知识的含义。
近年来,语义网的发展,弥补了以阶层方式组织网络信息资源的缺憾。语义网以图形方式展现资源及其关联性,可以有效地层现资源,避免重复[3]。实际上,语义网不是独立的、另一类的Web,而是现有Web的一个延伸。语义网就是机器可理解的信息,是数据网。在语义网中,一切可以确定的内容,例如人、时间、事件、物体等,都作为实体分布在网中,每一实体都有一个统一资源标识。语义网的核心就是元数据,它通过在现有Web基础上增加共用的、标准的、机器可理解的元数据,使得原来Web环境下难以实现的许多应用成为可能或变得更有成效。语义网的结构,包括一组节点、标记和弧线。节点代表在学科领域下的概念、物体或情境,而弧线与标记则是链接,表示不同概念、物体或情境之间的关系。
实际上,在3W上使用频繁的超文本方式可算是语义网的一种早期形式,只是缺乏明确的标记。目前,语义网理论已经突破传统超文本缺乏明确标记的弱点,以资源间的关联性为主轴,尝试建立一套更具结构性的知识展现架构。但目前语义网的缺陷,主要是难以形成完整正式的语义,对于展现的网络结构也缺乏一致性。语义网还需要借助其他的机制与方式来改善实际应用上的困难,主题地图算是其中的一种机制。
2.主题地图
主题地图是一种类似语义网的知识表示模式,它结合了传统索引、图书馆学与人工智能等领域的优点,在资源世界中,有如GPS般提供定址与连结的功能,可以有效地组织知识以利于探索、推理、解决大量无序资源所带来的问题。可以说,主题地图是一项结合了知识工程和资源组织的新技术。
主题地图的概念包括TAO三要素[3]:T是主题(Topics),A是关联(Associations),O是资源指引(Occurences)。TAO以主题描述知识结构及其关联性,主题又可以被对应到其他主题或现实世界中的实体,而资源指引则是指引到一个属于该主题资源的可识别载体。
(1)主题
在主题地图中,知识的基本单元称为“主题”。在主题地图标注中定义了3种名称:基本名称、显示名称和排序名称,其中基本名称为必备,显示和排序名称可以没有,但这些名称都必须是惟一的。
主题可以被归类。所归的类称为主题类型。换言之,主题类型就是主题所归属的类别,一个主题可以归属于一个以上的相同主题类型,主题类型在主题地图中也被定义为一个主题。例如,人、哺乳动物和动物分别都是主题,但是,人同时也分属于哺乳类、动物这两个主题类型。
(2)资源指引
一个主题可同时拥有一个以上的“资源指引”,表示连结一个或多个可定址的信息资源,例如就“某人”这一主题而言,其资源指引可以链接到某人的出生证明、结婚证书、出版著作、个人网页或一小段简介文字等。资源指引内含在主题地图内,也可以独立在主题地图之外,透过诸如HyTime addressing或XPointer等机制来定址[4]。
(3)关联
主题之间可以利用“关联”来显示其语义关系,例如“罗贯中”和“三国演义”两主题之间具有“写作”关系,可以利用“写作”来显示其语义关系。不同于资源指引(资源指引连结到文件来源),关联表示一个包含信息本质、体现信息主要价值的知识,一个关联并不限制相关主题的数量。在主题地图中,关联同时也被视为一个主题,也可属于关联类型,如上例中的“写作”即可以被视为一种关联。关联类型把具有相同关系的主题进行分类,有助于增加地图的表达能力。
就本质而言,主题地图是以主题作为基本素材,利用关联建立主题间的关系,并利用范围限制名称、资源指引和关联的有效范畴,这就是最基本的主题地图。
目前,采用主题地图的知识组织方法面临的问题主要是:如何以原则性的方式组织知识;如何让不同的知识系统能够互通;如何处理异质的主题资料。
3.Ontology[5]
对于Ontology定义,在信息科学领域,比较著名、有影响力的是Gruber在1993年给出的“Ontology是一个概念模型的明确的规范说明”。它是一个规范的、得到公认的描述,Ontology中的词(概念或类)