论文部分内容阅读
近十年前,冯惠玲教授以其博士论文《拥有新记忆——电子文件管理研究》拉开了中国档案学界对电子文件研究的序幕。该文从认识电子文件、原始性、证据性、无纸收藏、双重鉴定等八个方面创新地阐述了电子文件管理的特点与规律,深刻地指出:“电子文件是现代档案工作中不可回避的一个新课题。信息技术的快速发展造就了日益增多的电子文件,它向长期以来以纸质文件为基础建立的档案管理思想、管理原则、管理体制和管理方法提出了全面的挑战,是一场真正的记录革命。”
然而至今为止,我国档案界对电子文件信息资源管理的研究,基本上沿用模拟或部分改良传统的档案信息处理方式,而对于电子文件内容的智能化控制面临的问题很多,解决的方法和技术手段较少,特别是未能从技术层面上对电子文件信息资源的自动智能处理展开深入的研究。
当今时代,互联网的广泛应用、普及和下一代互联网——语义网的初步构建,使电子文件的形成与利用环境发生了重大的变化。万维网的本质特性是虚拟性和全球性。超文本文件的威力在于任何网上信息都可以相互链接。这些信息应当具有两方面能力:一是供身处任何地点和技术环境中的人阅读和处理;二是可供各种计算机系统自动处理,以更好地满足人对浩如烟海的电子文件内容的检索需求,而这种检索需求必须以语义控制为基础。不管是“人”还是“机”,对信息的处理都应当是对电子文件内容的智能化控制,而非对文件实体的管理。目前电子文件供人阅读的功能比较强,计算机能熟练地解析网页的版面和结构,实现文件之间丰富的链接;但是,一般的计算机系统没有语义处理的功能,因而不能实现对内容的智能化控制。
语义网旨在对万维网上所有的资源赋予唯一规范的标识,并在资源之间建立起机器可处理的各类语义的联系。语义网是对当代万维网的扩展和延伸,目的在于以一种标准化、结构化方式来描述信息资源的内容特征以及它们相互的复杂关系,以提高异构系统之间的互操作性,促进信息的开放和知识的广泛共享。
在数字化生存环境中,电子文件的智能控制还需要解决电子文件的语义化(结构化)存储和语义化检索(智能化检索即机器自动推理)。在传统信息检索方式下,电子文件信息资源缺少统一的语义描述,并且以非结构化形式存储,从而难以实现信息资源的语义共享,导致用户找不到相关度很高的资源。如何使被管理电子文件资源具有计算机可以理解的语义,并根据电子文件资源所具有的领域知识,实现电子文件资源的语义检索,提高电子文件资源的利用率和利用价值,是目前电子文件管理面临的极大挑战,也是数字化档案信息资源管理中迫切需要解决的重大课题。
本文在论述电子文件概念内涵的数据化和外延在档案专业领域的核心化的基础上,指出了作为数据集合的电子文件,必须通过语义的控制来保持电子文件内容的自然和历史联系,以维系其使用价值。结合电子文件未来的生存环境,研究了语义网环境下电子文件资源管理技术模型,以电子公文为例建立电子文件本体实例和语义推理实例,并初步提出在语义网的环境下,机构和个人对电子文件资源管理的策略。实施的要点在于:采取正确的资源管理策略,构建好自己的本体和搜索代理程序;按一定本体定义把文件组织好,以便被更多的程序搜索到,实现信息共享和内容智能控制的目的。