电子公文归档和移交数据结构研究
发布时间: 2008-6-2 18:34:45     上传者: wsj     访问数: 3646
电子公文归档和移交数据结构研究
    
        随着网络信息技术手段的不断应用,我国各级行政机关、企事业单位所使用的办公自动化系统品种繁多,档案管理系统种类也与日俱增。但是,因为标准不统一而导致系统间互联互通不畅、共享程度低、归档管理弱化等现象,在各级国家行政机关早期信息系统建设中普遍存在,难以保证数据的真实性、完整性和有效性。
 
  以天津市为例,各委办局所使用的办公与档案系统并不具有真正意义的文档一体化、馆室一体化功能。据不完全统计,各单位自行开发的办公自动化系统已占七成,统一外购的仅占三成;这些系统产生的电子文件格式多达20余种,列居前5位的分别是DOC、JPEG、TXT、TIFF、PDF等格式,而这些文件格式相互间至少需要交换10多次才能达到完全的数据共享。不仅如此,很多系统的归档功能还相当弱化,造成机关档案室难以接收和管理电子文件和电子档案,各级国家综合档案馆、专业档案馆面对系统各自独立、数据格式各异的电子文件,无论是收集整理,还是保管利用,都十分困难,无法完成电子档案的顺利接收,更不能实现档案信息资源的完全共享,形成很多“信息孤岛”。
 
电子公文归档和移交数据结构研究的思路
 
  为突破公文与档案信息流动的阻塞,突破部门之间与地区之间的纵横限制,解决应用系统现存的大量“信息孤岛”和归档信息资源管理与利用问题,天津市档案馆2005年承担了国家档案局《电子公文归档和移交数据结构研究》科研项目,并于2006年获国家档案局优秀科技成果二等奖。在研究过程中,天津市档案馆针对电子文件形成系统存在异构性的现实问题,借助新技术手段,以目前最先进的XML语言作为电子公文信息的描述工具。从标准入手,来解决电子文件归档和移交信息跨平台的传输。主要围绕归档和移交数据和处理方式及描述方式的标准化展开研究,制定出一套较为详细科学的数据描述技术标准,即《基于XML的电子公文归档数据结构规范》和《基于XML的归档电子公文移交数据结构规范》。
 
  归档和移交环节是实现文档一体化、馆室一体化应用的重要环节,在异构系统实现电子文件的归档和移交,将涉及办公业务系统、档案室管理系统和档案馆管理系统之间的数据交换和共享。为了有效地捕获电子公文从开始起草到最后永久保管或销毁运转过程形成的电子公文及其元数据,需要从归档环节及移交环节,分别制定基于XML 的电子公文归档和移交数据结构,实现电子公文和电子档案的平滑链接,为各级档案部门解决电子公文的归档存储和利用问题提供借鉴。
 
  其具体思路是:从技术上要求各立档单位与档案管理部门在同一标准指导下,解决不同系统和软硬件平台带来的信息共享和数据交换困难等问题。即:在各立档单位与档案主管部门之间,提供一个数据结构接口标准,利用中间件技术,完成在归档环节从办公系统导出归档数据,并对其管理与维护,再由机关档案室将这些归档数据移交到综合档案馆,来实现归档文件目录信息、电子原文和元数据的跨平台的传输,并在归档和移交过程中将所有电子文件及其元数据进行封装,确保归档和移交电子公文及相关信息的真实性、完整性和可*性,实现异构系统的平滑对接。
 
电子公文归档和移交数据结构的主要内容
 
  XML 既可以面向文档,又可以面向数据。在电子文件管理中,当 XML 面向文档时,其所描述的对象就是电子公文的逻辑结构,即根据逻辑含义对电子公文进行划分和再细分所构成的各逻辑元素之间层次关系。其中,电子公文的逻辑元素就是构成电子公文的一个个单位,如标题、章、节、段落等。所谓的电子公文结构化,就是指运用标准化的置标语言对电子公文的逻辑结构进行规范化置标的过程,这样所得的电子公文的文本就被称为电子公文的结构化文本。它的具体实践主要体现在国家电子政务标准化组织拟定的一系列基于XML的电子公文格式规范中。我们制定的规范没有对电子公文的结构采用XML语言进行描述,只针对电子公文的版式做了相应规定,允许采用PDF、CEB、SEP格式等多种版式文件作为电子公文的通用格式,目的是在文档结构方面应与将要出台的国家标准保持一致。
 
  而对于电子公文归档和移交数据结构而言,在电子文件管理中,当XML面向数据时,其所描述的对象就是电子公文相关数据之间关系的结构,就是指运用标准化的置标语言对电子公文的归档数据和移交数据的各逻辑元素之间层次关系进行规范化置标的过程,这样所得的电子公文数据的文本就被称为电子公文数据的结构化文本。例如:文件级目录、归档文件属性、元数据及日志文件等数据文件均可采用XML语言进行结构化描述,它们之间的关系,各自具备的数据项、数据类型、数据长度等,都可以在XML文件中进行规范。
 
  在研究电子公文归档和移交数据结构规范过程中,我们结合电子文件的特性,分别提出了针对电子公文归档和移交两个环节的数据结构描述形式、元数据内容和XML的表述方式,并按W3C的标准完成了Schema文件,基本确定了XML文件中所包含的必备和可选的元数据信息,并确定了元数据项的数据类型。采用XML这种开放的自描述方式定义的数据结构,不仅能突出对结构的描述,体现电子公文及其相关信息复杂的层次关系,使数据、结构以及显示方式独立开来,确保数据存储格式不受显示格式的制约。另一方面使电子公文及元数据封装在一个标准的交换格式中,从而达到电子公文及元数据跨平台传输与交换的目的,保证电子文件在今后相当长的时间里都能够真实、有效地被读取。
 
  具体地说,我们制定的电子公文归档和移交数据结构采用树形结构,将归档电子公文的相关信息以文件夹的形式进行打包并保存在脱机载体上。规定每一存储载体只有一个根目录,并以一定的编码方式设定根目录名称。一般以“组织机构代码——年度”进行命名,但必须按保管期限相对集中存储。根目录下可再设文件夹,分别管理不同类型、不同保管期限的电子公文。同一年度形成的归档电子公文应保存在同一载体中,每一载体的根目录中应包括说明文件、文件级目录及多个归档文件夹。通常情况下,文件级目录有多少条,就应有多少个归档文件夹与其对应。根目录下的文本文件用于记录本文件夹下所有文件信息的归档或移交说明,以保证电子公文归档移交的完整性。
 
  整个树形结构完整保存了同一单位、同一年度电子公文的归档或移交的全部内容。电子公文归档数据结构示意图如右:   
 
  为了便于大家理解规范的内容,下面就用一个例子来对电子文件管理中电子公文归档和移交的数据结构作一个更加精确的映射。正如前面所说,各级行政机关、企事业单位所使用的办公自动化系统就像汽车发动机种类一样品种繁多。现在我们就将产生电子公文的办公自动化系统比作汽车发动机提供商,而档案管理系统则类似于汽车生产商。汽车发动机从产品转换成为汽车关键部件并进行安装、调试最后形成汽车上真正可用的过程,则完全体现了文件生命周期过程中电子公文及元数据信息经过起草、办理、鉴定、归档最后形成档案信息的全过程。对于汽车发动机提货时用到的货运单,则体现在电子公文归档过程中,描述电子公文的元数据信息,并将其中具有检索意义的数据项提取出来作为电子公文的目录信息;而随同发动机所附带的参数手册,保养手册等信息,则代表与电子公文一同归档的“拟稿单或承办单”、重要文件的“草稿”、“修改稿”、“审核稿”以及“日志文件”等一系列相关文件;而产品清单列表则正是“归档文件属性”信息的现实对照。  
 
           (作者:汤荣宏  单位:天津市档案局 300191)
 
摘自http://www.danganj.net/Article/ArticleShow.asp?ArticleID=3319
[关闭窗口]