谈谈如何构建面向 Internet 的“数字化档案馆”
发布时间: 2005-7-18 11:08:27     上传者: xhy     访问数: 5106

 

                   谈谈如何构建面向 Internet 的“数字化档案馆”

      [2000年度河北省档案局立项项目,项目编号:JDK2000-001-B1]
          [该文发表于2001年4期《湖南档案》,发表时杂志编辑略有改动]
          [该文获河北省档案学会“十五”期间档案学优秀成果论文类一等奖]                                


                                         谢海洋    顾宏革    赵伯亚


    随着信息网络在社会生活中的不断延伸,人们获取信息和实现各种社会功能的
方式正在产生革命性的变化。以收藏历史为己任的各级各类档案馆,是有价值社会
信息资源的重要存储基地,应成为因特网上信息提供的主要角色。在网络时代,档
案馆如何走出传统的服务方式,如何利用互联网公布开放档案目录并使档案用户借
助互联网交互式地检索、查询和利用馆中的档案信息,已经成为档案界面临的紧迫
问题。档案馆将网络技术渗透到在日常的档案管理和提供利用中,已是大势所趋。
    通信产业、计算产业和数字内容产业的高速发展形成了“知识网络”的概念,
以档案管理电脑化、馆藏档案数字化、提供利用网络化为主要特征的“数字化档案
馆”将成为“知识网络”的重要组成部分。应用最新的信息技术构建的数字化档案
馆系统是传统档案馆发展的方向。


    一. 前言

    据中国互联网信息中心 (CNNIC) 于 2001 年 1 月 17 日提供的第七次《中国
互联网络发展状况统计报告》中的最新数字表明,  我国互联网用户数已经发展到
2250 万人,这其中专线上网的用户人数约为 364 万、  拨号上网的用户人数约为
1543 万、同时使用专线与拨号的用户人数约为 343 万;上网计算机数约为 892
万台,这其中专线上网的计算机约 141 万台、拨号上网的计算机约 751 万台;除
使用计算机外,同时使用其它设备(如移动终端、信息家电等)上网的人数约为92
万;CN下注册的域名总数为 122099 个,WWW 站点数(包括.CN、.COM、.NET、.ORG
下的网站)约 265405 个,我国国际线路的总容量为 2799M 。 这是网络业发展的
一个重要里程碑。
    据有关材料估算,网民数量与地区文化生活水平的高低成正比。各级党政机关
和新闻、金融、保险行业的人士占网民数量的三分之一,教师、学生和计算机专业
人士也占网民数量的三分之一,另有近百分之二十六的网民分布在商贸、邮电、服
务等第三产业中。目前我国上网的高费用使收入高且知识层次高的人士占了网民的
绝大多数,而这些人正是档案资源的主要利用者。此外,经济的发展和网络的普及
使越来越多的人开始从事极具个性化的自由性工作,工作环境和工作方式的改变产
生了SOHO(small office & home office,即小型办公和家庭办公)一族,这些人
基本上是脑力劳动者,是档案资源的潜在利用者。
    当前我国各级各类档案馆有能力通过互联网公布开放档案目录、提供档案网上
服务的并不多见,而社会的发展和信息化程度的提高使人们欲借助互联网利用档案
资源的需求逐渐增大且日渐迫切,这一矛盾的突现给传统档案馆提出的新的课题。
收藏的目的在于利用,档案界理应走在信息时代的前列,顺应时代的潮流,以互联
网作为一个全新的平台为社会提供档案服务。


    二. “数字化档案馆”的构建思想

    1. 国家档案局于 1999 年 6 月 7 日重新发布的 《中华人民共和国档案法实
施办法》第二十条规定,各级国家档案馆保管的档案应当按照《档案法》的有关规
定,分期分批地向社会开放,并同时公布开放档案的目录。目前我国各级档案馆运
用计算机辅助档案管理已十分普及,各种档案管理软件纷纷出台,这为档案馆进一
步向“数字化档案馆”过渡打下了很好的基础。但现在用户利用档案时还需要亲自
到档案馆,利用馆中的计算机或通过局域网进行检索和查阅。如果档案馆能通过互
联网按步骤分期分批地公布开放档案的目录,机关、团体、企事业单位和个人就可
足不出户,利用网络登录档案馆的网址,远程检索各级各类档案馆中是否存有自己
所需要的档案。所以,将馆中已开放的档案目录公布的网上,最大限度地方便档案
用户通过互联网检索、查询,是建设“数字化档案馆”的第一步。

    2. 目前我国各级档案馆向社会开放的档案主要包括: 清代和清代以前的档案,
民国时期的档案,革命历史档案,中华人民共和国成立后自形成之日起满三十年且
不涉及国防、外交、公安、国家安全等国家重大利益的档案和一般的经济、科学、
技术、文化等类档案。“数字化档案馆”除了在网上公布已开放的档案目录外,还
应给档案用户提供网上实时浏览档案内容的功能。对于馆藏丰富的档案馆,要按计
划确立优先上网的档案类型。这项工作的优点显而易见:
    第一,可以实现需永久保存的珍贵档案的“数字化生存”。按档案珍贵级别逐
步将其扫描成图像信息永久存储,一方面可以使用户通过互联网方便、舒适、快捷
地查询阅览,另一方面可以使这些经历了漫长岁月考验、本已非常脆弱的珍贵档案
在恒温、恒湿的库房里免受光线、温湿度的变化和人为翻阅可能造成的破坏,最大
限度地延长其寿命,做到了档案利用和档案保护相结合。
    第二,在随时向社会开放的经济、科学、技术和文化类档案中,将预计用户需
求量大的档案内容搬到网上,会增强公布档案的时效性,大幅提高档案的利用率,
充分显示了新时期档案馆的工作水平。
    第三,一般只需简单阅览档案内容的用户,只要登录档案馆的网址即可达到目
的,这方便了馆藏档案资源被社会广为利用,利于扩大档案界的影响,提高人们利
用档案的意识。

    3. 面向互联网的“数字化档案馆” 应建立防止电脑“病毒”和“黑客”入侵
的完善体系。
    目前计算机病毒数量激增,以隐蔽性好、传染变异性强和破坏性大为特点。美
丽莎(Melissa)、CIH、爱虫(I Love You)等病毒以 Internet 为传播载体迅速
扩散,给人类带来巨大的损失和恐慌。近几年随着我国 Internet 的发展,国内计
算机病毒已开始和世界同步,病毒破坏事件屡见报道。
    与病毒同样,电脑黑客的破坏性行为也是计算机网络安全的大敌。据美国电脑
安全协会和美国联邦调查局最新公布的研究报告显示,黑客的攻击行为 1999 年给
美国企业和机构造成了 2.66 亿美元的损失,是此前三年年平均值的两倍多。在我
国大陆, 利用计算机网络进行各类违法犯罪的行为目前正以每年 30% 的速度递增,
仅 1999 年破获的电脑黑客案件就多达百起。据报载,从 1999 年 10 月 19 日国
家信息中心主办的中国政府信息安全高层研讨会上透露,国家有关部门曾通过模拟
攻击,对 650 个政府上网单位的信息安全进行调查,发现其中 80% 的网站基本没
有安全措施,甚至有的已被黑客攻击也不报告。政府高层官员及网络专家对此现象
深表忧虑。
    由此可见,完备的电脑病毒和黑客防范体系是“数字化档案馆”正常运转的基
础。


    三. “数字化档案馆”的实施方案

    1. 通过互联网公布开放档案目录并提供给用户交互性的网上检索、 查询功能,
是“数字化档案馆”的基本职能。
    档案馆通过互联网提供给用户的所有档案资源均是以数据库的形式存储的。访
问 Web 数据库是开发这类应用程序的核心内容,目前该项技术主要有以下几种:
    (1) 公共网关接口 CGI (Common Gateway Interface) 技术:出现的时间较早,
开发成本高,编程复杂,服务器性能差,不具备事务功能;
    (2) Internet Server 应用程序编程接口 ISAPI (Internet Server Application
Programming Interface) 技术:改进了 CGI 的缺点但编程更为复杂;
    (3) Java/JDBC 和 Plug_in 技术:功能较完备但适用性差;
    (4) 动态服务器网页 ASP (Active Server Pages) 技术: 是微软推出的最新、
最先进的 Web 应用程序开发技术,尤其是访问数据库的首选技术。
    目前在各类档案馆使用的档案管理软件中,绝大多数采用的是传统的且应用较
广的客户机/服务器(Client/Server,即 C/S)模式的数据库设计, 在开发和应
用方面都有一定的局限性,而且与目前 Web 的相关技术互相独立, 无法很好地集
成。档案馆中的档案资源若想被档案用户通过互联网方便地查询,应采用浏览器/
服务器(Brower/Server,即 B/S)模式的数据库体系方案,利用 Web 服务器和ASP
作为数据库操作的中间层, 构建成具有三层 Web 结构的浏览器/服务器模式的数
据库体系,其软、硬件柜架如图所示:

┌───┐ http 请求  ┌─────┐            ┌─────┐
│用户端│────→  │Web 服务器│─────→│档案馆后台│
│      │            │          │  ADO/ODBC  │          │
│浏览器│←────  │  (ASP)   │←─────│  数据库  │
└───┘ html 页面  └─────┘            └─────┘

    如果档案用户在前端浏览时提交了检索或查询请求,即浏览器向服务器发出了
HTTP 请求,Web 服务器就会响应该请求,并调用 ASP 引擎执行该文件,同时执行
与 Active 兼容的任何脚本(如 JavaScript 或 VBScript), 再通过 ODBC 连接
档案馆的后台数据库,由数据库访问组件 ADO (ActiveX Date Objects) 执行访问
数据库的操作, 最后由 ASP 将访问结果生成标准的 HTML 页面反馈给用户端浏览
器。档案用户的查询结果只是 HTML 页面,程序代码不会被用户看到,从而加强了
保密性。
    这种浏览器/服务器模式的数据库体系将成为数据库结构的主流,各级各类档
案馆中的档案资源只有与 Web 技术结合,才能有更为广阔的发展前景。
    需要说明的是, 上面提到的 ODBC (Open Database Connectivety) 是一个开
放性的数据库接口,它提供了不同的数据库引擎,使一个应用程序可以访问不同类
型的数据库管理系统。ASP 通过 ODBC 接口,可以使用 Foxpro、Visual Foxpro、
Microsoft Access 和 Microsoft SQL Server 等数据库, 这使得档案馆用原有的
管理软件建立的数据库仍然适用于互联网查询,避免了二次建库和重复劳动。

    2. 对档案的安全保管和积极提供利用是各级各类档案馆的两大基本职责。 将
馆中各类珍贵档案和用户查询较多的经济、科学、技术、文化等类档案以图像和文
本的形式搬到网上,会极大地丰富网上中文信息资源。同时,既方便了用户的查阅
利用,又扩大了档案馆的影响,还对珍贵档案的保存采取了积极的措施。
    一般的方法是利用彩色扫描仪将档案馆中已经开放的并且是需要优先上网的档
案逐一分页扫描成图像信息,标引编目,存储在硬盘或光盘的数据库中,供用户通
过互联网检索、查阅。由于这项工作非常繁琐,工作量巨大,档案馆应首先建立制
度确定哪些档案优先上网。这主要本着两个原则,一个是用户迫切需要查阅的并且
是需求量大的经济、科学、技术和文化等类档案;另一个是馆中永久收藏的且出于
安全考虑不便随时被取出供用户翻阅的珍贵档案。前者主要避免了用户亲自到档案
馆查阅热点档案的麻烦,后者的意义在于真正实现了我国珍贵档案的“数字化生存”,
使档案保存和提供利用得以有机地结合。用户通过互联网查阅这些“原汁原味”的
档案时,在家中就可倾听历史的诉说,感受时代的厚重。
    据了解,在信息化程度很高的欧美国家,通过互联网查询各类档案信息非常方
便,但目前也是仅仅停留在档案内容的检索上,提供网上阅读原件服务的档案馆尚
不多见。实际上,这项工作并不需要很高的技术要求,只是工作量相当大,档案馆
可安排专人负责扫描和编目工作。尽管图像文件需要占用很大的存储空间,但目前
刻录光盘的成本和大容量硬盘的价格均在大幅降低,这使得档案馆保存大量图像文
件的成本大大下降,为这项工作的进一步开展创造了条件。
    在具体实施中,只要档案原件中存在三种以上的颜色就要施行彩色扫描。在软
件开发中,要为用户提供页面随意放大、缩小的功能和图片的上下左右移动的功能,
用户从网上调用查询的原理与上一问题基本相同。

    3. 档案馆上网,首先面临问题可能还不是用户的查询, 而是计算机“病毒”
和“黑客”的潜在威胁。建立“病毒”和“黑客”的防范体系是“数字化档案馆”
生存的保障。
    (1) 计算机病毒的发展几乎同步于计算机软、硬件的发展。计算机病毒主要表
现为传染性、非法性、隐蔽性、潜伏性、破坏性和未知性六大特征。按传染方式分,
计算机病毒可分为引导型、文件型和混合型三大类。了解这些,有利于档案馆对病
毒的防治。档案馆防治病毒的工作主要包括以下几个方面:
    (a) “防患于未然”的重要性远远大于“亡羊补牢”。要定期或不定期地做好
馆中电脑硬盘文件的备份工作。长期存储的档案资源可用硬盘备份;永久保存的可
用多张光盘备份,或视情况做到硬盘和光盘的双重备份。备份前要保证没有病毒。
    (b) 数据和程序要分别存放。
    (c) 馆中存有重要数据的电脑尤其是服务器,要严禁随意使用软盘。
    (d) 安装计算机病毒防火墙等防病毒系统。
    (e) 出现计算机病毒传染迹象时应立即隔离被感染的系统和网络,进行杀毒处
理,严禁带毒继续工作。
    (2) 电脑黑客的入侵是对计算机信息安全的一种严重威胁。黑客一般是超专家
的网络高手。黑客案件侦破难,黑客行为定性难,造成损失认定难。目前,人们对
黑客行为在认识上也存在着分歧。我们提倡的信息资源共享指的是公众信息,而档
案馆中保存的档案还包括政治、经济、国防、外交、公安等涉及国家重大利益和国
计民生的档案,这些档案是要延期开放的。对于档案馆来说,远程访问系统被未授
权用户入侵,馆藏档案信息被电脑黑客更改或破坏,被黑客所利用而提供了有害或
虚假信息,损失将是无法估量的。
    目前我国已经开创了以刑法处罚网络黑客的先例,但已上网的档案馆应从自身
做起,将未开放的档案信息和已开放的档案信息分别存储在不同的电脑中,存有未
开放档案资源的电脑一定不要连入本单位的局域网。

    4. “数字化档案馆”可以直接面向最终的档案用户创办自己的电子杂志。 档
案利用者在访问档案馆的主页时可以随时订阅,以便定期获取最新的档案信息和馆
藏信息。档案馆的电子杂志内容可包括新增加的开放档案目录、新增加的可供网上
直接查阅的档案图像信息、本馆新增加的服务内容、国家新近出台的有关档案的政
策法规,以及档案简讯、业界动态、热点新闻等。档案馆可以将这些内容通过电子
邮件提供给注册用户。另外,档案馆的网页可以相互链接,可以在自己的网页上创
办交流园地进行学术交流,可以设立聊天室和留言板,可以接受档案方面的稿件在
网上刊登。总之,可以开办的业务不仅仅是这些,“数字化档案馆”将为档案工作
开辟了一个全新的天地。

    5.“数字化档案馆”绝非是在政府上网时创建的网页上加一个选项或链接而已,
应该有自己独立的域名和网站。“数字化档案馆”应创建自己独具特色的网页,开
发可多级查询档案信息的应用程序,发展注册用户,给予注册用户更多的访问权限
或提供更加优质的服务。只要办出特色,吸引档案界和更多的非档案界人士的访问,
就会提高了档案馆的影响和馆藏档案的利用率,也有利于提高全民档案意识。社会
效益的提高就意味着经济效益的获得。如果档案馆的网页访问量大,广告、合作、
赞助等各种经济行为会随之而来,这就会加强档案部门的自身“造血”机能,缓解
档案馆常年经费紧张的状况。


    四. 结语

    本文提出的“数字化档案馆”概念,是指采用现代信息技术支持的数字档案资
源系统,强调的是档案用户获取档案资源的网络化手段。所阐述的构建设想和实施
方案,目的是帮助传统档案馆迎接“数字化时代”的到来进行一些先行性的探讨,
而真正的付诸实施尚需要档案界具体的实践环境加以验证以及档案界专家会同信息
技术专家共同制定标准,统一规划,协调管理。
    Internet 是我们这个时代最新的科技盛宴, 任何一个行业要想在新世纪得以
继续生存和发展,都会以因特网为依托,把握自己前进的方向。档案界要更新观念,
转变文化事业机构“守株待兔”式的工作方式和服务模式,积极面向社会,投身市
场经济,要从传统的简单提供档案利用服务上升到积极开发档案信息资源。只有这
样,档案界才能获得可持续发展的条件。

[关闭窗口]