当前位置:首页
> 文章导读

学术探讨 Academic Research / 12期


发布日期: 2014 - 01 - 15 访问次数: 信息来源: 浙江档案局


数字档案馆采集功能结构模型与实施研究
文/程妍妍
    摘要:本文从提高数字档案馆采集功能的效率和质量出发,分析了与数字档案馆采集功能相关的国际项目研究进展情况和国际开放档案信息系统(OAIS)标准提出的采集功能的标准结构模型,提出了我国数字档案馆采集功能的具体设计实施方案,以进一步提升我国数字档案馆采集功能的开发水平和质量。
    关键词:数字档案馆 采集功能 采集功能结构 采集功能实施
    采集功能是数字档案馆获取档案资源的主要渠道,设计完备的采集功能能够提升数字档案馆资源的接收效率、提高进馆资源的质量,反之则会阻碍数字档案馆采集能力的进一步提升,正如澳大利亚维多利亚州电子文件战略项目(Victoria Electronic Records Strategy)(以下简称VERS)指出的:“如果数字档案馆采集功能高效利用,它将作为一个看门人的角色,确保进馆文件具备一致的结构、内容和遵循相关的业务规则;如果不能够有效利用,该功能也会成为瓶颈,导致数字档案馆档案处理工作的延迟,影响无缝和高度自动化业务流程的形成。”[1]本文通过研究数字档案馆采集功能的设计,旨在指导我国数字档案馆开发采集功能的建设和系统建设水平的提升。
 
一、国际数字档案馆采集功能的研究背景
    国际领域针对数字档案馆采集功能颁布了一系列具有权威性和指导性的标准,这些标准对数字档案馆采集功能的流程、阶段、结构、模型等都进行了规范性的说明和规定。
(一)国际开放档案信息系统(OAIS)标准
    2002年,空间数据系统咨询委员会颁布了国际开放档案信息系统参考模型(Open Archival Information System Reference Model)(以下简称OAIS)标准,该标准首次对数字档案馆采集功能做出规范化阐述,即:“采集功能负责从移交方处接收提交信息包(SIP),并且准备数字档案馆存储和管理的内容。采集功能包括遵循档案馆的数据格式和记录标准接收提交信息包,对其进行质量检查,并遵照档案馆的数据格式和记录标准生成档案信息包(AIP),存储进数据库。” [2]
(二)移交方和数字档案馆接口方法(PAIMAS)标准
    2004年,为进一步细化、规范采集功能,OAIS工作组颁布了《移交方和数字档案馆接口方法》(简称PAIMAS)标准[3],该标准将数字档案馆采集划分为四个阶段,包括准备、正式定义、接收和验证阶段。
    该标准特点是:第一,明确了数字档案馆采集前的准备和正式定义阶段,在这两个阶段数字档案馆应当和移交方协调好相关事项,包括明确归档信息的属性特征和制定规范的移交协议,以对双方的行为进行约束,并提供证明。第二,详细说明数字档案馆采集过程中每一个阶段的目标、行为和结果,目的在于形成一个通用的方法框架,以规范数字档案馆每一次的采集行为,并作为数字档案馆采集系统、软件工具的开发基础。
(三) 文件交换规范业务需求(BRS)标准
    2007年,国际档案理事会(ICA)发布《文件交换规范业务需求》(Record Exchange Standard Business Requirements Specification)(简称BRS)标准[4],该标准对归档机构向数字档案馆移交(采集功能的一部分)过程进行了UML完整建模。
    BRS标准的特点是对移交方向数字档案馆提交文件的这段过程进行了建模和规范化说明。该标准对这段移交过程定义了一个可靠的程序模型,避免在移交过程中发生任务错误,例如移交响应时间过长或过短、移交文件发生丢失等,以最大程度规避数字档案馆采集过程中所遇到的风险,并降低采集成本,它可以被视为是便于计算机具体实施的模型标准。
    这些国际标准在数字档案馆采集功能研究领域具有广泛的指导意义,是最佳实践的经验总结。另外,国际一些著名项目,例如国际Erpanet项目[5]研究的数字档案馆采集战略、Fedora[6]和DSpace[7]项目开发的采集系统、美国国家数字信息基础设施和长久保存项目(NDIIPP)研究的数字档案馆海量文件采集项目[8]等,都为我国数字档案馆采集功能研究提供了有益的借鉴和参考。
 
二、数字档案馆采集功能的结构模型
    目前,从各国数字档案馆的建设实践来看,其采集功能结构基本上依据的是国际开放档案信息系统。
    OAIS标准中提出的模型,在美国电子文件档案馆(Electronic Records Archive)(简称ERA)、西北数字档案馆(Northwest Digital Archive)、华盛顿州数字档案馆(Washington State Digital Archive)等处都得到了应用。可以说,该模型已在国际领域得到了一致认可。
    OAIS模型将数字档案馆采集功能结构划分为五个模块,即接收提交:该模块提供适当的存储能力或设备,采用在线或物理移交方式从移交方接收档案信息(以提交信息包SIP的形式),接收后发送成功确认回执或是重新提交回执;质量检查:该功能验证接收档案,采用循环冗余校验(CRCs)、相关算法或是使用系统日志来记录和识别文件移交或载体读写的错误;生成档案信息包(以下简称AIP):该功能遵循数字档案馆格式转化和记录标准,将接收的档案及其元数据转化为适合于长久保存的档案信息包;生成著录信息:该功能从AIP中抽取著录信息,并且从其他来源收集著录信息;协调更新:该功能负责移动AIP至档案存储模块。OAIS模型建立了采集功能的结构模型,可以作为数字档案馆采集功能设计实施时的功能对照清单,并作为其参考和依据。
 
三、数字档案馆采集功能的设计实施
    OAIS提出的结构模型是宏观的,在数字档案馆具体实施采集功能时,仍需对OAIS模型进行细化,并提出具体的设计方案。
(一)数字档案馆采集功能实施方案
    在遵循OAIS模型的前提下,采集功能可以多样化实施,本文提出其中一种数字档案馆采集功能结构实施方案,如图1所示。
    该采集功能实施方案流程每一步具体内容包括:
1.移交对象
    数字档案馆采集功能的对象包括移交档案集、移交清单和移交协议。每次移交由一个或多个档案集组成,每一个档案集通常包括若干个移交数字档案,移交档案集以提交信息包的形式提交。每一次移交档案集的大小由数字档案馆和移交方共同协商确定,以便其大小能够得到最优处理。每一个档案集附带一份移交清单和移交协议,移交清单列出移交档案集中的所有数字档案对象,移交协议明确数字档案馆和移交方事先约定好的事项,例如档案类型、重要特征等。采集开始于移交清单的接收,移交清单导入数字档案馆,促使新的工作流程被创建出来,以更好地控制采集。另外,初始报告也可以从移交清单中生成,以便负责移交的档案人员能够检查移交档案内容是否是移交协议中确定的移交档案集。
2.外部和内部邮箱
    移交档案可以用两种方式到达数字档案馆。第一种是在线移交方式,即移交档案通过互联网上传至数字档案馆的外部邮箱中。出于安全的考虑,每一个移交档案集会自动创建一个独立的邮箱存储空间(包含唯一用户标识符和密码),一旦所有文件成功上传,该邮箱会自动关闭。上传完毕后,移交档案可自动通过防火墙转移至数字档案馆的内部邮箱。第二种是物理移交方式,即数字档案馆管理人员将移交物理载体(CDs,DVDs等)上的移交档案直接上传至数字档案馆内部邮箱。
3.质量检查
    数字档案馆对内部邮箱中移交档案进行验证,验证应确保移交档案满足档案馆的质量标准。各档案馆质量标准有所不同,最低标准应包括如下几个方面:第一,验证移交对象和移交清单保持一致;第二,验证移交档案封装方法正确;第三,验证所有移交元数据齐备;第四,验证移交档案符合长久保存标准格式(可考虑集成JHOVE或DROID格式验证工具);第五,验证移交档案未被病毒感染。
    验证完成后,数字档案馆系统应生成移交档案的验证报告。验证报告应列出所有移交档案集中丢失和多余的档案、每一个数字档案的验证结果、验证中碰到的每一个错误。对于每一个错误,要列出受其影响的数字档案;统计每一个错误影响的数字档案,以便明确移交档案的总体错误率。质量检查完成后,档案人员可以批准移交档案从内部邮箱移动至隔离区,对于不合格的可以直接删除。
4.隔离
    通过质量认证的移交档案将被隔离一段时间(例如一周),之后将会进行第二次病毒检查。因为一旦移交档案中含有新病毒,常规检测可能无法检测出来;经过一段时间的隔离,新的病毒测试工具会开发出来,新病毒也就可以被识别出来。目前澳大利亚国家数字档案馆采集功能就采用了隔离区的设计。
5.错误校正
    在质量检查和隔离阶段,未通过病毒验证和质量检查的数字档案会自动移动到错误校正区。档案人员可以对其进行检查,以明确错误原因,然后将结果通知到移交方,移交方可以根据错误原因报告纠正错误,然后重新提交。
6.处理
    隔离区病毒检查结束后,档案移动至处理区。处理区允许档案人员整理档案,并进行重新分类,补充校正元数据,从档案集中删除错误的或多余的档案,执行例如设置利用状态等的管理功能。
7.登记
    处理区的工作结束后,数字档案馆登记移交档案,进行正式接收,并且发送给移交方一个保管报告,列出接收的每一个数字档案标识符清单。移交方接收后,可以删除其对象拷贝。
8.生成档案信息包
    数字档案馆根据封装标准,生成适合于长久保存的档案信息包(AIP)并存储。档案及其封装包进行异地存储,并采用自动化错误检测功能和恢复机制。
(二)数字档案馆采集功能实施方案的关键点分析
1.安全的在线采集方案
    安全的采集能够确保数字档案的真实、可靠、完整和可用,该实施方案采取了多种安全措施,包括:(1)两次病毒检查:为了防止病毒感染数字档案馆系统,该方案在质量检查和隔离区进行两次病毒检查。在病毒检查完成之前,系统不允许档案人员检查数字对象内容。处理区是数字档案内容第一次被检查的地方。(2)采集过程日志和报告:系统会捕获采集过程中对数字对象进行的所有操作,并以过程日志的形式记录。系统应生成专门的采集事件,而不是捕获自动生成的低层次系统事件,因为系统事件的问题在于没有明确说明在采集过程中发生的事件。在采集完成后,数字档案馆应生成多种报告,例如列出每一个接收的数字档案处理结果(已删除、已登记等)的报告,如验证报告、保管报告等,这些报告都应存储并保存起来,作为采集过程的记录。
2.高效的在线采集方案
    在线采集能够缩短数字档案的接收时间,以提高接收效率。该实施方案采取多种方法来提高在线采集效率,包括:(1)错误处理模式:数字档案馆采集大量数字对象,其核心问题在于错误识别和处理,特别是大型数据集,其中非常低的错误率难以被检测出来,更无法进行隔离。例如一万份文件中,1%的错误率就是100个错误对象,发现和隔离这些对象将是难题,并且还要将这100个错误对象从文件里集中移除,并决定每一个对象的错误原因。为了降低工作量,可采取以下三种措施:①根据错误原因对出现错误的档案集进行分组,档案人员能够检查该组错误模式的对象样本,决定错误原因;一旦错误被识别出来,整组档案都可能被修复;②将移交档案分割为若干独立的档案集单独处理,这就允许文件的尺寸得到优化,便于精确性检查和纠正错误,也便于重新提交;③保留错误报告。采集过程中生成的错误报告有助于帮助档案人员统计采集过程中哪些类型的错误警告频繁发生,可以分析其严重性和影响对象,以便于更新采集方法,避免同类错误的再次发生。(2)降低复杂度、简化设计,包括:①采集前由机构对档案内容或元数据进行格式转化,避免由数字档案馆采集功能执行格式转化工作,降低采集功能设计的复杂性和成本;②采集功能不进行错误纠正工作。为了降低复杂性和成本,采集功能应当集中于对数字档案执行质量检查,对于出错档案可以返回给机构进行纠正,再重新提交。
 
作者单位:南京政治学院上海校区信息管理系
<< < 1 2345 > >>




打印本页 关闭窗口

Produced By 大汉网络 大汉版通发布系统