从上文调研情况可知,网络存档质量保证工作以人工操作为主,而质量控制专家背景知识、技术水平及工作熟练程度各不相同,为避免人为因素导致的数据质量问题,应当为网络存档工作制定统一的业务标准和严格的工作规范。推荐制定的标准规范包括:
(1)数据质量标准。前文提到的高质量网络存档数据概念,只是一个理想化的定性描述,存档机构应当在完整保存知识性内容、完整保存视觉内容和浏览体验、尽快地完成采集任务这三者之间进行平衡,根据采集任务的目的和需求为数据质量制定量化的便于操作的标准,这是一切质量保证工作的基础。
(2)数据格式标准及元数据规范。常见的网络存档数据格式有WARC、ARC和KW等,其中WARC是国际标准兼国家标准,是网络存档领域首选的数据标准,ARC和KW是行业标准,正在逐步被WARC所取代。制定存档网站对象元数据规范便于将来对网站对象和存档数据进行管理,内容应该包括网站题名、主要内容标签、采集时间、容量、URL数量、地理位置等,其中地理位置和主要内容标签可以用于筛选网站是否符合采集要求。
(3)软件使用标准。网络存档工作需要使用的软件工具包括采集软件、分布式存储软件、杀毒软件、回放软件等。应制定相应的软件使用标准,明确各类软件工具的选择范围、版本以及标准配置等。例如,目前最常用的采集软件是Heritrix和Wget,常用的面向用户桌面的工具是WarcCreate软件,在业务工作中可限定只允许使用Heritrix软件进行采集,并对所使用的规则进行严格限制,以确保生成数据的一致性。
(4)种子筛选、排序标准。无论是国域采集还是专题采集,可以参考一些知名数据统计排名进行种子筛选,例如Alexa排名等,也可以参考一些现有的、较为权威的网站列表等。对种子网站的选择设定一个标准,可以保证原网站的数据有较好的质量。种子筛选完成之后一般会依照某些特征,对符合要求的种子进行优先级排序,并根据需要设定每个种子网站的采集时间、采集频率、采集范围等。制定种子排序标准可以更有针对性、更有序地开展网络资源存档。
(5)爬虫默认配置。深度采集和广度采集是最常使用的两种采集方式。采集团队应该根据自己业务的需要,提供这两种采集方式的爬虫默认配置,然后根据具体的种子采集需要,对爬虫配置进行尽可能小的修改。这样能尽量减少主观原因导致的爬虫参数配置错误,从而提高采集的数据质量。
(6)各类操作规范。网络存档是一项人工干预程度比较高的工作,鉴于人工操作的随意性,为每一个程式化的步骤制订便于执行的工作流程及规范将大大提高每一步操作的规范性,降低错误发生的几率,例如:预采集工作流程及规范、日志检查工作流程及规范、病毒筛查工作流程及规范、软件回放质量检查工作流程及规范等。