古腾堡计划电子图书的校对方法

古腾堡计划电子图书的校对方法

 

1引言   “古腾堡计划”是全球最具影响力的免费电子书网站之一。它由美国的迈克尔•哈特(MichaelHart)创建于1971年。经过多年的发展,它已拥有超过38000种精校图书向全球读者提供免费服务,既可以在线阅读,也可以下载mobi、epub等格式的文件在亚马逊、苹果等厂商生产的移动设备上阅读。2012年2月,其Alexa全球排名已进入前5000位。“古腾堡计划”采用了分布式建设的模式,其图书大多由来自世界各地的众多志愿者进行加工。由于志愿者在能力、素质以及工作热情等方面存在着诸多差异,为保证古腾堡图书的质量,加强校对的精度显得日益重要。在这个背景下,2000年,CharlesFranks建立了“分布式校对”系统,以支持“古腾堡计划”图书的数字化文本建设。最初,这个“分布式校对”系统从属于“古腾堡计划”。2002年,它有了自己的官方网站。2006年,它成为单独的法人实体,但依然与“古腾堡计划”有着密切的联系,由这个系统产生的电子书,是“古腾堡计划”图书最重要的来源[1]。   2“古腾堡计划”电子图书制作流程   “古腾堡计划”的电子图书之所以受到广泛欢迎,是因为它既是免费的,又是高质量的。它的图书制作遵循着一个非常严格的流程:(1)使用在线的软件和数据库创建图书馆。(2)世界各地的内容提供者将图书扫描,并将扫描件上传到图书馆。“古腾堡计划”根据美国版权法对电子书进行版权验证,只有版权过期者才可以添加到计划的列表中。(3)参与校对的志愿者选择一本图书进行校对。(4)这时候,网站会显示给校对者一个网页,内容包括扫描文件和通过文字识别软件产生的文本文件,校对者通过两者的比对进行校对。这极大地减少了校对者的工作量。(5)除了修正文字识别软件所产生的文本中的错误,校对者还需标注原著中的粗体、斜体字以及脚注等内容。(6)校对是协作式的,来自世界各地的志愿者通过互联网可能对同一本书的不同页进行校对。校对者在完成了对某本图书一页的校对后,可以再申请新的校对页,也可以退出校对。有意思的是,“古腾堡计划”并不鼓励校对者一天校对太多的页数,他们的建议是“一天一页”。他们认为,每个人每天对校对工作贡献的绵薄之力,最终会形成生产数字图书的强大力量。2004年,“古腾堡计划”的管理者自豪地宣布:平均每天有300~400个志愿者参与校对工作,平均每天完成校对页数4000~7000个,这意味着每分钟完成校对4个图书页。实际上,2004年以后,志愿者数量和校对页数总量等数据每年都有相当大的增长[2]。(7)校对过的图书页会保存在网站的数据库中,等待下一轮的校对。“古腾堡计划”的校对会有2轮,以尽量避免错误的发生。(8)当所有的图书页都经过2轮校对后,“古腾堡计划”的处理软件会将其整合成一本完整的数字图书,并且再进行一次错误检查。由于一本书的校对很可能是由多人完成,因此这时的重点在于一致性的检查上。(9)通过检查后的图书会被归档,并上传到全球各地的镜像站点,向全世界提供免费阅读和下载[3]。可以看出,“古腾堡计划”的数字图书制作,奉行“质量优先”的原则。虽然它的图书数量并不太多,但涵盖了莎士比亚、列夫•托尔斯泰、马克•吐温等著名作家的经典作品,另外也包含了许多非文学类的名家名作,而且这些都是相对可靠的电子文本,为世界各地的读者进行阅读、欣赏和研究提供了极大的便利。   3分布式校对的几个关键环节   3.1分布式校对与集中化管理   “古腾堡计划”的图书校对和制作虽然是由各地的志愿者采用分布式的方法完成的,但其基础却是集中化管理。在版权认定、决定哪些图书可以进行扫描、校对与提交以及图书的整合、等方面,都不是由志愿者自由和随意地进行,而是由“古腾堡计划”的核心小组统一安排。“古腾堡计划”的管理者会在广泛搜罗图书的基础上对未加工的图书进行审查和鉴定。作为非赢利性组织,“古腾堡计划”准备加工图书的来源非常庞杂,很多图书来自图书拍卖会、图书馆的剔旧以及各类捐赠。志愿者会将这些图书的封面、封底和版权页扫描,送交“古腾堡计划”的版权小组进行审查。版权小组由熟悉知识产权领域法规的专家组成。只有通过审查的图书,才会被允许进行数字化加工。这一举措,有效地避免了可能出现的知识产权纠纷。一旦通过了版权审查,相应的纸质图书会被送交个别志愿者,他们将书脊拆散后扫描,在得到扫描图像的同时,用文字识别软件产生与图像文件对应的文本,然后将这些文件上传到服务器。这一工作过程也是相对集中的,仅由少数较为可靠的志愿者完成,这样可以保证扫描与文字识别的精度。上传到服务器的文件进入“分布式校对”系统,在互联网上。这时来自世界各地的众多志愿者就可以利用该系统进行分布式校对。在所有的工作环节中,项目管理员(ProjectManager)、后期制作员(PostProcessor)发挥着重要作用。项目管理员负责监控数字图书的制作过程,后期制作员负责在校对完成后整本图书的整合工作,包括确定图书的题名是否正确、图书结构是否完整、是否有缺页等[4]。可以看到,“分布式校对”系统的设计针对的是在电子书制作中工作量最大的校对环节,它运用Web2.0的思维,利用众多志愿者的合力突破了图书数字化工作中的瓶颈。同时,在电子图书的制作过程中坚持严格的质量控制,在目标确认、工作流程制定、质量监测、图书等环节均由专家进行集中化管理,遵循严谨的规范。   3.2校次的管理   为了防止疏漏和失误,“古腾堡计划”电子图书的分布式校对并非一次成型,而是坚持多次交叉校对。他们把不同阶段的校对文本分为“铜文本”(Bronzee-texts)、“银文本”(Silvere-texts)和“金文本”(Golde-texts),这与中国古代校雠的“三校”制有异曲同工之妙[5]。“铜文本”指那些处于最初校对阶段的文本,任何注册后的志愿者都可以在上面展开工作,主要任务是清除用软件进行文字识别所产生的错误。新加入的志愿者只能从事这一阶段的工作,整本图书的后期加工与合成则由富有经验的资深志愿者完成。“银文本”指那些已经经过校对并按照规定的编排格式整合成型、处于后期加工阶段的图书,这一阶段的主要任务是进行一系列准确性和一致性的检查。“金文本”指那些完成了一系列校对、格式编排、后期加工等程序,提交到古腾堡网站供读者下载使用的图书。当然,这类图书的文本也并非不可更改。考虑到数字图书生产的复杂性,各个环节的工作稍有疏忽都可能造成错误,“古腾堡计划”建立起了强大的报错机制。志愿者和普通读者都可以向古腾堡的管理者报告其正式的图书中的错误。对于报错,“古腾堡计划”也有一套自己的流程和标准,例如对目录错误和文本错误的报告区别对待,对如何报告缺字、排印错误等,都有具体的要求[6]。严格的校次管理,保证了数字图书的质量。强大的报错机制,使得“古腾堡计划”的图书始终处于不断自我完善的过程之中。#p#分页标题#e#   3.3“阅读校对”环节   “古腾堡计划”的电子图书制作,有一个“阅读校对”(smoothreading)的环节,用来发现校对容易忽略的错误,他们欢迎更多的志愿者作为阅读者(SmoothReaders)参与到校对工作中来。这与中国古代强调的读校法有几分相似。读校法是重要的校对方法,对充分调动各感官的功能,避免生理和心理疲劳,实现优质高效的校对目标,很有作用。当然,对于阅读时是否必须出声朗读,“古腾堡计划”并没有硬性的要求。“古腾堡计划”将经过对校之后的文本放在一个专门的数据库中,供阅读校对者使用,每个文本之前都有对这些文本性质的描述以及阅读校对的具体要求,志愿者可以方便地查询自己感兴趣的文本。志愿者下载了文本后,就可以进行阅读。在阅读过程中,无论是发现影响流畅表达还是使自己感觉困惑的段落,志愿者都可以添加标注。当然,一些明显的错误,志愿者也可以直接进行修订。“古腾堡计划”建立了一个机制,使阅读者和进行图书的后期加工的志愿者能够很好地协同工作。当志愿者选择朗读某个文本时,可以通过网站发送信息给从事图书后期加工的志愿者,让他知道目前是谁正在对文本进行阅读校对。而阅读校对的成果,无论是有根据的改正还是无把握的存疑,又都可以通过网站及时地反馈给进行图书的后期加工的志愿者[7]。   3.4寻求更大的用户参与度   “古腾堡计划”电子图书的生产,工作量是巨大的。因此,如何召唤更多的志愿者参与其中,是保证“古腾堡计划”活力的关键因素。“古腾堡计划”在其网站上专门设置了“志愿者之声”的栏目,让志愿者代表现身说法,解释他们为什么愿意花费那么多业余时间进行免费电子书的制作,从中能够得到怎样的乐趣,从志愿工作中如何能够寻找到生命的价值和意义,从而彰显网站“创造和分享知识”的核心价值观。榜样的力量是无穷的,“古腾堡计划”希望通过这种方式,吸引更多的人参与到网站建设中来[8]。“古腾堡计划”非常重视网上宣传,尤其重视反向链接的数量。为此,他们专门制作了官方的按钮和广告横幅,植入了网站的链接,以HTML代码形式,鼓励各类网站和博客插入这些代码。这些按钮和广告横幅有80×15、104×40、104×90、104×104、468×60等不同像素大小,有的是静态的,有的有动画效果,以适应不同网站和博客的不同需求。随着“古腾堡计划”的影响力的不断增大,其反向链接数量不断增多,据Alexa的分析已经超过了3.1万个。众多的反向链接不但为网站带来了大量的读者,同时也带来了更多的志愿者[9]。此外,Facebook、Google+、Twitter等社交网络应用也被用于扩大网站的影响。“古腾堡计划”善于将大的工作任务分解细化,以适应不同志愿者的能力、素质和兴趣的差异。除了校对工作外,志愿者还可以承担提供纸质图书、烧制电子书光碟供没有互联网接入地区的人们使用、在网络上宣传等不同性质的任务。让人们做自己擅长和感兴趣的事,这种理念也有助于志愿者数量的增长,有利于用户参与度的提高[10]。   3.5详尽的帮助文档和协作者社区的建立   由于参与电子书制作的志愿者是一个非常庞大的群体,为有效地协同工作,“古腾堡计划”提供了非常详细的帮助文档,建立了一个FAQ中心,内容包括入门性质的概况介绍、分布式校对、格式编排、图书后期加工、项目的创建和管理、如何指导新手、建议、报错与开发、邮件列表等诸多方面。以分布式校对为例,帮助文档内容涵盖校对的指导方针、摘要、细则、为新手准备的教程与测试以及校对软件的使用指南。标准版和加强版软件的使用指南分别列出,以方便志愿者的查询[11]。“古腾堡计划”为参与分布式校对的志愿者提供了一个BBS论坛,为大家的交流提供了一个网络平台。论坛分为新手入门、站务、活动、项目、社区、软件使用、基金会等子版块。如果志愿者在校对过程中遇到疑问,在帮助文档中又无法找到,可以在论坛中发表论题,寻求帮助,展开讨论。论坛的活跃程度较高,共拥有超过10万的注册用户,发表了超过70万的论题。协作者社区不但是志愿者答疑解惑的平台,也是志愿者凝聚力的重要保证[12]。   4古腾堡模式的借鉴意义   实践证明,由众多用户参与内容建设的Web2.0方式,比闭门造车要有效率得多。目前国内有许多失去著作财产权保护时间限制的图书,包括大量有价值的古籍,并没有进行数字化加工。许多图书馆和其他机构想要进行这一工作,因为庞大的工作量又没有充足的经费和人员支持从而裹足不前。如果我们能够参照“古腾堡计划”分布式校对的工作模式,动员大批志愿者参加图书数字化工作,并让成果能被全社会所用,无疑是社会文化建设的一大盛事。   “古腾堡计划”以其严谨踏实的作风为人称道。这提醒我们在图书数字化的过程中必须奉行质量优先的原则,保证数据的完整性、真实性与可靠性。协作与分布式的工作,离不开工作流程的标准化与规范化。我们的数字图书馆建设工作,也应当注重顶层设计,理清各工作环节之间的逻辑关系,优化协调与控制机制,加强质量监控。这对于提高电子图书的质量,具有非常重要的意义。   “古腾堡计划”自创建至今,历经40年,却历久弥新,风采依然,其运作模式与工作思路,值得我们学习和借鉴。