一千零一夜
首页 > 一千零一夜 > OCR校者后记

OCR校者后记

《一千零一夜》纳训全译本历时数月总算整理完毕。下面我把自己的工作向大家做一下汇报。

现在的网络各种电子书满天飞,可以说应有尽有。而我上网搜肠刮肚地寻找《一千零一夜》纳训全译本的文本资料时惊奇地发现:这个本子居然找不到!后来得到一份网友上传的宁夏人民出版社出版的李唯中译分夜本全本,还难以释怀,仍感觉缺了纳本实在遗憾。纳先生作为《一千零一夜》汉文全译本的首开创者、他个人的汉语文修养及对阿拉伯文化的造诣颇深、翻译耗时巨大(几乎是毕生精力),这些都堪称之最。因而拥有纳训版本的精审电子本是我的夙愿。既然没有,那我就自己搞!我之所以这么热衷于文本电子书,只是想方便在手机上阅读罢了,而手机最适合的是txt格式。

我个人早就有这套书的纸质本,而我没法将之传上机子。幸好网上有人提供了纳训译的《一千零一夜》第一至第六册现成的PDF扫描版,总算有了整理的基础。我对汉文OCR一向是门外汉,于是边做边学,其间费时不少。

OCR对PDF扫描加识别之后得到的东西只是个“毛坯货”,之后我便在OCR软件上一行一行地审读修订,且随时把软件犯的常见识别错误归纳记录下来(例如:“日”误为“口”,“间”误为“问”,“遭”误为“道”,……),以备初步审核之后对遗漏错误再次查找。

幸好我的工作性质较为轻松,尤其是夜班期间没太多事情可办,这便成了我OCR工作的主要时间,每当夜班时,我做此种工作往往要忙到十一二点钟。况且我上夜班有个毛病就是次日早晨四五点钟就睡不着了,我就起床接着干!这段时间觉得自己很充实,每完成一册就跟过节一样高兴!

全部审核完成之后由OCR软件输出了txt文本,它的特点是:每隔一定长度就有一个回车的段落标记,这些海量的非“段落结束”的段落标记如果依靠手工消除那会要人命的,幸好此前我琢磨过应对办法,那就是在当初OCR审核当中凡是段落首位都添加上占两个汉字位置的“空格”(半角或全角的)。在此后需要消除段落标记时将输出的成品全文粘贴到Word的编辑窗口中去,利用Word的高级“查找和替换”功能把所有的“段落标记”替换为“无字符”,这样便得到了一个没有分段的“一整块”文字。再利用“查找和替换”功能把所有的段首空格(半角或全角的)替换为“段落标记”,问题便迎刃而解。

但这时的本子每个段首都顶满格,还不符合需要;我先把这个本子的内容粘贴到txt程序中,其次把txt窗口中粘贴的全部内容做一下剪切,之后将之粘贴到Excel中(每一整段占一个单元格),利用“&函数”给每段之前加上两个全角空格,之后再以txt做过渡,回贴到Word中便得到现文本,这才是“终端产品”。奥妙是:前后都要用txt做过渡(消除格式内容),以避免Word与Excel直接衔接产生的麻烦。

之后的找错也是很麻烦的事情,之前OCR软件常犯错误的记录派上了用场,而这种搜索工作量也很大。例如:“问”和“间”相混的问题,就需要把文中所有的“问”和“间”都找出来,由于这两个字是常用字,要是利用“查找和替换”功能一个一个地来那可能需要操作成千上万回,这时就需要“找窍门”。我把原稿粘贴到另一个Word中保存起来专做改错用,在这个本子中我把查找中遇到的常用词(例如:问题,疑问,询问,时间,空间,……)作查找之后作无字符替换,这样工作便可以“批量”进行了。就是这样工作量仍很大,剩下的就是耐着性子一天一天地干下来了。利用这个办法我又发现订正了大量错误。

我还发现:原OCR软件还有一种致命的错误:即校对完进行文本输出的时候有成页重复记录及成页丢失的状况,为了这,我参照原PDF书一页一页地核对进行了彻底的删补,最终把这个缺点克服了,在这中间又修订了一些分段错误。

每订正一处错误我都有一种欣慰感,感到自己的本子离精品又近了一步。

纳训毕竟是个老学者,他一生的经历跨越了好几个时代,从民国到建国,又到十年动乱,再到拨乱反正,所以他的知识面又广又杂,用词用字有些古旧和生僻,这是他的一种风格,很难用“好”或“不好”来概括。例如:“昳丽”这个词我仅在先秦的“邹忌讽齐王纳谏”一文中见到过(“邹忌修八尺有馀而形貌昳丽”)。“朦胧”一词,在文中还有“矇眬”、“蒙眬”、等多种写法。“肴”同时又写作“餚”。“糊口”有时用“餬口”。“弥”有时用“氵弥”,但这个字不易显示,所以我一律改为“瀰”。“钅从”这个字不能显示,所以我只好使用“鏦”。

查看资料可知,纳先生对于《一千零一夜》的翻译是很执著的,建国前开始着手,五十年代重译,十年动乱期间中断,七八十年代又重操旧业。由此可以看出他对工作的严谨和一丝不苟,老一辈学者的风范值得我们后辈为之钦佩。让我以自己的精审细校,来作为对他老人家的深刻缅怀吧!

网上有文声称纳先生的本子字数达240万字,我整理之后用word的“字数统计”来看,字数为180多万字,看来许多事情不认真办总是不易办好,那个“240万字”仅是粗略的估计而已。

最后说说我在《一千零一夜》纳训全本中使用的一些体例。

做特殊处理的三个字:“米云”(左右结构),记为【米云】,据文章所述可知它是一种甜食,可以做成锥形,馀者茫然无知;“革朶”(左右结构),记为【革朶】,我推测可用“垛”替换,因为该字在文中是这样描述的:“作为抵御箭镞的【革朶】靶”,可知这与射箭用的靶子有关,而古典文学中常说“一箭就上垛”;以上两个字任何字符集都没有。还有一个字“口格”(左右结构),这个字存在于Ext-B集,其Unicode码为20E9D,由于不易显示,故在此记为【口格】。

书中有许多注记,用符号①②等标记,我把每条注文尽可能放到离原文很近之处,即该文所在段落之后,注文与之前的数字符号(①②③等)之间放置一个半角空格。每条注记占一段,将注记用上下两行的“――――――”与正文隔开。

人民文学出版社出版的书籍其排版有一个特点:(一)对于一般正文多采用宋体,第一段一行放置不下,其馀内容折向第二行之时顶满格,第三、四行亦如此办理,直到该段内容结束。(二)对于诗歌,文字另行变换字体(例如:楷体、仿宋体等),诗文每句都另起一段,每个段首向内缩进四个汉字字符的位置,每段文字一行容纳不下就折向下一行并向内缩进两或六个汉字字符的位置(视具体情况而定)。(三)对于书信,文字另行变换字体(例如:楷体、仿宋体等),题头称呼内容内缩两个汉字字符的位置,书信其馀部分的每个段首内缩四个汉字字符的位置,一行容纳不下折向下一行并内缩两个汉字字符的位置。

以上的做法都是为了使诗歌、书信的内容在其他正文之间能得到突出显示。这两种处理方式在Word中都不难做到。我在Word中做了同样的处理。但是,如果把全文复制到txt中,第二、三两条的格式性的东西将消失。

纳训本子的目录编写没有使用“第一章”、“第二章”,“第一节”、“第二节”等的编法,仅在每册之首编一个“目次”,包括该册的所有故事:每个大故事题目顶满格,在此之下的小故事题目缩进一格,更小的故事题目缩进两格,……。我犹豫再三,我曾计划把各册的目次汇总统一,使用按数字逐个编“章”“节”等的方式重排;这样一来,正文也被揉成整个一篇,这样统一处理会好一些。但这样编排目录需要四个层次,“章”、“节”之外还用什么字眼感觉很是犯难;后来我决定采用现代科技论文对目录层次的编排方法:大故事用一种编号,中故事的编号在大故事编号之后用小数点隔开,小故事的编号在中故事编号之后再用小数点隔开……,例如:“152.11.1 两个国王的故事”。

这是经过本人下了血本的本子,错误即便有也不太多,希望您能喜欢。希望大家在阅读中将发现的错误通知本人给予指正,以便完善该本子。欢迎大家使用本版本制做各种形式的电子书,只是希望大家能够标明出处,以示对本人辛苦的尊重,则吾愿足矣。如有什么意见欢迎大家与本人联系。

校者2014年元月21日22时30分

校者邮箱:[email protected]

[email protected]

返回顶部