華韻國學網 首頁 國學新聞 文化新聞 查看內容

搜狗

百度

搜狗

360

搜狗

谷歌

搜狗

古籍數字化:風景背後

國學新聞| 文化新聞

2011-7-18 00:00| 發布者: 順天道化| 查看: 1267| 評論: 0|原作者: 賈宇|來自: 光明日報

摘要: 【引子】 這些年,多部大型電子古籍資料庫的面世,讓『古籍數字化』工作看上去雜花生樹,一派春光爛漫。可是,當我們深入到繁華表象的背後,卻是『別有一番滋味在心頭』。我們選取 ...

【引子】

這些年,多部大型電子古籍資料庫的面世,讓『古籍數字化』工作看上去雜花生樹,一派春光爛漫。可是,當我們深入到繁華表象的背後,卻是『別有一番滋味在心頭』。我們選取清華大學智能圖文信息處理研究室和北京國學時代文化傳播有限公司,作為『解剖麻雀』的樣本;在此基礎上,記者與國家古籍保護中心專家委員會委員、中國社科院研究員楊成凱先生展開對話,從宏觀視角對古籍數字化相關問題進行觀照。

期待通過這組報道,引發社會各界對古籍數字化研發和生產的重視。

【故事】

(一)

清華大學智能圖文信息處理研究室――『誰為我們的技術買單?』

眼下,清華大學智能圖文信息處理研究室的古籍識別技術研究,幾乎處於停滯狀態。研究室主任丁曉青教授為此焦慮不安。

漢文字和少數民族文字識別技術研究,是丁曉青團隊20年來專注推進的一項工作。作為文字識別技術的具體化,古籍識別系統也在此間漸具規模。

丁曉青告訴記者:『對系統來說,識別和理解古籍要比現代印刷品複雜得多。而更有挑戰性的是,處理每部古籍時,系統都要面對嶄新的情況,比如,這部古籍有無鈐印、句讀、欄線,單行標註還是雙行標註,寫本還是刻本,普通的文本還是家譜、碑拓……此外,古籍中還有大量形態各異的異體字。情況異常複雜。要提高古籍識別系統準確性,必須讓它儘可能多地接觸古籍,提取出新的字樣來擴充字符集;同時,在識別形態各異的版式過程中,增強其版面分析判斷能力。唯有如此,別無他途。』

然而,接下來的問題就是:這些耗資甚巨的古籍訓練樣本從何而來?也正是這點,讓古籍識別技術的推進舉步維艱。

『現在,社會上對古籍數字化產品需求量本就不多,生產相關產品的企業更加稀少,幾乎沒有企業找我們合作,單靠市場這條路根本行不通。』丁曉青對記者說。

更讓她無法釋懷的是,『近10年間,古籍識別技術研究項目從國家一些重大規劃中漸漸淡出了。現在,識別技術研究無法得到國家政策和資金上的支持。系統無法接觸更多的古籍訓練樣本,要想提高識別能力根本無從談起。』彭良瑞副研究員遞給記者一份研究報告說:『與之形成對照的是,歐美對拉丁體系文字的古籍數字化研究卻方興未艾。近年來,歐盟26家圖書館聯合推出IMPACT(Improving Access to Text)項目,旨在通過OCR(光學字符識別)等技術的研究,來推動15-19世紀英文等拉丁體系文字的古籍全文數字化工程。』

現在,研究室里只有寥寥一兩個研究人員還在從事這項研究;而由於古籍識別系統日常使用太少,研究室入口處的公共演示平台也根本沒有裝入這套系統。

這種局面,讓丁曉青深感痛惜。在她看來,對古籍進行數字化,就是用技術手段將傳統文化『鏈接』進當代,不論對於古籍的保存還是中華文化的傳揚,都是功莫大焉。她也深信,要真正實現古籍數字化,『核心就是要解決古籍的識別技術問題』。在她眼中,古籍識別技術的優勢顯而易見:古籍收藏單位提供的圖像瀏覽方式不能進行全文檢索;而人工錄入校對古籍電子文本的成本大約是每頁8-10元,錄入一冊古籍的全文則需要幾百元至數千元不等。

『現在我們只能靠一份責任感來艱難、緩慢地推進這項工作。』整個採訪過程中,丁曉青反覆追問一個問題:『誰為我們的技術買單?』

(二)

北京國學時代文化傳播有限公司――『最致命的是易於複製』

北京國學時代文化傳播有限公司董事長尹小林從書櫥中搬下一冊影印本【文苑英華】,打開,桌案頓顯侷促。

隨着他的講述,一個耗時耗力的古籍數字化流程展現在記者面前。『前期先要選定古籍版本,比如【文苑英華】就有四庫本、明刻本等,要儘量搜羅內容完整的版本。之後,對文字進行分段、標點,錄入計算機。隨後,專業人員要對打印出來的文本進行校對,並由專家審訂,繼而由操作員在電腦上修正。這些工作都做完後,還要對數據進行標引和入庫。最後才是做成軟件。』尹小林說,每道工序都必不可少,像【文苑英華】6冊、1000卷這樣的體量,全部處理完要持續1年以上。

而對於公司全部工作量來說,這只能算滄海一粟。尹小林告訴記者,他們最大的一套數字化產品【國學寶典】現已收書6000種,最遲明年就能實現1萬種目標,屆時收錄的所有古籍加起來將達到20億字,比最大古籍叢書【四庫全書】的體量還多2倍。而每冊古籍都要重複同樣的工序,整個過程繁複、枯燥而漫長。

即使產品成形後,時間和人力的投入仍綿綿不絕。尹小林抱來一摞【古籍整理研究學刊】【古籍點校疑誤記錄】【中國典籍與文化】說,他每天做的工作就是大量掌握最新研究成果,隨時通查他們產品中的所有古籍,並及時進行修正和完善。類似工作從未間斷。

非但如此。尹小林團隊正憑一力推進,使自己的古籍數字化產品臻於完美:研發出數據格式和數據比對技術等獨有核心技術,請各領域專家擔綱古籍編選……

然而,艱苦的努力並未得到對等的回報。自產品面世那刻起,尹小林就再也無力掌控局面。

『誰來買?』這一點,尹小林作不得主。古籍數字化產品受眾面很窄,其需求量可想而知。而與微弱的需求形成強烈反差的是,要真正做好古籍數字化工作,必須投入高昂的人力、財力和時間成本。如今尹小林公司已購買了幾萬冊紙質古籍來充實資料庫,『且不要說明刻本、清刻本了,即便是現代影印本一冊也要幾百、上千元錢,這幾年光是購買古籍就投入了上千萬元。而對一部紙質古籍進行數字化,其成本將達到其定價的幾十倍。』利潤微薄,缺少外部投資,也讓試圖涉足這一領域的企業望而卻步。現在,古籍數字化市場上,只有少數幾家企業在苦撐局面。

『最致命的,是數字化產品很容易複製。』尹小林告訴記者,現在【國學備覽】光盤已經賣掉10多萬片,但是使用的人肯定遠不止這些。現在,尹小林能想出來的應對之道都被自己否定了――加密?成本太高,『加密一張盤就要多花幾毛錢,相當於從原本微薄的利潤里扣掉一半』;訴諸法律?取證太難,『假如說【國學備覽】已經在網上下載100萬次了,要怎麼證明呢?必須找到盜版的服務器和日誌,這對我們而言無異於天方夜譚。100萬次?我們甚至連一次都證明不了。』

不足掌心大小的光盤幾乎沒有重量,但它卻沉沉地壓在尹小林心頭。尹小林對記者說:『和賣好這些產品比起來,做好它們似乎還容易些。』

【對話】

『每個項目就只是一個孤立的實驗』

――對話國家古籍保護中心專家委員會委員、中國社科院研究員楊成凱

『古籍數字化遇到的第一個重要問題是怎樣處理異體字』

記者:與普通印刷品數字化相比,對古籍進行數字化處理會遇到什麼特殊問題?

楊成凱:古籍數字化遇到的第一個重要問題是怎樣處理異體字。今天所謂的一個字,古書中往往有幾個不同的寫法,有所謂繁體字、古體字、通假字等,例如古書有時把『嫦娥』寫成『常娥』,『然』寫成『V』,『法』寫成『』,這裡姑且統稱為異體字。把幾個異體字歸為同一個字,可以叫做給字歸『位』。

數字化的古籍資料庫最大的優勢是便於處理文字內容。在幾千萬乃至幾億漢字的古書資料中查找一個詞語,人工翻閱很難勝任,可是數字化以後編成資料庫交給電腦處理,檢索結果立等可取。然而這時異體字的問題會跳出來作怪,我們必需把可以歸併的異體字關聯在一起,當作一個字位,否則一個字有幾個異體就要檢索幾次,使用者不僅不勝其煩,而且還會產生檢索結果的遺漏。這時哪些字形可以關聯,哪些字形不能關聯,就是頗費躊躇的事情。我曾建議異體字的關聯應該給使用者一定的自由,以便按自己的需要對系統既有的關聯方式作一些移易。

記者:這個問題確實很複雜。有沒有一些現成的做法可供我們參考?

楊成凱:就以大型古籍資料庫『文淵閣四庫全書全文檢索系統』為例吧。系統有繁簡字關聯、古今字關聯、通假字關聯等功能,如果開啟繁簡字關聯功能,那麼要它檢索一個字時,無論給它的是簡體還是繁體,它都會連繁帶簡一起檢索出來,無須我們簡體查一次,繁體查一次,十分方便。然而這個功能還不完善,有時給它繁體它給出的檢索結果要多於簡體,這時若以簡體檢索結果為據就將漏去一些資料。

異體字的歸併和關聯情況確實十分複雜,我們平常說的【花草粹編】這部書,文淵閣本有時寫作『粹』,有時寫作『B』,『四庫檢索系統』中互不關聯,如果我們從書名『花草粹編』查尋,將找不到這部書。

『投入跟產出不相應,影響建設古籍數字資料庫熱情』

記者:除了以上談到的古籍數字化系統本身要解決的問題外,就我們採訪的情況來看,不論是古籍數字化的研究機構還是生產企業也都面臨很多現實問題,阻礙了它們內部的良性循環,有些問題甚至是致命的……

楊成凱:古籍數字化要解決的一個重要問題是版權的問題。書籍的數字化都有版權問題,但是對古籍而言,版權的歸屬和使用有特殊的困難。首先,要想編制多功能的數字化資料庫,要對古書進行標點整理,經過標點整理的文本就涉及版權的確定。一部古書,張三出版了一個整理本,李四再出版整理本,二者有沒有版權關係,這就是難以處理的問題。這個問題應該引起各方面的注意,認真研究。

其次,紙本古籍盜版較難,責任也比較容易認定。而數字化之後,資料庫中的數據容易被竊取,甚至會被直接盜版,發現侵權和認定責任頗有困難。投資開發古籍數字資料庫,就不能不考慮這個問題。『文淵閣四庫全書全文檢索系統』和『四部叢刊全文檢索系統』之後,這樣的大規模古籍資料庫沒有賡續面世,顯然與此有關。

還有就是投入跟產出不相應,在很大程度上影響建設大型古籍數字資料庫的熱情。作為一個產業,怎樣爭取更多的文化投資,獲得更多的回報,使古籍數字化興旺地發展起來,這是當前需要考慮的問題。

記者:如果從整個社會角度來看古籍數字化,可以說,目前古籍數字化的研究機構和生產企業大都是各起爐灶,並處於自生自滅的狀態。關於這一點您怎麼看?

楊成凱:現在社會各界都有使用古籍數字資料庫的需要,許多單位也在做古籍數字化工作。但是,正像你所說,古籍數字化的工作基本上是單幹,各籌資金,各立項目,缺乏信息、技術、成果的共享,也就難以形成一個大規模的系統工程。沒有大體統一的技術平台和設計思想,每個項目就只是一個孤立的實驗,而不能相互結合構成一個可持續發展的完整的系統。

特別是,在各方面對古籍數字化的人力物力投入還很有限的情況下,怎樣整合各方面的力量,用小作坊組成大生產,就顯得尤為重要。因此,如果說以前所做的工作是各出機杼,通過實踐做了許多探索,那麼現在是不是在總結經驗的基礎上,要更多地關注指導思想和理論模型的研究,解決我們所遇到的困難。特別是,理論的研究、技術的發展和實用的需要等各個方面需要很好地結合起來。

『行其所當行,止於其所不得不止』

記者:一般來說,對古籍進行數字化處理之後,其準確度、可靠性往往會有所降低,這讓使用者特別是專業研究人員用起來很不放心。這個問題怎麼解決?

楊成凱:的確。古籍數字資料庫讓人不放心的地方主要是擔心資料庫的文本不可靠,文字訛誤、底本不佳。底本的問題容易解決,現在已經出版了大量版本很好的古籍,只要編制資料庫時注意擇優選用就是了。消除文字訛誤則需要校對人員加強責任心。清乾隆時排印的【聚珍版叢書】,每頁都有校對人署名,出現錯字罰俸。我也聽先人說過,民國時商務印書館出版了一部字典,誰發現一個錯字酬大洋一元,我們家鄉果真有人得過一塊大洋。我們看上世紀五六十年代出版的書就很少看到錯字,有一部三十多萬字的書,我曾通校一遍,竟沒有發現一個錯字,令人讚嘆不已。可見如果說我們現在看到的古籍數字資料庫多有錯字,竟至不堪使用,那肯定是校對環節沒有下工夫,工作不到家。

記者:除了加強校對環節和責任心外,要提高古籍數字化的質量,傳統的古籍版本學、目錄學、校勘學等專業支撐也必不可少吧……

楊成凱:古籍數字化的工作,首先要確定數字化的對象是哪些古籍,每一部古籍採用哪一個版本。選哪些書要看打算編制怎樣的古籍資料庫,可以像【四庫全書】那樣泛及經史子集各個門類,也可以像【全唐詩】【十三經】【二十五史】那樣限定為一部書或一類書。選哪個版本要調查每部書的版本情況,按照數字化的要求作出抉擇。

像當年編纂【續修四庫全書】時,就是邀請各方面的學者選定書目,確定版本,工作相當認真。儘管如此,如今看來,還是存在一些問題,可見確定書目和確定版本不是簡單的事情,即使行家通人也有失手的時候。考慮到編制古籍資料庫需要相當的投入,起步階段更需要慎重,書目和版本都有必要反覆『磨勘』,聽取更多的意見。

記者:而另一方面,古籍數字化的優勢也是不言而喻的。那麼,我們該怎麼看待古籍數字化工作?

楊成凱:大型古籍數字資料庫的建立,對學術研究和社會方方面面利用傳統文化資源有不可估量的裨益,許多依靠人力頗感棘手的工作,在電腦可以悠遊為之。在我看來,大型計算機軟件難免出現瑕疵,古籍數字資料庫設計的程序也會出現問題,像剛才說到的異體字關聯的問題就是例子。遇到這種情況可以隨時修正,何況古籍數字資料庫目前使用的還是較簡單的計算機程序,發現錯誤和改正錯誤都比較容易。既然事實已經證明它是學術研究的有力助手,那麼只要慎重將事,還是讓數字化行其所當行,止於其所不得不止吧。


鮮花

握手

雷人

路過

雞蛋

相關閱讀

最新評論

關於我們| 桂ICP備2022007496號-1桂公網安備 45010302003000桂公網安備 45010302003000

小黑屋|手機版|舉報|網站地圖|華韻國學網|國學經典

掃一掃微信:Chinulture|投稿:admin@chinulture.com

返回頂部