陳得媛(華中科技大學圖書館) 光明日報
古籍數碼化工作從最初摸索嘗試、零星製作到當前規模開發,己經取得令人矚目的成就,一批基礎性的古籍文獻被開發為真正意義上的數碼化產品,並成功走向市場。但我們應該看到,古籍的數碼化是一把『雙刃劍』,它在給讀者帶來便利和效率的同時,也給讀者帶來一些負面影響。如果對這些負面影響缺乏客觀和全面的認識和評估,不採取一些切實有效的措施加以糾正,將進一步助推浮躁不實的學風,從長遠看,也會影響到古籍數碼化工作的可持續發展。
其一,古籍數碼化養育出許多讀者不讀原典的風氣。古籍數碼化雖然給讀者帶來了便利和效率,但也在悄無聲息地弱化讀者、尤其是青年讀者的古籍閱讀能力,甚至養育出許多不讀原典,只會檢索的學術『懶人』。在急功近利世風的影響下,越來越多的讀者不去認真閱讀原著,只是根據預設的想法,在數碼化古籍中檢索、複製、下載能證明或支持自己預設想法的文獻材料。斷章取義,曲解材料,不考慮句意、語篇,不了解古籍中相關事項的其他論述,只是根據檢索結果,任意剪裁文獻,對問題的理解不恰當或是得出的結論似是而非的現象很突出。古籍數碼化使讀者學習和研究的效率提高了,但學習和研究的品質卻降低了,長此下去,讀者,尤其是青年讀者古籍閱讀和理解能力會不斷弱化,這種狀況不能不令人憂慮。
其二,古籍數碼化使讀者勤於檢索,少於思考。系統地閱讀一本書與從一本書中檢索出特定的資料,是兩種不同性質的學習或研究過程。前者是與典籍作者對話,在閱讀中思考,在閱讀中提升自己的知識水準和思想境界,而後者只是一些特定資訊的獲取。在古籍數碼化以前,邊讀書邊作卡片,幾乎是所有先生對學生的基本要求。除卡片式筆記之外,另一種重要的閱讀方式是邊讀邊作批註,手中執卷並圈點批註已是人們長期以來養成的一種閱讀習慣。傳統閱讀的卡片記錄和批註,暗含着讀者對事物的認識態度和分類意識,而數碼化古籍以資訊檢索為基本內容的閱讀方式帶給人們的是囫圇吞棗式的閱讀。讀者通過他們的指尖獲取大量資訊是重要的,但從教育以及學術意義上來說,他們僅僅通過檢索到的關鍵字來閱讀一些簡單的資訊,而忽略了原文的具體內容,從而把閱讀做成了資訊獲取的速食,抹去了讀書過程中必不可少的思考和體悟。從某種意義上說,數碼化的古籍對於一些讀者來說,已經不是一本書了,而只是沒有情感、冷冰冰的資訊數據庫而已。
其三,古籍數碼化易使讀者用電腦代替人腦,不重視隱性資料。數碼化具備異常快捷的檢索、統計功能,字、語詞、事項最早或原始出處的查找,都可以在瞬間完成。但這種檢索功能也帶來了另一個問題——誤引、誤用成為常事。現在一些讀者不是逐書翻檢,只輸入關鍵字詞,點擊鼠標。殊不知,這樣檢索的結果,並不都是可靠的。目前數碼化古籍全文檢索的功能還相對單一,還不能滿足讀者的多元需求。因為這些全文檢索,只能是關鍵字的檢索,不論是單詞檢索,還是組合檢索,檢索一次,都只能檢索到與輸入的詞語嚴格匹配的資料,而不能檢索到不含輸入的詞彙而實際相關的資料。也就是說,數碼化古籍目前只能固定檢索海量資料,而不能智慧化地檢索和生成新的資料。因為不能智慧化檢索,所以,我們無法窮盡古籍文獻裏的資料。如果說,用關鍵字檢索人物資料,通過組合檢索或多次檢索的方式還能比較全面地查到所需資料的話,那麼,查找相關主題的資料,就更加困難了。比如有讀者查【四庫全書】中有關文學傳播的資料,但是古人並不常用『傳播』這個概念,如果用『傳播』作為關鍵字,就無法查到【四庫全書】中蘊藏的大量的文學傳播資料。檢索不到【四庫全書】中以『傳播』為主題詞的資料,並不等於說中國古代沒有相關的文學傳播方面的人和事。正如吳夏平先生所指出的那樣,中國古代文獻由於漢語的模糊性和不確定性,容易產生歧義,字面所反映的並不一定就是事物的真實意義,如果要了解事物的全部內容,則必須從字裏行間去尋找『言外之意』或者『微言大義』。這就需要我們去仔細閱讀原典,細心體會文獻中的隱意,再強大的檢索也無法代替。
其四,品質低劣的數碼化古籍產品誤導讀者。一是錯字錯句多。在網絡上傳播的一些數碼化古籍因為輸入錯誤或者文字識別技術上的不足,篇章搞亂者有之,錯字錯句者有之,如果從網絡上直接下載複製這些文獻資料而不核對原文,一定會出現許多硬傷。二是正文和注混在一起。我國古籍一般都是把正文和諸家註解刻印在一起,並用字體大小或低兩格的方式把正文和註解分開。由於一些古籍數碼化工作者粗心大意或者古籍素養不足,往往把正文和注混在一起了。如網絡上傳播的一些數碼化的【二十五史】,沒有區分正文和註解,誤導了許多缺乏傳統文化素養的讀者。三是疏於校勘。一些商業機構在進行古籍數碼化產品開發時,嗜利忘義,忽視了古籍數碼化工作的社會責任,導致古籍數碼化數據庫錯誤嚴重。另外,由於古籍出現於不同的時代,從手抄本到各種技術的刻印本字體極不規範,除了繁簡字的問題,還有大量的異體字以及專用名詞。一字多形、多義,一字多音,通假字,古今字,錯訛字,異體字等現象在古籍中相當普遍。在古籍數碼化過程中,一些數碼化古籍產品開發者忽視版本的選擇,內容的校勘和特殊字詞的處理,致使這樣一些特殊漢語字詞被亂用和錯用。四是古籍中一些特殊字詞古今混用。在文字識別和繁簡體轉化過程中,由於技術問題,一些古籍中的字詞不能識別或識別有誤,一些繁體字雖然有相對應的簡體字,但有些繁體字在特殊的語境中不能簡化,如作為姓氏的『岳』就不能與繁體『岳』互轉,劉知幾的『幾』作為人名就不能簡化為『己』,繁體的『發』、『發』本身代表不同的內涵,但都簡化成『發』。這些都是在古籍數碼化工作中應該嚴格按照古籍中字詞應有之義進行技術處理的,但許多數碼化古籍沒有做這方面的工作,而讀者在運用數碼化古籍時不能區分。
總之,古籍數碼化工作是當代科學技術發展的重要成果,是不可逆的發展趨勢,任何反對、阻止這種潮流的想法和做法都是不可取的。但是,我們對古籍數碼化給讀者帶來的一些負面影響也應該有清醒的認識和正確的評估,並通過一些行政的、學術的手段和技術革新把這些負面影響降到最低程度,保證學術文化事業的不斷進步,保證古籍數碼化工作的可持續發展。 |