古籍是今日可見的文言時代的全部話語,在數位化時代到來以後,受到中文信息處理技術界的特別關注,成爲後者技術移植和創新實踐的實驗場。20世紀70年代以來,古籍數位化產生了眾多成果。從字庫擴容到文本識別,建立起一批切實可行的古籍數位化整理標準,嚴格流程下加工的古籍文本,規範而整飭,優質的數位化文本不斷積累。 已有的數位化文本,爲閱讀和研究提供了極大便利。用戶可在某部圖書或者在某個平台上的全部圖書中搜檢需要的字詞,進而獲取相關的內容。輔之以相應的工具,則可以進行統計、校對、詞語匹配、內容聚類等工作,轉換爲古籍整理的工作語彙,就是說能夠用計算機工具來處理文本校勘、詞語名物注釋、專題資料彙編等任務。 這些應用是從古文獻領域來說的。從數據科學的角度看,近幾年來,以深度學習爲代表的大數據相關技術已成爲當代科技發展的重要標誌,滲透到社會各個領域,對各學科的知識體系及研究方式都帶來了很大衝擊。作爲已有相關數位化基礎的古籍整理專業,也需要認真思索,爲拓展研究路徑尋求有效的方法。 過往的學者在史料的爬梳尋檢上既有真知灼見,又有宏大設想,只是限於物質條件和工具手段不得實現。如清代章學誠就已認識到索引的功用,提出應將古籍中的人名、地號、書目等一切有名可治、有數可稽者都製成韻編(即音序索引),以收事半功倍之效。但直至清末,這類索引的編制都寥寥無幾,究其原因,在版刻刷印時代,不能不考慮篇幅巨大的索引帶來的出版壓力。 作爲清華大學中國古典文獻研究中心的兼職研究員,近年來我與中心同人合作,把古籍數據化及基於數據化的中國古代知識工程作爲重要的學術思考方向,期望藉此讓古籍文本更有效地服務於實現傳統學者的最高理想境界,即梁啓超所謂的『探察人間全體之運動進步,即國民全體之經歷,及其相互之關係』。 柳詒徵曾說,『史之所紀,則若干時間,若干地域,若干人物,皆有聯帶關係,非具有區分聯貫之妙用,不足以臚舉全國之多方面,而又各顯其特質』。在傳統的古籍整理手段下,學者們對此已做了很多嘗試。如傅璇琮先生主編的【唐才子傳校箋】,從群體觀念、以箋證方式考證近四百位唐代重要詩人,將他們的生平和創作分事項列出,一一標舉在不同文獻中的記載和後人的考訂,局部實現了這一學術理想。 中心以此爲目標與追求,擬進行『中國古典知識庫』(Chinese Classics Knowledge Base,簡稱CCKB)的建設工作,在保障古籍文獻內容完整性及內部邏輯的基礎上,突破文獻原有結構,關注文獻中的年代、地域、人物、社團、著述等實體的相關屬性及不同實體間的關係,通過這些實體及相互關係對文獻進行深層組織和知識管理。歷史上的各種事物都在相互作用中發生、演進、湮滅、更新,這些事實散見於各類古籍中,有必要將其按客觀的面貌梳理出來。 中心參與了國家重大科技文化項目『中華字庫工程』,從傳世宋元刻本文獻中採集了大批經典文本,又參與不同專業出版機構的古籍主題詞表及知識庫建設工作,積累了較爲豐富的經驗。目前,CCKB已涵蓋數以百萬計的實體,千萬計的實體屬性及實體間關係,但還遠不足以覆蓋古籍文獻內容。 知識庫不僅能夠智能化地保存和管理已有知識,還可對外提供便捷訪問所需的知識接口,幫助人們準確、高效地獲取知識資源。科技界在知識庫構建方面已經做了大量工作,其工作思路和方法可作爲我們的重要參考。比如,谷歌很早就提出知識圖譜的概念,用符號來描述物理世界中的概念及其相互之間的結構,構建用於知識獲取的網絡服務。目前,該資料庫已包含超過數億個實體及實體關係,力圖涵蓋地球上所有書籍以及網站上的內容信息。專門領域的知識庫也開始出現,哈佛大學費正清研究中心主持研發的『中國歷代人物傳記資料庫』(China Biographical Database Project,簡稱CBDB),以中國歷史人物爲中心,對重要的工具書詞條及傳記資料進行數位化處理,提取人物及人物之間的社會關係,爲學術研究提供了諸多便利。 這些經驗印證了CCKB構建的可能性及廣闊前景,也在操作方法上給予我們很多啟示。多年來,我們主要採用人工方式提取各種實體,構建其屬性和關係,穩妥而效率不高。清華大學在計算機及信息處理技術上有得天獨厚的優勢,在古文獻研究這一傳統領域也有著相當的實力,兩相結合,應是未來中心構建CCKB的方向。清華大學計算機科學與技術系孫茂松教授的團隊通過計算機對大量古代詩歌文本的深度學習,自主研發了古典詩歌創作系統,可以按照任意給定的主題或體裁,創作出格律謹嚴、內容合理、情感協調的律詩作品;清華大學統計學研究中心鄧柯副教授首創『無指導中文文本分析技術』,即脫離先驗詞表的支撐,通過反覆計算學習,可以初步實現對古籍文本的詞語切分,爲後續的標點斷句、專名標註等工作提供了進一步審訂編輯的基礎。 結合這些高新技術手段,發揮文獻中心傳統古籍整理研究思路和基礎實踐等方面的長處,一方面,已提取的實體以及各種關係模型可以起到先驗詞表的作用,輔助開展實體及關係提取等文本挖掘分析工作,進而豐富擴大知識庫的知識規模;另一方面,各類實體及其關係的抽取過程,實際上也是文本的標引過程,兩者反覆互動,最終將實現知識庫與文獻的映射與連結,從而達到所有文本的多維度有序提取、排列及重新組合。 在大數據技術支撐下,我們希望與多方通力合作,充分利用新技術手段和研究方法,構建古籍領域內完善的、足以映射全部內容的知識庫,爲今人及後人的古籍整理與文史研究提供一個可用的、好用的通用平台。 (作者:張力偉,系中國出版集團研究員) |
掃一掃微信:Chinulture|投稿:admin@chinulture.com