搜狗

百度

搜狗

360

搜狗

谷歌

搜狗
查看: 3630|回覆: 0

[漢語詞典] 字形整理與對應轉換(2)

[複製連結]
買櫝還珠 發表於 2011-1-24 13:35 | 顯示全部樓層 |閱讀模式
  來源: 中國漢學網
⑵閱讀古書,繼承文化遺產,也迫使我們不得不面對老式漢字。


    傳統的文化典籍都是用老式漢字印刷的,要繼承文化遺產,就必然面對古書,就必須要學習老式漢字。這雖然不是普通人民大眾的事,但畢竟有一大批人要從事這項工作。有人可能會認為,我們可以把古代文獻典籍都翻譯成現代文,大家就不用再學習老式漢字了。然而,要真正實現這一『宏偉藍圖』並不那麼輕而易舉。據報道,國家古籍整理出版規劃部門的一位工作人員,在向記者介紹古籍電子出版物時說:目前在古籍數碼化整理方面,國家還沒有新政策出台,因為有些特殊的技術障礙。首先,繁體字沒有國家統一標準,哪些該保留,哪些不能再用尚未最終確定。其次,繁體如何轉換成簡體成為一個研究課題,目前高校古委會與北京大學合作做這方面的研究,如何使這種轉化符合國家語言文字工作委員會的要求還在探討之中。第三是字庫容量問題,比如【康熙字典】中有些文字不能在電腦上顯示。古籍電子出版物原本投入很大,出版社要付稿費,要佔市場,而他們還得面臨繁簡轉化和造字的難題,畏難情緒是顯而易見的。


    即便能夠實現,都翻譯成現代文後,必然會丟失許多歷史文化信息,譬如語言文化信息等。譬如我們要查證一個漢字是從何時開始出現和使用的,由於受到非對稱繁簡字、非對稱異體字的煩擾,根本無法如願以償。例如在舊文獻中明明意思不同的『Y』與『谷』、『後』與『後』、『Y』與『斗』等字,在新式漢字的文本中都變成了『谷』、『後』、『斗』等字,因此,要想查找『Y』、『後』、『Y』等字的來歷,根本就沒有可能。據說有一位在國內出過好些書,發表過好些文章的專家寫了一篇題為『男尊女卑在漢語和德語中的對比』的稿子,立論是:漢字中,從『女』、從『母』的字多含貶義。這本來無可厚非,但他卻舉了『毒』字為例,並說:『從「母」,貶義』。實際上老式漢字的『毒』字下邊並不是個『母』,而是個『毋』。漢字簡化後,把這兩個部首合一,都寫作『母』,因此造成了這樣奇怪的『研究結果』。這說明,通過現代文本來了解古代文化,若作粗略的了解還是可以的,若要仔細研究的話,還是真正的古代善本、真跡才靠得住。要想做一個古代文化通,不學會老式漢字,恐怕是不大可能的。而要想使現代人能夠很方便的學會老式漢字,將新老漢字一一對應、相互轉換,無疑是最佳選擇。


    總之,『一一對應』,是我們高效、優質地學習和研究古代文化遺產的必然要求。只有一一對應,現代人才不會被錯綜複雜的對應關系所羈絆,才能順利跨過老式漢字的門檻,才能方便地轉寫各種古文化遺產。


    ⑶『一一對應』,也是漢字信息化處理的必然要求。


    漢字信息化處理過程中使用的電腦字庫,也要求新老兩種漢字體系能夠一一對應、相互轉換。由於不能一一對應、相互轉換,給字庫的編制帶來了說不盡的煩惱。有人說,繁簡轉換問題只存在於人際之間,不存在於電腦方面,這實在是『井底之見』。


    現在內地通行的字符集主要有兩個:一個是收6763漢字的【信息交換用漢字編碼字符集・基本集】(GB 2312-80),一個是收20902漢字的【漢字內碼擴展規範】(GBK)。前一個字符集只能輸入簡體字,與之配套的還有一個專收繁體字的【信息交換用漢字編碼字符集・輔助集】(GB/T 12345-90)。原則上後者是將GB 2312-80中的簡化字用相應的繁體字替換而成,這些替代的繁體字具有與被替代的簡化字相同的編碼。關於繁體字替換簡化字的原則,GB/T 12345-90 註明:『本標準原則上按照【簡化字總表】中所列繁體字與簡化字的對應關係進行替換。』『GB 2312 中,由於 60 年代漢字簡化被精簡的字有 103 個,這些被精簡的字根據繁體字處理系統的需要增補於 88~89 區。』其實這一表述不完全準確,大約有三分之一左右並未將繁體字形放在88~89 區,而是將簡化字形放在了88~89 區。例如:『豐』與『S』,漢字簡化時精簡了『S』字,以『豐』字替代,而 GB/T 12345 將被精簡的『S』字,作為『豐』的繁體,置於 23-65,而將『豐』字置於 88-19。(【網路燈塔】)所謂 103 個『被精簡的漢字』,只是就6763常用字的範圍而言的,就7000通用字的範圍而言,應該是132個(見下文【非對稱繁簡字總表】),更未包括被精簡(廢除)的大量異體字。例如,『N』和『』,作為『升』的異體字,被停止使用,GB/T 12345 亦未收錄。對於只簡化了其字義的某一個或幾個義項的,如『乾乾、後後、伙伙、麼麼、于于、余餘、折折、征征』等,GB/T 12345 的處理則顯得比較混亂。例如GB/T 12345 將『伙』置於 27-79,『伙』置於 66-23,與 GB 2312 編碼相同,即以『伙』對應『伙』,以『伙』對應『伙』。另一種情況是,GB/T 12345 將『後』置於 26-83,對應 GB 2312 的『後』,將『後』置於 65-65,對應 GB 2312 的『後』;將『征』置於 53-87,對應 GB 2312 的『征』,將『征』置於 65-71,對應 GB 2312 的『征』,顯然不甚恰當。這些問題的存在,都是與新老漢字不能一一對應密切相關的,並非計算機專家們水平差,如果妥善解決了一一對應的問題,一切問題都將迎刃而解。


    第二個字符集(GBK)是一個向下與 GB 2312 編碼兼容,向上支持 ISO 10646.1 國際標準的承上啟下的標準。ISO 10646 是國際標準化組織 ISO 公佈的一個編碼標準,即 Universal Multiple-Octet Coded Character Set(簡稱 UCS),大陸譯為【通用多八位編碼字符集】,台灣譯為【廣用多八位元編碼字元集】,它與 Unicode 組織的 Unicode 編碼完全兼容。ISO 10646.1 是該標準的第一部分【體系結構與基本多文種平面】。我國 1993 年以 GB 13000.1 國家標準的形式予以認可(即 GB 13000.1 等同於 ISO 10646.1)。ISO 10646 是一個包括世界上各種語言的書面形式以及附加符號的編碼體系。其中的漢字部分稱為『CJK 統一漢字』(C 指中國,J 指日本,K 指朝鮮)。而其中的中國部分,包括了源自中國大陸的 GB 12345、【現代漢語通用字表】等法定標準的漢字和符號,以及源自台灣的 CNS 11643 標準中第 1、2 字面(基本等同於 這個字符集的推出基本能應付通用漢字的信息化處理問題,為了解決更大範圍內的漢字信息化處理問題,ISO/IEC 10646中日韓統一編碼漢字Unified Ideographs Extension B(四萬餘字)也已經定稿,並從IRG上交ISO(國際標準化組織)WG2、SC2,2001年8月1日呈報ISO秘書處,納入ISO/IEC 10646-2:2001發佈出版。此前,ISO/IEC 10646-1:2000已於2000年10月5日出版公佈。這樣,ISO/IEC 10646所收入漢字(包括各種字體變形)已超過七萬個,有人認為,除甲骨文、篆文外,已能很好地滿足世界各地漢字使用的需要。但這是指研究方面,就社會的應用而言,目前大陸仍已BIG-5 編碼為主,並沒有接受GBK 規範的跡象。


    問題還在於,字庫雖然大了,由於一一對應的問題並未解決,兩岸又沒有一個統一的規範字表,致使CJK中大量充斥着互不被對方承認的不規範字。這在GBK 規範中也有反映。例如,有大量的應該類推簡化的漢字並沒有配上相應的簡化字,例如『M』、『x』、『r』等字,就沒有與之對應的『馬』字旁。當用電腦寫作時,如果遇到這類字,只得另外造字。然而手工造字,不僅費時費力、效果不佳,而且不能與他人共享和網上交流。這無疑給漢字的信息處理和交流帶來了不便。問題更大的是,由於簡化字和繁體字不能一一對應,在簡化字文本和繁體字文本相互轉換的時候,無法實現完全自動化,有時不得不親自動手,逐個判斷處理,大大影響了漢字信息處理的效率。計算機雖然號稱『無所不能』,實際上它只適合於有規則的東西,面對毫無規則的繁簡關係,任何軟件都難以做到盡善盡美。譬如Microsoft Office2000等軟件,雖然有智能化的繁簡字轉換功能,能根據上下文作出相應的用字選擇,但其轉換是以預先設定的詞語搭配為前提的,凡設定之外的搭配就無能為力。如果實現了有規則的一一對應,所有與繁簡轉換相關的問題,將變得易如反掌。


    總之,只有妥善解決了一一對應問題,兩岸的漢字字庫才能實現沒有障礙的相互轉換,才能讓軟件專家們從繁簡轉換的煩惱中解脫出來,從而可以騰出更多時間去做他們更應該做的事情。如果實現了一一對應,就可以消除那些『你有我無、我有你無』的非對應字,從而使整個字庫的總量瘦身減肥,漢字的信息處理和信息交流也將變得更為方便。

關於我們| 桂ICP備2022007496號-1桂公網安備 45010302003000桂公網安備 45010302003000

小黑屋|手機版|舉報|網站地圖|華韻國學網|國學經典

掃一掃微信:Chinulture|投稿:admin@chinulture.com

快速回覆 返回頂部 返回列表