漢字簡化引發語言混亂將令子孫後代無法正確閱讀典籍

延章 · 發表於 2012-10-4 22:56

前言：

華夏文化能延續數千年，其功當歸漢字的嚴謹造字規律及六書的系統化。秦漢以降，漢字造字規律固化（漢字造字常用五書，則除通假以外的象形、會意、指事、形聲、轉注），以至於漢字字體雖數有變化（篆-楷-宋），而其字形結構始終如一。此則華夏文化罹盡千災萬難而傳承不斷的基礎——文化載體，漢字。

然而，近代五四新文化以來，華夏文化正面臨滅頂之災：一、文化基礎——其載體漢字遭全面破壞；二、華夏文化系統結構遭受從根挖起——陰陽理論及其啟發的春秋以降諸子百家學說，被西漸之『科學』等文化思維徹底替代。

無論近代以來的知識分子是居於救國救民之善意，或是居於謀求一己私利，其所作之對華夏文化的整體性破壞，將使其成為華夏民族，乃至全人類的罪人，待華夏文化重立世界，其罪行必將曝世。

本文將從技術角度淺探簡化漢字對漢語言的系統性破壞。另註：本文主體內容摘引自『北大中文論壇』

原作者柔昆北大中文論壇
原題：從技術角度為我們的簡體字挑挑刺!
本帖主題：漢字簡化引發語言混亂將令子孫後代無法正確閱讀典籍
摘引之正文如一樓始

延章 · 發表於 2012-10-4 22:59

從技術角度為我們的簡體字挑挑刺! 柔昆

　　【首先需特別聲明：本帖並非鼓吹什麼『繁體字比簡體字好』、『廢除簡體字』之類激進觀點，而是希望我們的簡體字能夠與時俱進，針對實際情況，作一些必要的『除蟲』與修訂（Service Pack）。】

　　在此列出一百三十五個漢字（簡化字）：
——————————————————————————————
擺板辟表別並卜布才采彩參嘗廠沖蟲仇丑出當
黨淀吊冬斗發范豐復干谷刮廣櫃合哄後胡劃回
匯伙獲飢幾家奸姜借盡據卷克夸困累厘漓里歷
簾梁了羅霉蒙彌面蔑裊寧苹仆鋪朴千簽秋曲確
舍沈勝適術松蘇台壇體同塗團挽萬系纖弦咸向
須旋熏葉傭涌游於余吁郁欲御願岳雲芸贊髒扎
占折征症只志制致鍾種冢周朱注准
——————————————————————————————

　　然後，請讓我平靜地告訴大家：正是這一百三十五個簡化字，會將我們的漢字引入困境（註：當中個別字如『鞦韆(鞦韆)』，影響不太大，為完整計，一併羅列於此）。

　　簡化字作為十幾億中國人的官方語言，在過去近五十年間，逐漸為社會公眾所廣泛承認、接受與普遍使用。這個當初由中華人民共和國文化部、教育部及中國文字改革委員會聯合頒布實施的【漢字簡化方案】，無疑是非常成功的，簡化字筆劃簡單、書寫方便，給人們的工作、學習、生活帶來了方便。

　　隨着現代科技不斷發展，人們的生活已與計算機密不可分。在古文典籍的電子化過程中，上述一百三十五個簡化字所引發出來的混亂，卻近乎是一種災難。

　　因漢語言文學研究上的需要，古文典籍我們應當以繁體原文形式進行存檔。一篇經一校、二校、三校，準確無誤的簡體字文章，一經電腦程序轉換為繁體字，立刻湧現出大量『錯別字』：「陸游」成了「陸游」，「胡適」成了「胡適」，「錢鍾書」成了「錢鍾書」，「怒髮衝冠」成了「怒髮衝冠」，「這裡那裡」成了「這裡那裡」，「為什麼」成了「為什麼」，「九萬里」成了「九萬里」……

　　這一切，我們卻不能責怪程序員或計算機，二者確已盡了力。程序的編制完全忠實於固定算法，電腦的運作也完全忠實於程序邏輯；若一定要責怪的話，只能怪『天』！若計算機的普及早那麼四、五十年，若制定【漢字簡化方案】的專家學者們使用過計算機，反覆地論證過『在計算機上處理漢字的問題』，這一百三十五個簡化字所引發的災難，恐怕就絕不會發生了。

　　單純從技術的角度出發，我可以明確地這樣告訴大家：若維持上述『一百三十五個簡化字』的現狀不作任何改變，那麼試圖通過程序方式自動將簡體字轉換成繁體字，幾乎是不可能做到準確無誤的！因為簡、繁體漢字之間快速準確的轉換，基於這樣一個必要條件：簡體字與繁體字應當是一一對應的；就象『漢』對應於『漢』、『華』對應於『華』、『實』對應於『實』這樣直截了當；若簡體的『系』字，可對應『系系系』、『於』可對應『于于』……且這種『一對多』的關係是近乎隨意的，那麼便沒有任何電腦程序能夠準確地處理了（事實上，人腦進行這種辨別也相當困難——請您試試分辨以下繁體字：『陸游』與『陸游』、『台州』與『台州』、『天台山』與『天台山』、『五台山』與『五台山』！(註：前一個詞才是正確的)）。

　　若從經濟的角度出發，即便最終能完美地實現了這樣的程序，也將會是一件『勞民傷財』、得不償失的事情——計算機要經過極其複雜的運算，才能準確轉換一篇幾百字的文章。

　　古人云：亡羊而補牢，未為遲也。我覺得，要從根本上解決這個問題，其實並不難。只要文化部、教育部等『官方機構』對簡化字作一次『有時代特色』的小小的修訂（計算機領域的專業術語叫做『補丁（Service Pack）』），將可能引致繁簡轉換混亂的所有簡化字（上述『一百三十五個簡化字』的統計數字，估計仍會有個別遺漏，請以官方統計數據為準），逐一細拆，逐一重新制定對應的簡化字，或直接保留有歧義的原繁體字（例如：為『於』與『於』分別制定兩個不同的簡化字，或仍直接保留『於』字；為『系』、『系』與『系』字分別制定三個不同的簡化字，或仍直接保留『系』與『系』字……），並強制全社會推行。

　　需強調的是：這不僅僅是典籍電子化的需要，這也是中華民族傳統文化代代傳承的需要；我們沒有任何理由、任何藉口，讓優美的傳統漢語言文字自我們這一代斷子絕孫！我們沒有任何理由、任何藉口，讓我們的後人從此再也無法寫出無『錯別字』的繁體字文章！

　　這不是我們這一代人的權利，而是我們理應承擔的義務。

RE:從技術角度為我們的簡體字挑挑刺!
　　現在我們用電腦轉換五百字的簡體文章為繁體，用時無需0.1秒，而轉換之後，逐字校對這五百字的繁體文章，則恐怕需要近十幾分鐘、甚至半個小時！簡體繁體，同宗同源，都是漢字——為什麼要存在這種混亂情形呢？一篇簡體字的文章，0.1秒之內，讓使用繁體字的台灣、香港人也能看得懂，這難道不是一件大好事情麼？即便從『一國兩制』、『一國兩字』的角度看，也是一件功德無量、利國利民好事情！為什麼我們要白白地付出那麼多無謂的校對的時間與精力呢？

　　前面說過，因漢語言文學在學習、研究上的需要，古文典籍應當是以繁體原文的形式保存的。大學念過古典文學、古代漢語的朋友，相信會明白這一點。在古文、古漢語領域，甚至可以這樣說：繁體字才是中文系的『官方語言』。

　　由於存在上述簡、繁體字之間轉換的混亂，我們在【中華詩詞】系列軟件當中，以簡化字收錄古詩詞、文言文，其實是很不『保險』的。即便我們校對得再仔細，可有一點是確定的：我們收錄的這些詩詞、古文，根本無法準確地轉換成繁體字，也無法忠實地展現其歷史原貌。

　　我個人覺得這是件令人十分悲哀的事情。這近乎是一種『徒勞』。我自以為是在學習、搜集、整理祖宗傳下來的文化精粹，孰知我所做的這一切，我所努力整理的這一切，在祖宗眼中，只不過是一堆數也數不清的錯誤。

　　目前在我們製作的繁體字輸入法當中，解決的方法是『以詞定字』。當輸入者打『這裡』時，我們輸出『這裡』；打『關於』時，我們輸出『關於』……這樣可以避開大部分常見的繁簡字錯誤。然而這也僅是『治標』而已，因為輸入法的詞彙是無法無限制擴充的，即便可以擴充到十萬詞組，重碼也會隨之大量增加，多得讓人無法接受。

　　此外還有一個困難。輸入法輸入繁體字與電腦自動轉換繁體字之間，還存在着某種微妙差異。直接輸入漢字時，輸入者的主動分詞與干預，也可起到減少錯誤的作用。

　　考慮這一句話：

　　我在三元裡面館吃麵前忘了下醋。

　　這句子有些古怪，只作為一個特例。輸入者能夠快速準確地分詞（將一個句子，拆分成一個個詞組）：

　　我－在－三元里－麵館－吃麵－前－忘了－下醋。

　　而電腦自動分詞的結果則可能是這樣的：

　　我－在－三元－裡面－館－吃－面前－忘了－下醋。

　　『以詞定字』自動轉換成繁體就會變成這個樣子：

　　我在三元裡面館吃麵前忘了下醋。

　　而正確的繁體字應該是這樣的：

　　我在三元裡面館吃麵前忘了下醋。

RE:從技術角度為我們的簡體字挑挑刺!

　　我們強調繁體字的重要性，並非要宣揚復古，而是出於文獻研究、整理上的實際需要。歷史是嚴肅的，文字也是嚴肅的。正因其嚴肅，我們才需要在某些情形下，忠實地記錄、忠實地還原其原始面貌。筆者試圖提出一個最簡單的解決方法而已。

　　有一則笑話是這樣的：

　　前蘇聯宇航員發現，在太空失重狀態下，圓珠筆無法在紙上正常寫字，無法及時記錄太空實驗的結果。於是地面的蘇聯科學家想盡千方百計，試圖解決這個難題。他們耗費了三年時間，斥資幾十億盧布，結果仍然以失敗告終。垂頭喪氣的蘇聯專家只好偷偷向美帝國主義的科學家們學習：究竟美國人是如何解決這個世紀難題的——結果，他們驚訝地發現，美國宇航員用鉛筆！

　　我覺得，與其想盡千方百計，試圖編制極端複雜的計算機程序來解決這個『超級難題』，莫如給簡化字打個小小『補丁』，修正那一百三十五個『問題漢字』，那將是最簡單，而且一勞永逸的解決方法。

　　我們不妨對照一下英文ASCII碼的排列方式。英文有大寫、小寫之分，與我們的簡體、繁體字有一點點類似。我們在搜索引擎中輸入大寫字母，搜索引擎能自動將這些輸入轉換成小寫（這相當於我們輸入簡體字、程序能『零時間』地自動轉換成繁體字），這歸功於英文字母內碼的排列方式。雖然我們每個人所用的英文鍵盤排列方式似乎是無序的，但儲存在電腦中的字母，則嚴格按照字母表順序，且大、小寫字母之間一一對應，總是相差32（即2的5次方）。將一個大寫字母的內碼值加上32（即，加二進制的100000或十六進制的20），即可轉換成一個小寫字母，反之亦然。

　　雖然英文字母只有26個，而漢字有成千上萬，但在處理方法上，我覺得漢字內碼的設計，原本也可以參考英文的作法——

　　以國家規定的【簡化漢字方案】(註：修正後的方案)為標準，將所有漢字劃分為兩大類：(Ⅰ).簡繁異體（同時擁有簡化寫法與繁體寫法的漢字，如『漢』對應『漢』、『華』對應『華』等等），(Ⅱ).簡繁同體（只有一種寫法的漢字，如『定』、『列』、『格』等等）。相應地，在電腦處理時，可以將漢字內碼劃分為三大區域：

　　[1]簡體字區域（這個區域對應於前面分類(Ⅰ)中的簡體字部分）；
　　[2]繁體字區域（這個區域對應於前面分類(Ⅰ)中的繁體字部分）；
　　[3]簡繁同體漢字區域（這個區域對應於前面分類(Ⅱ)中的其餘漢字部分）。

　　當然，這種處理方法基於如下假設：簡/繁體字是一一對應的。

　　這樣一來會有什麼好處呢？設區[1]可收錄4096個（2的12次方）簡體字，區[2]可對應4096個繁體字，區[3]包括剩餘的數萬漢字。

　　當我們輸入某個漢字時，若其內碼屬於區[1]，意味着它是一個簡體字，想將它轉成繁體字，只需將其內碼加上4096（2的12次方），即可得到對應的繁體字。

　　若某個漢字內碼>4096，且<8192（2的13次方），那意味着它是一個繁體字，且擁有對應的簡體字，想轉簡體，只需將其內碼減去4096（2的12次方），即可得到對應的簡體字。

　　若某個漢字內碼>8192（2的13次方），那意味着它是一個區[3]的漢字，無所謂繁簡體轉換，因為在任何時候都只有一種寫法，在繁/簡體轉換時，電腦只需直接返回該字即可。

　　那麼這種方式的漢字內碼是最好處理的。繁體/簡體字之間的轉換，幾乎可以做得跟英文大、小寫轉換一樣漂亮，快速而完美！

　　問題是，現在我們每一台計算機漢字內碼的編碼順序，居然是以字頻+拼音+筆劃的方式編排的，絲毫不顧及計算機處理漢字的方式。這套通行全國的計算機內碼方案的設計者，估計是一些語言文字方面的專家，然而很遺憾，他們自己可能並不用計算機，更不會用計算機來進行程序設計！

RE:從技術角度為我們的簡體字挑挑刺!

　　與那個曾經全社會推行、驚世駭俗的『二簡』大巫相比，這個小小的提議，只不過是一個極溫和、極細微的『一繁小補丁』而已。

　　認識到簡化字當中存在的個別問題，理性地、細緻地加以拾掇修補——我覺得，這才是科學的、理性的、實事求是的態度與方法。

　　畢竟『實踐是檢驗真理的唯一標準』。

　　『一簡』（有別於『二簡』，暫且生造一個說法）這個程序，當然不是憑空從天上掉下來的，它經過了無數專家學者反覆推敲、論證；在大體方向是正確的（程序算法本身，不存在邏輯問題）前提下，它也可能會在某些細節方面，存在小問題、小漏洞（Bug），干擾『一簡』程序的正確運行；事實（程序測試的結果）也足以證明，這Bug確確實實地存在，在某種程度上，甚至對程序運行結果的正確性，造成了較大的干擾或影響。

　　——這一切，在計算機的世界裡，是完全合理、也完全正常的。全球最大的某軟件公司，還定期地、經常性地發布升級補丁呢。

　　那麼，為什麼我們不能為『一簡』發布升級補丁，將它修補得更合理、也更科學一些呢？畢竟語言文字不是『死』的，語言文字本身，也允許不斷發展、不斷完善。

　　簡化字 Ver 1.0 （一簡）被證明是正確的、成功的；
　　簡化字 Ver 2.0 （二簡）被證明是錯誤的、失敗的；
　　試問，為什麼我們不能發布『簡化字 Ver 1.0.1』，對個別的已知的問題加以修復呢？

　　難道，明知有錯，拒不整改，保持下去，長此以往，……錯誤就會不再是錯誤了嗎？

延章 · 發表於 2012-10-4 23:01

必須糾正原作者，余未尚承認並自願接受簡化字——胡哥說，被逼的——我承認，他是對的。

[漢語詞典] 漢字簡化引發語言混亂將令子孫後代無法正確閱讀典籍

相關帖子

瀏覽過的版塊

切换语言

[漢語詞典] 漢字簡化引發語言混亂 將令子孫後代無法正確閱讀典籍

相關帖子

瀏覽過的版塊

切换语言

[漢語詞典] 漢字簡化引發語言混亂將令子孫後代無法正確閱讀典籍