搜狗

百度

搜狗

360

搜狗

谷歌

搜狗
查看: 3106|回復: 2

[汉语词典] 漢字簡化引發語言混亂 將令子孫後代無法正確閱讀典籍

[複製鏈接]
已绑定手机
已实名认证
延章 發表於 2012-10-4 22:56 | 顯示全部樓層 |閱讀模式
前言:

華夏文化能延續數千年,其功當歸漢字的嚴謹造字規律及六書的系统化。秦漢以降,漢字造字規律固化(漢字造字常用五書,則除通假以外的象形、會意、指事、形聲、轉注),以至于漢字字體雖數有變化(篆-楷-宋),而其字形結構始終如一。此則華夏文化罹盡千災萬難而傳承不斷的基礎——文化載體,漢字。


然而,近代五四新文化以來,華夏文化正面臨滅頂之災:一、文化基礎——其載體漢字遭全面破壞;二、華夏文化系统結構遭受從根挖起——陰陽理論及其啟發的春秋以降諸子百家學說,被西漸之“科學”等文化思維彻底替代。


無論近代以來的知識分子是居於救國救民之善意,或是居於謀求一己私利,其所作之對華夏文化的整體性破壞,將使其成為華夏民族,乃至全人類的罪人,待華夏文化重立世界,其罪行必將曝世。


本文將從技術角度淺探簡化漢字對漢語言的系统性破壞。另注:本文主體内容摘引自“北大中文論壇


原作者        柔昆  北大中文論壇
原題:从技术角度为我们的简体字挑挑刺!
本帖主題:漢字簡化引發語言混亂 將令子孫後代無法正確閱讀典籍
摘引之正文如一樓始
已绑定手机
已实名认证
 樓主| 延章 發表於 2012-10-4 22:59 | 顯示全部樓層
从技术角度为我们的简体字挑挑刺!          柔昆

  【首先需特别声明:本帖并非鼓吹什么“繁体字比简体字好”、“废除简体字”之类激进观点,而是希望我们的简体字能够与时俱进,针对实际情况,作一些必要的“除虫”与修订(Service Pack)。】

  在此列出一百三十五个汉字(简化字):
——————————————————————————————
摆 板 辟 表 别 并 卜 布 才 采 彩 参 尝 厂 冲 虫 仇 丑 出 当
党 淀 吊 冬 斗 发 范 丰 复 干 谷 刮 广 柜 合 哄 后 胡 划 回
汇 伙 获 饥 几 家 奸 姜 借 尽 据 卷 克 夸 困 累 厘 漓 里 历
帘 梁 了 罗 霉 蒙 弥 面 蔑 袅 宁 苹 仆 铺 朴 千 签 秋 曲 确
舍 沈 胜 适 术 松 苏 台 坛 体 同 涂 团 挽 万 系 纤 弦 咸 向
须 旋 熏 叶 佣 涌 游 于 余 吁 郁 欲 御 愿 岳 云 芸 赞 脏 扎
占 折 征 症 只 志 制 致 钟 种 冢 周 朱 注 准
——————————————————————————————

  然后,请让我平静地告诉大家:正是这一百三十五个简化字,会将我们的汉字引入困境(注:当中个别字如“秋千(鞦韆)”,影响不太大,为完整计,一并罗列于此)。

  简化字作为十几亿中国人的官方语言,在过去近五十年间,逐渐为社会公众所广泛承认、接受与普遍使用。这个当初由中华人民共和国文化部、教育部及中国文字改革委员会联合颁布实施的《汉字简化方案》,无疑是非常成功的,简化字笔划简单、书写方便,给人们的工作、学习、生活带来了方便。

  随着现代科技不断发展,人们的生活已与计算机密不可分。在古文典籍的电子化过程中,上述一百三十五个简化字所引发出来的混乱,却近乎是一种灾难。

  因汉语言文学研究上的需要,古文典籍我们应当以繁体原文形式进行存档。一篇经一校、二校、三校,准确无误的简体字文章,一经电脑程序转换为繁体字,立刻涌现出大量“错别字”:「陸游」成了「陸遊」,「胡適」成了「胡适」,「錢鍾書」成了「錢鐘書」,「怒髮衝冠」成了「怒發衝冠」,「這裡那裡」成了「這里那里」,「為什麼」成了「為什么」,「九萬里」成了「九万裡」……

  这一切,我们却不能责怪程序员或计算机,二者确已尽了力。程序的编制完全忠实于固定算法,电脑的运作也完全忠实于程序逻辑;若一定要责怪的话,只能怪“天”!若计算机的普及早那么四、五十年,若制定《汉字简化方案》的专家学者们使用过计算机,反复地论证过“在计算机上处理汉字的问题”,这一百三十五个简化字所引发的灾难,恐怕就绝不会发生了。

  单纯从技术的角度出发,我可以明确地这样告诉大家:若维持上述“一百三十五个简化字”的现状不作任何改变,那么试图通过程序方式自动将简体字转换成繁体字,几乎是不可能做到准确无误的!因为简、繁体汉字之间快速准确的转换,基于这样一个必要条件:简体字与繁体字应当是一一对应的;就象“汉”对应于“漢”、“华”对应于“華”、“实”对应于“實”这样直截了当;若简体的“系”字,可对应“系係繫”、“于”可对应“于於”……且这种“一对多”的关系是近乎随意的,那么便没有任何电脑程序能够准确地处理了(事实上,人脑进行这种辨别也相当困难——请您试试分辨以下繁体字:“陸游”与“陸遊”、“台州”与“臺州”、“天台山”与“天臺山”、“五臺山”与“五台山”!(注:前一个词才是正确的))。

  若从经济的角度出发,即便最终能完美地实现了这样的程序,也将会是一件“劳民伤财”、得不偿失的事情——计算机要经过极其复杂的运算,才能准确转换一篇几百字的文章。

  古人云:亡羊而补牢,未为迟也。我觉得,要从根本上解决这个问题,其实并不难。只要文化部、教育部等“官方机构”对简化字作一次“有时代特色”的小小的修订(计算机领域的专业术语叫做“补丁(Service Pack)”),将可能引致繁简转换混乱的所有简化字(上述“一百三十五个简化字”的统计数字,估计仍会有个别遗漏,请以官方统计数据为准),逐一细拆,逐一重新制定对应的简化字,或直接保留有歧义的原繁体字(例如:为“于”与“於”分别制定两个不同的简化字,或仍直接保留“於”字;为“系”、“係”与“繫”字分别制定三个不同的简化字,或仍直接保留“係”与“繫”字……),并强制全社会推行。

  需强调的是:这不仅仅是典籍电子化的需要,这也是中华民族传统文化代代传承的需要;我们没有任何理由、任何藉口,让优美的传统汉语言文字自我们这一代断子绝孙!我们没有任何理由、任何藉口,让我们的后人从此再也无法写出无“错别字”的繁体字文章!

  这不是我们这一代人的权利,而是我们理应承担的义务。

RE:从技术角度为我们的简体字挑挑刺!
  现在我们用电脑转换五百字的简体文章为繁体,用时无需0.1秒,而转换之后,逐字校对这五百字的繁体文章,则恐怕需要近十几分钟、甚至半个小时!简体繁体,同宗同源,都是汉字——为什么要存在这种混乱情形呢?一篇简体字的文章,0.1秒之内,让使用繁体字的台湾、香港人也能看得懂,这难道不是一件大好事情么?即便从“一国两制”、“一国两字”的角度看,也是一件功德无量、利国利民好事情!为什么我们要白白地付出那么多无谓的校对的时间与精力呢?

  前面说过,因汉语言文学在学习、研究上的需要,古文典籍应当是以繁体原文的形式保存的。大学念过古典文学、古代汉语的朋友,相信会明白这一点。在古文、古汉语领域,甚至可以这样说:繁体字才是中文系的“官方语言”。

  由于存在上述简、繁体字之间转换的混乱,我们在《中华诗词》系列软件当中,以简化字收录古诗词、文言文,其实是很不“保险”的。即便我们校对得再仔细,可有一点是确定的:我们收录的这些诗词、古文,根本无法准确地转换成繁体字,也无法忠实地展现其历史原貌。

  我个人觉得这是件令人十分悲哀的事情。这近乎是一种“徒劳”。我自以为是在学习、搜集、整理祖宗传下来的文化精粹,孰知我所做的这一切,我所努力整理的这一切,在祖宗眼中,只不过是一堆数也数不清的错误。

  目前在我们制作的繁体字输入法当中,解决的方法是“以词定字”。当输入者打“这里”时,我们输出“這裡”;打“关于”时,我们输出“關於”……这样可以避开大部分常見的繁简字错误。然而这也仅是“治标”而已,因为输入法的词汇是无法无限制扩充的,即便可以扩充到十万词组,重码也会随之大量增加,多得让人无法接受。

  此外还有一个困难。输入法输入繁体字与电脑自动转换繁体字之间,还存在着某种微妙差异。直接输入汉字时,输入者的主动分词与干预,也可起到减少错误的作用。

  考虑这一句话:

  我在三元里面馆吃面前忘了下醋。

  这句子有些古怪,只作为一个特例。输入者能够快速准确地分词(将一个句子,拆分成一个个词组):

  我-在-三元里-面馆-吃面-前-忘了-下醋。

  而电脑自动分词的结果则可能是这样的:

  我-在-三元-里面-馆-吃-面前-忘了-下醋。

  “以词定字”自动转换成繁体就会变成这个样子:

  我在三元裡面館吃面前忘了下醋。

  而正确的繁体字应该是这样的:

  我在三元里麵館吃麵前忘了下醋。

RE:从技术角度为我们的简体字挑挑刺!

  我们强调繁体字的重要性,并非要宣扬复古,而是出于文献研究、整理上的实际需要。历史是严肃的,文字也是严肃的。正因其严肃,我们才需要在某些情形下,忠实地记录、忠实地还原其原始面貌。笔者试图提出一个最简单的解决方法而已。

  有一则笑话是这样的:

  前苏联宇航员发现,在太空失重状态下,圆珠笔无法在纸上正常写字,无法及时记录太空实验的结果。于是地面的苏联科学家想尽千方百计,试图解决这个难题。他们耗费了三年时间,斥资几十亿卢布,结果仍然以失败告终。垂头丧气的苏联专家只好偷偷向美帝国主义的科学家们学习:究竟美国人是如何解决这个世纪难题的——结果,他们惊讶地发现,美国宇航员用铅笔!

  我觉得,与其想尽千方百计,试图编制极端复杂的计算机程序来解决这个“超级难题”,莫如给简化字打个小小“补丁”,修正那一百三十五个“问题汉字”,那将是最简单,而且一劳永逸的解决方法。

  我们不妨对照一下英文ASCII码的排列方式。英文有大写、小写之分,与我们的简体、繁体字有一点点类似。我们在搜索引擎中输入大写字母,搜索引擎能自动将这些输入转换成小写(这相当于我们输入简体字、程序能“零时间”地自动转换成繁体字),这归功于英文字母内码的排列方式。虽然我们每个人所用的英文键盘排列方式似乎是无序的,但储存在电脑中的字母,则严格按照字母表顺序,且大、小写字母之间一一对应,总是相差32(即2的5次方)。将一个大写字母的内码值加上32(即,加二进制的100000或十六进制的20),即可转换成一个小写字母,反之亦然。

  虽然英文字母只有26个,而汉字有成千上万,但在处理方法上,我觉得汉字内码的设计,原本也可以参考英文的作法——

  以国家规定的《简化汉字方案》(注:修正后的方案)为标准,将所有汉字划分为两大类:(Ⅰ).简繁异体(同时拥有简化写法与繁体写法的汉字,如“汉”对应“漢”、“华”对应“華”等等),(Ⅱ).简繁同体(只有一种写法的汉字,如“定”、“列”、“格”等等)。相应地,在电脑处理时,可以将汉字内码划分为三大区域:

  [1]简体字区域(这个区域对应于前面分类(Ⅰ)中的简体字部分);
  [2]繁体字区域(这个区域对应于前面分类(Ⅰ)中的繁体字部分);
  [3]简繁同体汉字区域(这个区域对应于前面分类(Ⅱ)中的其余汉字部分)。

  当然,这种处理方法基于如下假设:简/繁体字是一一对应的。

  这样一来会有什么好处呢?设区[1]可收录4096个(2的12次方)简体字,区[2]可对应4096个繁体字,区[3]包括剩余的数万汉字。

  当我们输入某个汉字时,若其内码属于区[1],意味着它是一个简体字,想将它转成繁体字,只需将其内码加上4096(2的12次方),即可得到对应的繁体字。

  若某个汉字内码>4096,且<8192(2的13次方),那意味着它是一个繁体字,且拥有对应的简体字,想转简体,只需将其内码减去4096(2的12次方),即可得到对应的简体字。

  若某个汉字内码>8192(2的13次方),那意味着它是一个区[3]的汉字,无所谓繁简体转换,因为在任何时候都只有一种写法,在繁/简体转换时,电脑只需直接返回该字即可。

  那么这种方式的汉字内码是最好处理的。繁体/简体字之间的转换,几乎可以做得跟英文大、小写转换一样漂亮,快速而完美!

  问题是,现在我们每一台计算机汉字内码的编码顺序,居然是以字频+拼音+笔划的方式编排的,丝毫不顾及计算机处理汉字的方式。这套通行全国的计算机内码方案的设计者,估计是一些语言文字方面的专家,然而很遗憾,他们自己可能并不用计算机,更不会用计算机来进行程序设计!

RE:从技术角度为我们的简体字挑挑刺!

  与那个曾经全社会推行、惊世骇俗的“二简”大巫相比,这个小小的提议,只不过是一个极温和、极细微的“一繁小补丁”而已。

  认识到简化字当中存在的个别问题,理性地、细致地加以拾掇修补——我觉得,这才是科学的、理性的、实事求是的态度与方法。

  毕竟“实践是检验真理的唯一标准”。

  “一简”(有别于“二简”,暂且生造一个说法)这个程序,当然不是凭空从天上掉下来的,它经过了无数专家学者反复推敲、论证;在大体方向是正确的(程序算法本身,不存在逻辑问题)前提下,它也可能会在某些细节方面,存在小问题、小漏洞(Bug),干扰“一简”程序的正确运行;事实(程序测试的结果)也足以证明,这Bug确确实实地存在,在某种程度上,甚至对程序运行结果的正确性,造成了较大的干扰或影响。

  ——这一切,在计算机的世界里,是完全合理、也完全正常的。全球最大的某软件公司,还定期地、经常性地发布升级补丁呢。

  那么,为什么我们不能为“一简”发布升级补丁,将它修补得更合理、也更科学一些呢?毕竟语言文字不是“死”的,语言文字本身,也允许不断发展、不断完善。

  简化字 Ver 1.0 (一简)被证明是正确的、成功的;
  简化字 Ver 2.0 (二简)被证明是错误的、失败的;
  试问,为什么我们不能发布“简化字 Ver 1.0.1”,对个别的已知的问题加以修复呢?

  难道,明知有错,拒不整改,保持下去,长此以往,……错误就会不再是错误了吗?
已绑定手机
已实名认证
 樓主| 延章 發表於 2012-10-4 23:01 | 顯示全部樓層
必须纠正原作者,余未尚承认并自愿接受简化字——胡哥说,被逼的——我承认,他是对的。

关于我们| 桂ICP备2022007496号-1桂公网安备 45010302003000桂公网安备 45010302003000

小黑屋|手機版|举报|网站地图|华韵国学网|国学经典

扫一扫微信:Chinulture|投稿:admin@chinulture.com

快速回復 返回頂部 返回列表