|
: 北方教育 論文摘要:用計算機來處理漢語信息包括『字處理』、『詞處理』和『句處理』三個階段。『句處理』是實現自然語言的處理與理解這一關鍵性的技術難關。其中遇到的問題比較多:詞性的判斷;短語、句子的結構分析;歧義現象分析等等,最根本的方法是語言學家儘可能地把語言中的這些現象通過歸納、分析、總結出規律,再用形式化的方式描述出來,以便利於計算機處理。
用計算機來處理漢語信息,就是漢語信息處理,又稱中文信息處理。中文信息處理包括『字處理』、『詞處理』和『句處理』。『字處理』、『詞處理』分別與漢字和詞彙有關,在此主要談談『句處理』。
句處理的主要內容是,怎樣使計算機理解自然語言(如現代漢語)的句子的意思,又怎樣使計算機生成符合自然語言規則的句子。『句處理』所需要的語言知識,將是一種涉及到語音、語義、語法、語用等諸方面的綜合性知識。目前。大家都深感現有的關於漢語的知識遠遠不能滿足中文句處理的需要。單就句法方面的情況說。在中文信息處理過程中將會不斷遇到我們想象不到的問題,許多問題在人看來還是比較容易解決的,但計算機就解決不了。也有一些問題,本身在學術界就有不同的觀點,那麼,就給中文信息處理增加了更大的困難。
用計算機來處理中文信息,遇到了很多困難,從現代漢語語法的角度來看,主要有以下一些問題:
一、詞性的判斷
由於漢語缺乏形態。漢語的詞性判斷主要是根據詞的語法功能,不同的詞,詞性意義可能不同,同一個詞出現在不同的地方,詞性意義也可能不同,漢語中,大多數詞有固定的詞性,但有些詞的用法比較特殊。例如:
1.他花了十塊錢買了一盆花。
2.你用那個鎖把門鎖上。
3.他比雷鋒還雷鋒。
這三個句子中分別有兩個『花』、『鎖』、『雷鋒』。但它們只是音同、形同,詞性和意義都不同。句子1中的第一個『花』是動詞,『花費』的意思,第二個『花』是名詞,『植物』的意思。句子2中的第一個『鎖』是名詞,即『鎖子』的意思,第二個『鎖』是動詞,是『鎖住』的意思。句子3中第一個『雷鋒』是名詞,表示人名,第二個『雷鋒』是形容詞,表示『雷鋒的精神、品質等』。具有一定語言知識的人大體上都能分清它們的區別。從傳統語言教學的角度來講,句子1中的兩個『花』是詞形、讀音相同,但詞性和意思都不一樣,且兩個『花』的意思之間沒有聯繫,所以屬於同音詞。句子2中的兩個『鎖』,也是詞形、讀音相同,詞性和意思都不一樣,但兩個『鎖』意思間有聯繫,所以屬於兼類詞。句子3中的兩個『雷鋒』詞形、讀音相同,詞性和意思都不一樣,意思也有聯繫,但第二個『雷鋒』屬於詞類活用。Ⅲ從教學的角度看,這種分類比較細緻,便於人們的理解和掌握,但是,從中文信息處理的角度來看,這種分法太細,不便於計算機掌握。
目前,在中文信息處理中,是這樣來定義兼類詞的:亢世勇認為『兼類詞有廣義兼類詞和狹義兼類詞。廣義兼類詞就是中文信息處理中所說的現代漢語的同形詞,對於計算機而言,只要詞形相同,不管讀音是否相同、意義是否相通,是同形異音詞、同形同音詞,還是一詞多義、一詞多種用法,都是相同的,都要從多個當中選一個。狹義的兼類詞就是指一般的現代漢語着作定義的,「同形同音、意義上有一定的聯繫,且具有兩類或兩類以上詞的語法功能的詞』」。陸儉明認為,兼類詞是『指同字形、同音而意義不同或詞性不同的詞』。如果按這種定義理解,以上三個句子中的兩個『花』、『鎖』、『雷鋒』都可以稱之為兼類詞。因為,中文信息處理的目的是讓計算機能根據具體環境判斷出詞的詞性,從而準確理解其中的含義就可以了。儘管如此,但是,漢語詞類是多功能的,一類詞不需要發生詞形變化就可以充當不同的句子成分,不同類的詞可以充當相同的句子成分,這樣就給兼類詞區分帶來了更多的麻煩。因而,兼類詞的選擇是計算機詞性自動標註的一個『瓶頸』。儘管信息處理專家運用了規則排歧、統計概率排歧或者兩者結合起來等多種方法進行排歧,但到目前為止,還沒有一種方法、一種系統能夠徹底解決這個問題。 |
|