搜狗

百度

搜狗

360

搜狗

谷歌

搜狗
查看: 2146|回覆: 0

[漢語詞典] 基於領域的名詞短語語義分析及其實現(1)

[複製鏈接]
沙坡 發表於 2011-6-28 09:57 | 顯示全部樓層 |閱讀模式
  來源: 北方教育
自然語言理解研究是當前最熱門的研究課題之一。目前國內對漢語理解的研究雖然比較多,但相對成熟的卻比較少。這主要是由於漢語語句經過詞法分析、語法分析以後還存在很多歧義。漢語與印歐語不同,關於成分間的搭配,其句法制約因素少一些,相應地,語義制約因素更複雜一些。因而語法分析以後進行詳細地語義分析,計算機就可以更準確地理解漢語了。而又由於自然語言本身的模糊性和非精確性,以及計算機語言知識的貧乏,使得對語言的語義分析理解很困難。鑑於目前自然語言理解的需求,同時為了有效解決這個問題,本文將自然語言理解的範圍限制到某個領域內進行研究。本文重點介紹漢語中名詞短語的語義分析過程。   
  1 基於領域的自然語言理解特點
  
  基於領域的自然語言理解把自然語言進行領域劃分,在較小的範圍內進行語言處理有其自身的優勢:
  (1) 縮小自然語言理解的研究範圍有利於系統研究與實現。計算機要達到能夠象人類一樣遊刃有餘地理解自然語言,不僅需要將全部的自然語言知識輸入進去,而且還需要將足夠的經驗輸入進去,這將是一個相當大的挑戰。將自然語言限制在領域內理解,其涉及的方面比較窄,詞彙量比較少,語義比較確定,故分詞、詞法分析就變得相當簡單,語義推理相也對比較簡單,歧義處理的複雜性也會降低。這樣系統開發就容易實現。
  (2) 人們在分析處理複雜事物時,最常用的辦法是把複雜事物進行分解,由局部到全部逐步處理。對自然語言理解這一龐大的工程來說,把自然語言按不同領域進行劃分,不僅符合人類的思維習慣,而且降低了語言處理的難度。
  
  2 名詞短語的語義分析
  
  計算機對名詞短語的理解主要是對其組成成分間關係的識別。而在名詞短語的組成成分中,名詞與名詞之間關係的最為複雜,可以形成定心結構、聯合結構等等。同時,名詞間關係的理解又是短語語義結構分析的重點,因此下面討論一下名詞間的關係。
  第一種關係為一般特殊關係,這種關係不僅揭示了事物之間特有規律的聯繫,而且還可以簡化概念的描述。採用面向對象中繼承的方法,可以使下層概念自動具有上層概念的可繼承的屬性,因而也就可以集中考慮下層概念的特有屬性。第二種關係是整體部分關係,又稱組裝關係,用於描述概念與其他概念之間的組成關係。通過他可以看出某個概念是以另外一些概念為其組成部分的。客觀世界中,整體和部分關係廣泛存在於事物之間,如:物理上的整體事物和他的一個部分,如汽車與發動機;團體(組織)與成員,如班級與學生;空間上的包容關係,如教室與桌椅;抽象事物的整體與部分,如法律與法律條文;具體事物和他的某個抽象方面,如人員與人員的身份。第三種為實例關係。概念間的實例關係也叫類概念的實例化,他是連接類概念和對象概念的橋梁和紐帶,他主要是把類概念的屬性值適當取值而得到的。例如,對於概念『三角形』當其屬性『邊』取值為『AB、BC、AC』,頂點取值為『A、B、C』時,就得到概念『三角形』的實例化概念『三角形ABC』。
  3 名詞短語語義分析的實現
  
  3.1 語義分析總流程
  名詞短語理解的總流程圖如圖1所示。
  
  3.2 句中名詞語義識別的實現
  簡單句中名詞識別是分析名詞短語的基礎,名詞所描述的概念內涵、外延等語義直接影響名詞短語的劃分及識別。
  
  本系統對名詞語義分析實質上是概念的實例化過程,實例化就是對概念的屬性值進行填充。我們用動態名詞及名詞屬性模板記錄實例概念及其屬性。因此,這裡只需通過語義規則來填充動態名詞模板和名詞屬性模板就可完成概念的實例化,實現對具體概念的理解。
  3.3 名詞短語劃分的實現
  名詞短語的界定一直是理解名詞短語的難點。我們認為組成句子的基底結構是動核結構,任何一個動核結構都是由動核和動元(動核所聯繫的強制性語義成分)組成,而充當動核和動元的正是動詞和名詞,所以可認為名詞與動詞的理解是句子識別的核心。此外,結合漢語名詞短語的語法結構特徵,即大多數的名詞短語都是以名詞結尾,我們提出先對簡單句中的名詞短語做模糊劃分,將句子分為作動元的名詞塊與作動核的動詞塊兩部分。而對名詞短語的進一步準確界定,仍需更多的語義知識才能處理。

關於我們| 桂ICP備2022007496號-1桂公網安備 45010302003000桂公網安備 45010302003000

小黑屋|手機版|舉報|網站地圖|華韻國學網|國學經典

掃一掃微信:Chinulture|投稿:admin@chinulture.com

快速回覆 返回頂部 返回列表