搜狗

百度

搜狗

360

搜狗

谷歌

搜狗
查看: 2807|回覆: 0

[漢語言文學] 淺談中文信息處理與現代漢語語法(2)

[複製連結]
已綁定手機
已實名認證
休竹客 發表於 2012-8-13 19:51 | 顯示全部樓層 |閱讀模式
  : 北方教育
二、短語、句子的結構分析
  由於漢語缺乏形態。所以。語序和虛詞成了漢語中表示語法的主要手段。有些短語、句子的結構不好理解,需要形式和意義結合起來分析。例如:
  A組:a。陝西+甘肅+寧夏 (『陝西+甘肅+寧夏』三者為聯合關係)
  b.中國+(北京+陝西)(『中國』與『北京陝西』是偏正關係.『北京』與『陝西』是聯合關係)
  C.中國(陝西(西安))(『中國』與『陝西西安』是偏正關係,『陝西』與『西安』也是偏正關係)這一組中的abe三個短語對人來說,都很容易分清楚,但計算機目前還很難區分,要讓計算機分辨清楚,就得把三個處所名詞組合在一起構成a類、b類、e類不同關係的條件與規則研究清楚,並將這些條件與規則加以形式化輸入到計算機內。
  B組:開始討論(述賓關係)分析研究(聯合關係)研究結束(主謂關係)
  取下來(述補關係) 看完再說(連謂關係) 叫他回來(兼語關係)
  生產管理(定中關係) 諷刺說(狀中關係) 介紹寫(不構成合法的句法關係)
  這組是現代漢語裏『動詞性詞語+動詞性詞語』構成的種種不同的結構關係,對人來說,通過講解大致可以分辨,可是讓計算機要分清楚,就非常難,因為我們至今還沒有總結出『動詞性詞語+動詞性詞語』構成各種不同句法關係的具體規則。換句話說,『動詞性詞語+動詞性詞語』在什麼條件下一定構成合法的什麼句法關係,能構成什麼樣不同的句法關係,我們至今還說不清楚。
  C組:天氣好――好天氣(主謂――偏正)很好――好得很(偏正――述補)
  來人了。――人來了。(述賓――主謂)
  一張票三元錢。――三元錢一張票。(主謂――主謂)這一組都是由於語序的不同而形成的結構和意義都不同的短語和句子。這些結構對人而言,稍加學習就可以理解,但這些給計算機理解意思增加了難度。需要人們把這些語序的變化形成的不同的結構概括出規律來,再用形式化的方式描述出來。輸入到計算機裏。
  三、歧義現象
  現代漢語短語結構的歧義是進行漢語句法分析的一大障礙。『句處理』要解決的核心問題是排歧問題,計算機面對的歧義,不只是我們人所能感覺到的諸如下面這樣一些句子的歧義現象:
  (1)他正在輸血。(他正給病人輸血。/他病了,正輸血。)
  (2)看望的是病人。(你看望的那個人是病人。/看望你的那個人是病人。)
  (3)我們急需進口產品。(我們急需進口的產品。/我們急需從國外進口產品。)
  某些在人看來不存在歧義的句子計算機會認為有歧義.例如:
  (4)a他被警察叫去罰了一百塊錢。
  b他被警察叫去寫了一份檢查。例(4)a句和b句,在人的眼裏結構是不一樣的。a句『被警察』這個介詞結構一直管到底。全句意思是『他被警察叫去,他被警察罰了一百塊錢』:而b句『被警察』這個介詞結構只 管到『叫去』,管不着『寫了一份檢查』。可是,計算機分辨不清楚。要讓計算機分辨清楚,我們就得將『PP+VPI+VP2』(PP代表介詞結構,VP1和VP2分別代表緊挨着的不同的動詞性詞語)這種結構中的PP對後面動詞性詞語管轄的範圍及其條件與規則進行充分、準確的描寫,並加以形式化,『交給』計算機。而這一類現象與規則我們過去根本就沒有考慮過,更不用說研究了。
  其實以上所舉的例子都存在歧義問題,因此,也可以這麼說,『句處理』要解決的核心問題是排歧問題。
  中文信息『句處理』的研究工作,上個世紀80年代就開始了,最早進行『句處理』研究工作就是基於規則展開的,但上個世紀90年代初,基於規則的『句處理』研究工作遇到了重重困難與難關,主要是語言學家所提供的語言規則遠遠不能滿足信息處理的需要。目前,為了解決好中文信息處理中的『句處理』難題,出現了一個競相研究、競相發展的局面。對於句處理,提出的各種策略和途徑,歸納起來。主要有基於規則和基於統計這兩種策略。基於規則的研究者,一般求諸專家的理性知識,由人來對語言知識進行抽象:基於統計者,一般求助於計算機對大規模語料庫真實文本的統計分析,由計算機來抽象出語言知識。各種策略和途徑,目前,我們還很難說哪一種是唯一正確的。各種策略和途徑,表面看不同,其實,最終都需要依賴可靠的漢語知識來驅動計算機正確處理自然語言(漢語)。因此,『無論是比較傳統的基於規則的處理策略,還是90年代以來方興未艾的基於統計的方法,在對語言知識的需求這一點上實際上都是共同的。所不同者,走規則路線的研究者一般求諸專家的理性知識,由人來對語言知識進行抽象(比如以帶有合一條件的規則形式給出)。而走統計路線的研究者一般求助於計算機對大規模的語料庫的統計分析,由計算機來抽象出語言知識(比如以一定的數據結構記錄的統計結果等)。兩種路線孰優孰劣,不能籠統判斷,只能跟具體的應用目標結合起來,由實踐結果來評價。』目前,越來越多的學者提倡把兩種方法結合起來使用。因此,相信在不久的將來,我們會攻克難關,實現計算機對自然語言的處理與理解的目標,使中文信息處理技術處於世界領先地位。

關於我們| 桂ICP備2022007496號-1桂公網安備 45010302003000桂公網安備 45010302003000

小黑屋|手機版|舉報|網站地圖|華韻國學網|國學經典

掃一掃微信:Chinulture|投稿:admin@chinulture.com

快速回覆 返回頂部 返回列表