|
来源: 北方教育 自然语言理解研究是当前最热门的研究课题之一。目前国内对汉语理解的研究虽然比较多,但相对成熟的却比较少。这主要是由于汉语语句经过词法分析、语法分析以后还存在很多歧义。汉语与印欧语不同,关于成分间的搭配,其句法制约因素少一些,相应地,语义制约因素更复杂一些。因而语法分析以后进行详细地语义分析,计算机就可以更准确地理解汉语了。而又由于自然语言本身的模糊性和非精确性,以及计算机语言知识的贫乏,使得对语言的语义分析理解很困难。鉴于目前自然语言理解的需求,同时为了有效解决这个问题,本文将自然语言理解的范围限制到某个领域内进行研究。本文重点介绍汉语中名词短语的语义分析过程。
1 基于领域的自然语言理解特点
基于领域的自然语言理解把自然语言进行领域划分,在较小的范围内进行语言处理有其自身的优势:
(1) 缩小自然语言理解的研究范围有利于系统研究与实现。计算机要达到能够象人类一样游刃有余地理解自然语言,不仅需要将全部的自然语言知识输入进去,而且还需要将足够的经验输入进去,这将是一个相当大的挑战。将自然语言限制在领域内理解,其涉及的方面比较窄,词汇量比较少,语义比较确定,故分词、词法分析就变得相当简单,语义推理相也对比较简单,歧义处理的复杂性也会降低。这样系统开发就容易实现。
(2) 人们在分析处理复杂事物时,最常用的办法是把复杂事物进行分解,由局部到全部逐步处理。对自然语言理解这一庞大的工程来说,把自然语言按不同领域进行划分,不仅符合人类的思维习惯,而且降低了语言处理的难度。
2 名词短语的语义分析
计算机对名词短语的理解主要是对其组成成分间关系的识别。而在名词短语的组成成分中,名词与名词之间关系的最为复杂,可以形成定心结构、联合结构等等。同时,名词间关系的理解又是短语语义结构分析的重点,因此下面讨论一下名词间的关系。
第一种关系为一般特殊关系,这种关系不仅揭示了事物之间特有规律的联系,而且还可以简化概念的描述。采用面向对象中继承的方法,可以使下层概念自动具有上层概念的可继承的属性,因而也就可以集中考虑下层概念的特有属性。第二种关系是整体部分关系,又称组装关系,用于描述概念与其他概念之间的组成关系。通过他可以看出某个概念是以另外一些概念为其组成部分的。客观世界中,整体和部分关系广泛存在于事物之间,如:物理上的整体事物和他的一个部分,如汽车与发动机;团体(组织)与成员,如班级与学生;空间上的包容关系,如教室与桌椅;抽象事物的整体与部分,如法律与法律条文;具体事物和他的某个抽象方面,如人员与人员的身份。第三种为实例关系。概念间的实例关系也叫类概念的实例化,他是连接类概念和对象概念的桥梁和纽带,他主要是把类概念的属性值适当取值而得到的。例如,对于概念“三角形”当其属性“边”取值为“AB、BC、AC”,顶点取值为“A、B、C”时,就得到概念“三角形”的实例化概念“三角形ABC”。
3 名词短语语义分析的实现
3.1 语义分析总流程
名词短语理解的总流程图如图1所示。
3.2 句中名词语义识别的实现
简单句中名词识别是分析名词短语的基础,名词所描述的概念内涵、外延等语义直接影响名词短语的划分及识别。
本系统对名词语义分析实质上是概念的实例化过程,实例化就是对概念的属性值进行填充。我们用动态名词及名词属性模板记录实例概念及其属性。因此,这里只需通过语义规则来填充动态名词模板和名词属性模板就可完成概念的实例化,实现对具体概念的理解。
3.3 名词短语划分的实现
名词短语的界定一直是理解名词短语的难点。我们认为组成句子的基底结构是动核结构,任何一个动核结构都是由动核和动元(动核所联系的强制性语义成分)组成,而充当动核和动元的正是动词和名词,所以可认为名词与动词的理解是句子识别的核心。此外,结合汉语名词短语的语法结构特征,即大多数的名词短语都是以名词结尾,我们提出先对简单句中的名词短语做模糊划分,将句子分为作动元的名词块与作动核的动词块两部分。而对名词短语的进一步准确界定,仍需更多的语义知识才能处理。 |
|