关于新的句法标注模型探索（2）

沙舟 · 發表於 2013-8-29 18:09

: 中国汉学网

人类的自然语言符合经济性原则，而缺省结构恰恰体现了这一原则。借助句子的前后上下文省略一些成分，人们仍然能够理解，但对计算机来说却是一种挑战。句法标注的根本目的是让计算机能够正确提取句子的语法和语义知识。缺省结构在真实语料中大量出现，常常使得原本正常的句法结构变得异常，难以按已有规则进行标注。这是任何句法标模型都必须面对的问题，目前PSGTM和DGTM都还没能够很好地解决。以DGTM为例，在很多情况下，DGTM不但不能正确标注缺省结构，反而在一些语言规则的强制限定下给出违背真实语法或语义结构的标注结果，形成干扰信息。请看以下4个句子：
　　句1：我看一下下书
　　句2：(真是好书啊?)我看一下
　　句3：我看一本书
　　句4：(好多书啊!)我看一本
　　句2是句1的宾语省略句，句4是句3的宾语省略句。(为简便起见，把“一下”、“一本”作为一个词处理)。
　　问题出在句4。句1和句3的依存结构是不同的，然而句2和句4却有了相同的依存结构。因为句4省略了“书”，根据DG理论，“一本”必须依存于独立谓语成分“看”。于是“看一本”和“看一下”依存结构相同，实际上违反了句3的正确结构。当然，我们可以采取补救措施，为d1标注一个特殊的依存关系属性Cerror(即依存失败)，但这不是好办法。
　　
　　三、改进DGTM
　　
　　美国认知语言学家兰盖克(Ronald w.Langach.er)分别于1987年、1991年出版专著《认知语法基础》一、二卷，开创了认知语法(CG)理论，关于语法结构有如下观点：如果一个构件A使另一构件B的一部分抽象变为具体，那么构件A就叫做概念自主(coneep.tually autonomos)的构件，构件B就叫做概念依存(conceptually dependent)的构件。
　　举例来说：独立地看，“一本”隐含一个抽象的、可数的、可用“本”量化的事物，可表示为“一本(x)”。“书”使“x”变得具体，因此“书”是概念自主的，“一本”是概念依存的。从信息表达的角度来看，“书”表达了相对完整而具体的信息，因此是概念自主的；“一本”表达了不完整不具体的信息，因此是概念依存的。从数学表达式的角度来看，“一本”类似函数，“书”类似参数，函数的地位显然是第一位的，决定了对参数的处理过程和返回参数。例如，“旧书”与“一本书”的区别不在“书”，而在“旧”和“一本”。再从阅读认知过程来看，当人们读到“一本”时，实际上已经在期待“一本”后面那个具体事物跟着出现。为什么我们觉得“我看一本”是缺省句?因为“看”和“一本”相对“书”都是概念依存的，因此人们会判定，“我看一本”的缺省成分可能是“书”。而读到“我看书”时，人们不会认为这是一个省略句，因为“书”表达的信息已经自足了。
　　由此有足够的理由认为：在句法结构中，“一本”应是“书”的父结点，而不是按传统的补足中心原则，中心成分总是限定成分的父结点。依存成分是自主成分的父结点，这一原则可以称为依存中心原则(Dependency Head Principle，DHP)。采取这种原则的DGTM必然会有不同的标注结果。
　　深入研究发现，仅仅采用DHP是不够的，DGTM的其他参数也需要改变。例如，“看(x)”和“一本(x)”这两个表达式在与其他词语组合时是有区别的。“看(x)”与“我”组合时由“看”与“我”产生联系。“看”与“一本(x)”组合时却是“x”(书)与“看”发生联系。代表表达式与其他词语组合的成分称为返回参数，不同表达式的返回参数是不同的。例如。“一本(x)”返回参数为“x”，“看(x)”返回参数为“看”。正因为如此，表达式“看(一本(书))”成立，“一本(看(书))”不成立。另外，表达式“(x)一下”的返回参数为“x”，即“看”；表达式“(x)看”的返回参数为“看”。根据这些定义，句1、2、3、4的改进DGTM。
　　根据函数、输入参数、返回参数的关系，各句结构的逆构造过程如下：
　　句1：我看一下书：(((我)看(x))一下)(书)=((看(x))一下)(书)=看(x)(书)=看(x=书)
　　句2：我看一下：((我)看(x))一下=(看(x))一下=看(x)
　　句3：我看一本书：((我)看(x))(一本(书))=看(x)(书)=看(x=书)
　　句4：我看一本：(我)看(一本(x))=看(x)
　　句1和句3的x有明确取值，为完整句。句2和句4则是缺省句。基于看(x)和一本(x)的知识，可以预测并判定缺省结构及其成分。
　　直观看来，改进DGTM与原DGTM的标注结果有了很大的差异由于不采用补足中心原则，因此改进DGTM标注结果并不符合在补足中心原则影响下人们长期以来形成的语感。但更符合人们阅读认知经验，而且可以按函数标准给出形式化地解释，其解释结果符合句子本身的语法和语义结构，没有错误和干扰信息。因此，改进DGTM更适合计算机处理，更符合句法标注的本来目的。
　　
　　四、结语
　　
　　PSGTM的语法理论基础是PSG，DGTM的语法理论基础是DG，改进DGTM的DHP受CG的启发，其语法理论基础应该是CG。但CG只是从理论上提出了“概念自主”和“概念依存”的概念，并没有严格定义和证明依存成分与自主成分之间的主从关系。在CG的实际应用中，存在有时自主成分为短语中心语，有时依存成分为短语中心语的情况。
　　根据CG理论，“above”是“above the table”的中心语。“lamp”是“lamp above the table”的中心语。然而，根据CG对概念自主和概念依存的界定，相对“ta-ble”和“lamp”，“above”是概念依存的，具有两个抽象部分“(x)above(y)”，“lamp”使“x”具体化，“table”使“y”具体化。如果严格执行DHP，“above the table”和“lamp above the table”的中心语都应该是“above”。但这样一来，怎样解释“move the lamp above the table”中“move”直接依存“lamp”的关系?根据改进DGTM，可以定义“(x)above(y)”的返回参数是“x”以解决这一问题，但CG不会这样处理，而是将“lamp”限定为“lamp above the table”的中心语，从而与“move”直接联系，这样就不符合DHP的要求。
　　因此，改进DGTM的语法理论基础不可能是CG，必须构建一种新的语言模型。目前我们正融合哲学二元论与本体论、心理学、信息科学、网络通信模型、离散数学、语言学(依存语法、认知语法、范畴语法)、艺术学等理论的相关概念和原理，结合人的一般认知经验，建立一种新的句法标注模型，并初步用于经典汉语句式的表征，取得了较好效果。

[汉语言文学] 关于新的句法标注模型探索（2）

切换语言