查字典论文网 >> 通用英汉谓词语法标注方案

通用英汉谓词语法标注方案

小编:

摘要:经过语法标注的语料对语言的研究、教学、测试、词典编撰等各领域都具有重要意义。国内外语法标注的体系存在四个主要问题:(1)标注的重点各不相同,有的侧重结构,有的侧重功能,有的侧重语义;(2)标注的层次深浅不一;(3)在语法范畴的划分和术语的使用上各行其是;(4)国内树库的建设原创性不足,标注不够深入。本文作者从语言共性的角度出发,建立了一套通用的英汉谓词语法标注方案,区分语法形位和词汇形位,对语料的切分尽可能做到使英汉形位在形式、功能及意义上相互对应。我们通过对一个小规模英汉平行初级儿童读物语料库里的谓词进行标注,结果证明这套标注方案是可行的。

关键词:英汉谓词;语法标注;英汉平行语料库;儿童读物

中图分类号:H319.3 文献标识码:A 文章编号:1001-5795(2014)02-0003-0008

1、引言

要想让机器理解和产出自然语言并从事语言间的互译,除了对不同语言的语料按照语言单位进行多层次切分并对切分后的语言片段进行语言间的语义匹配外,更重要的是,要对这些语言片段之间的语法关系进行分析和标注。为此,需要一个能对两种语言同时进行分析和标注的语法体系和标注方案(annotationscheme)。对语料库的语法标注始于上世纪80年代,现已开发出多个标注方案,对英语、汉语等不同语言的语料库进行了程度不同的标注,产生了规模不等的树形语法结构库,即树库(treebank)。其中美国宾夕法尼亚大学英语树库(The Penn Treebank,简称PTB)的标注方案还被用来标注汉语,从而建立了宾大汉语树库(The Penn Chinese Treebank,简称CTB)。由于所采纳的语法理论以及建库的目标等因素的不同,各个语料库之间很难做到信息共享。从语言对比的角度来说,不利于语言之间的对比分析。基于以上考虑,我们尝试着从语言普遍性的角度出发,构建了一套谓词语法标注体系。该体系采用统一的标注方式,既能用于标注英语语料,也能用于标注汉语语料。这样,不仅能获取语法知识,还可以进行语言之间的对比研究。同时,对于机器翻译来说也具有很大的启示。

2、国内外句法标注体系概述

语法标注的目标是对语料文本进行句法分析和标注,从而形成树库语料。经过标注的语料可以用于语言学研究、语言教学、语言测试、词典编撰等诸多理论研究和实践应用领域。上世纪80年代末90年代初美国宾夕法尼亚大学建立起第一个大规模树库――宾大树库,紧接着英国建立了兰卡斯特一利兹树库(Lancaster-Leeds Treebank)。之后许多国家纷纷建立起自己语言的树库,如德国萨尔州大学(Saafland University)建立的带句法标注的德语报刊文本语料库(The NEGRAcorpus)和斯图加特大学(University of Stuttgart)建立的TIGER树库以及捷克PDT树库等;汉语树库有美国宾夕法尼亚大学的汉语树库、中国台北中研院的中研院汉语树库(Sinica Treebank)、北京大学中文树库和北京大学现代汉语树库、清华汉语树库(Tsinghua Chinese Treebank,简称TCT)、国家语委现代汉语树库等。

宾大树库的标注体系经历了一个从简单到复杂的不断进化发展的过程。PTB-1采用了骨架分析(Skel-ton Parsing)思想,形成比较扁平的句法结构树。该标注体系标注英语的8种短语、2种陈述句、从属句、Wh-直接疑问句、一般直接疑问句的次成分、不明类别以及4种零形式成分(Marcus et al.,1993)。PTB-2主要是用于提取述谓一论元结构(predicate-argument strut-ture)。目前Penn树库又把目光转向了语篇的标注。

兰卡斯特的语法标注源自于Sampson对Lancas-ter-Leeds树库的手工分析,也采用骨架分析技术。这一标注体系使用详细的括号标识系统和简化的成分集(Garside et al.,1992),标注的成分包括6种短语、7种语句、句子、属格和并列成分。此外,还包括没有标识的成分和并列成分。

尽管宾大树库和兰卡大学树库都采用的是骨架分析的方法,但是宾大树库的短语分类多于兰卡大学树库,而语句的分类较少。此外,宾大树库除了标注短语和句子两个层面外,还添加了功能标记。也就是说,宾大树库的标识集相对要全面一些。

在德国首先建立起来的树库是NEGRA德语语料库(Skut et al.,1998;Brants et al.,1999),内容主要是经过句法标注的新闻文本,大约有20,000个标注的句子。接着建立了规模更大、标注更全面的TIGER树库(Brants et al.,2002)。TIGER树库1.0版中非终端节点的标识集标注的成分包括12种短语、3种并列形式、2种不定式、2种多形符形式、句子、语块、准语言、专有名词、特殊单位和话语层成分(Smith,2003)。可以看出,TIGER树库在短语分类上更细,标注层更深。

捷克PDT语料库的标注体系是一个包含有3个相互关联层次的系统:一是形态(扩充的词类)标注,它含有特定词形的形态信息;二是分析性句法标注――依存树的节点是带有标记的构句词形以及表示支配节点和依存节点之间句法关系的标注(如主语、宾语、附语、状语等);三是句法语义标注,即依存树的节点是标有实义的构句词形和表示句法一语义关系的标注(如施事、受事、结果、出处和各种不同的状语修饰成分等)。捷克语料库句法标注的特点包括以下几点:①每个词和标点符号都由一个节点表示;②除树根外不增加节点;③最终体现出来的是一棵依存树,树线(链接)被明确标出(标记粘着在依存树的依存成员上);④允许有非投射。在最终的树图上每个节点的标注在分析句法层面上包括3部分:词汇(词形)、形态标记和句法标记(Hajio&Hajiaova,1997)。 PDT的标注体系显然完全不同于前文所提到的其他树库。它标注的不是成分结构,而是句法关系。这主要和构建树库的语法理论有关,PDT以依存语法(Dependency Grammar,Tesni6re,1959)为主,而其他的则以短语结构语法(Phrase Structure Grammar,Chom-sky,1957)为主。从描述框架上看,PTB采用的句法结构树和PDT采用的依存树各有优势。句法结构树可以对不同层次的句法成分组合特点进行细致的描述,但缺点是有时层次比较深,操作起来比较麻烦,而且中心词(hcad)信息不突出。为此,PTB项目进行了一些改进,包括采用骨架分析方法减少层次深度,增加功能标记突出中心依存关系等。而依存树的优势则在于明确地标注出了中心词之间的句法依存关系,可以方便地转化为语义依存描述,但是对一些没有明确依存关系的成分,它标注起来则有些力不从心(周强,2004:2-3)。

此外,Karlsson et al.(1995)提出的句法注释系统标注2种名词、7种谓词、3种形容词、2种主语、2种宾语、3种补语、2种状语、3种限定成分、其他后修饰语、3种关系和标题。该句法注释系统主要基于Karlsson等人创建的约束语法(Constraint Grammar,CG),属于依存语法理论的一种。它包括词类标注、句法功能标注以及配价等相关信息。

谓词网(Verbnet)是目前最大的在线英语谓词词典,其创建者是美国科罗拉多大学的Palmer和Kipper等教授。谓词网为自然语言处理(Natural LanguageProcessing,NLP)的应用提供了需要的信息,每一个谓词类包括成员集合、题元角色、句法框架、对每一个句法框架中论元的选择限制、句法框架中包含的语义谓词。这种句法框架只能反映序列关系,并不能反映出句子的结构和功能。

在汉语方面,宾夕法尼亚大学的汉语树库CTB和中国台北中研院的汉语树库可分别看作是短语结构和依存结构树库的代表。宾大汉语树库句子的标注包括三个方面:词的切分、词类标注和句子分析。在句子分析层面上,鉴于汉语的词序比较严格,宾大汉语树库采取了短语结构而不是依存结构的分析方法。标注体系采取的是成分等级结构和功能标识相结合的办法(Xue et al.,2005)。尽管宾大汉语树库采用的标注体例与英语树库一样,但是有一个重要的不同之处:汉语树库要求一对带标记的括号代表一个结构语法关系,这使得具有不同语法关系的成分粘着在不同的层面上。就谓词词组内部结构而言,这就意味着补语和附语的标注处在不同的结构上。而对名词词组的内部结构来说,并列成分和它们共享的修饰语则粘着在不同的层面上(Xue et al.,2005)。宾大汉语树库具有更新速度快、加工程度深、标注方法和算法上比较先进等特点。其缺点是,采用英语的语法框架来套汉语,难免出现削足适履的情况,标注结果有时与汉语为母语者的语感不符,不利于语言之间的对比研究。另外,标注的颗粒度有时候比较粗,在向依存结构树库转换时就会出错(王跃龙、姬东鸿,2009:50)。

中研院汉语树库(Huang et al.,2000;Chen etal.,2003)从1986年起由中国台湾中央研究院词库小组(CKIP)建设。从中央研究院现代汉语平衡语料库中抽取句子,以基于信息的格语法(Case Grammar,Fillmore,1968)的表达模式为基本架构,由计算机自动分析成结构树,再加以人工的修正和检验。该树库主要有以下特点:①采用基于信息的格语法表达模式,兼顾了语法和语义两方面的信息。每一个中文句结构树不仅有语法的结构分析,而且表示出每个词之间的语义联系。在语义信息方面,不仅仅包含意义,而且包含其支配的论元和可能的修饰成分。在语法信息方面,标注了语法类别及其语法限制(陈凤仪等,1999:88);②中文句子的语法结构表达采取中心语主导原则(head-driven principle);③同时提出了三项辅助原则:词类小而美原则、由左至右联并原则、扁平原则(陈凤仪等,1999:97)。中研院树库(陈凤仪等,1999:90-91)只包括6个词组和1个句结构树标识。除了以上的词组结构以外,还有其他一些和“的、地、得、之、到”等组合成的词组。和宾大汉语树库相比,中研院树库更加关注语义结构的标注。

北京大学汉语树库尽管规模较小,但构建时间较早(1997),对以后中国大陆树库的构建提供了样本。该树库参照了英语树库的处理经验并结合汉语分析的特点,确定了由19个标记组成的句法标记集(周强等,1997:43)。它包括13种短语、2种句型、整句、句群、独立成分和直接引语。北大汉语树库对汉语短语的描述主要采用功能而不是结构分类的方法,因此具有以下特点:①较好地体现了汉语语法单位之间的层次变化关系;②建立了词与短语之间的功能对应关系;③具有较强的适应性和可扩展性(周强等,1997:44)。

和北京大学汉语树库相比,清华汉语树库的规模较大,覆盖面较广,比较真实地反映了汉语的全貌,是国内第一个大规模汉语树库,其句法信息丰富,加工层次较深(王跃龙、姬东鸿,2009:54)。该树库采用了完整的层次结构树描述框架,设计了双标记集的描述体系,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,分别描述其外部功能分布和内部组合特点,以期尽可能详细地描述汉语句子的句法组合信息(周强,2004:3)。成分标记集有16个成分标记,其中包括10种短语、2种句型、整句、句群、独立成分和直接引语;关系标记集有27个标记,包括15种结构和12种关系。目前,清华大学的研究人员已经开始在TCT上进一步进行更深层次的句法分析和词汇语义标注研究(周强,2004:7)。

国家语委现代汉语语料库是从1990年开始,由国家语言文字工作委员会主持,组织语言学界和计算机界的专家学者共同建立的国家级语料库,是一个大型的通用语料库。该树库也采用结构和功能相结合的办法对短语进行标注,主要依据具有代表性的吕叔湘(1979)、朱德熙(1980)、胡裕树(1989)等的语法体系以及《中学教学语法系统提要》,既兼顾了我国主要的语法体系,又注意了与现行教学体系相衔接,具有科学性(靳光瑾等,2005:114)。国家语委语料库的汉语句法树标记集(靳光瑾等,2005:115)包括2个大类:短语功能和短语结构。 此外,专门用于儿童语言研究的CHILDES语料库采用的是基于依存关系的标注方案。CHILDES标注集中包含28个不同的语法关系(grammaticd relation)类型:3种主语、3种谓语、3种宾语、3种附语、3种修饰语、2种补语、助谓词或情态谓词、谓词否定式、限定词、介词宾语、谓词分词形式、补语、交际词、呼格、附加疑问、并列结构、根词。目前该语料库的研究人员已经创建了一个经过语法标注的超过65,000词的语料库。虽然它仅限于一部分的英语语料,但是相关的研究人员正计划把它拓展到整个英语语料及其他的语言(Sagae et al.,2007)。

从上述国内外句法标注的体系来看,目前还存在以下主要问题:

(1)标注的重点各不相同。有的树库倾向于句法结构,如宾大树库和兰卡斯特大学树库;有的倾向于句法功能,如捷克依存树库;有的两者兼顾,如TIGER树库;还有的偏重于语义,如中研院树库等。这主要和建库的语言学理论紧密相关。

(2)标注的层次深浅不一。有的只标注短语层,如中研院树库;有的标注短语和句子两个层面,如宾大树库;有的标注三个层次,如捷克依存树库。应该说标注的层次越深,语法信息越丰富,但从计算机处理的角度来说,难度就越大。另外,标注层次的深浅与具体建库的目的有关。

(3)由于建库的基础理论不同,在词的切分、词性标注、构造的分类和标注上,大家各行其是。例如北大树库把汉语的姓和名分开,切分为两个部分,如“江/泽民”。而在宾大树库中,汉语人名算一个词,不再切分。即使在同一体系之内,对某一成分的切分也不尽相同。比如同样是依存树库,在处理并列结构时,台北中研院的树库把连接词作为中心词,同时加标并列成分的类别(王跃龙、姬东鸿,2009:54)。标识符也缺乏统一标准。同是形容词短语,兰卡树库用“J”,宾大树库用“ADJP”,Tiger树库用“AP”,清华等树库用“印”来表示(清华树库在确定标识符时,有的取英文的首字母,如名词短语“np”是英文“noun phrase”的缩写;有的取汉语词的声母,如“单句句型”的标示符“dj”;还有的是汉语拼音与英文字母的结合,如区别词短语“bp”是“别”的声母+英文“phrase”的首字母,这无论是在标准的设立上还是在记忆上都增加了不必要的复杂性。再如宾大树库以句号、感叹号、问号作为划分句子的标志。而台北中研院的树库则以逗号作为分句的标志。

(4)就国内树库的建设和深加工来看,大多是在仿效外国理论,缺乏原创性,语法标注主要限于词和短语,语句标注不够深入,与其他语种(特别是英语)相比,要落后一些,如英语标注了谓词论元结构的“命题库”。这将是语料库语言学今后发展的重要方面(王跃龙、姬东鸿,2009:54)。

出于对上述问题的考虑,笔者希望能建立一套通用的语法标注体系,它不仅能用来标注不同的语言,也可以用于不同语言之间的对比研究。此外,这样一种标注体系也能给机器翻译研究带来很大的启示。接下来本文以英汉语为例尝试着建立一套基于语言共性的通用语法标注体系。

3、谓词语法标注框架的建立

语法标注体系的建立是一项复杂而艰巨的工作,本文尝试建立一套英汉通用的谓词语法标注体系,其他词类的标注可以作为后续研究展开。之所以选择谓词是由于谓词的重要性决定的。吕叔湘(1987:1)指出动词(谓词)之所以重要是因为从某种意义上说“动词是句子的中心、核心、重心,别的成分都跟它挂钩,被它吸住。”也就是说,谓词是句法研究的关键(陆俭明,1993)。Anderson(2006:27)指出:“谓词是命题述说的典型实现形式,从跨语言的角度来看,它在语义和句法上是语句构成的核心成分。”因此,尽管本文只探讨谓词语法的标注体系,整个语法标注体系的轮廓基本可以呈现出来。

3.1 语料切分单位

在对语料进行标注之前,首先要对其进行切分以确定标注对象。一般来说,语料的基本切分单位为词(Garside et al.,1997;北京大学计算语言学研究所,1999)。从标注和对比的目的出发,本研究将形位(morpheme)而非词定为基本切分单位,这样做主要基于以下两个原因:

首先,为了确保语料切分单位的一致性,以为对比奠定基础。研究谓词,本应以“词”为基本切分单位,但“与语言描写的其他范畴相比,或不同结构类型的语言相比较时,要对这个名称的用法取得一致有诸多困难。这些困难主要与词的识别和定义有关。例如,如何确定词的界限(像washing machine“洗衣机”这类单位是两个词还是一个词)(克里斯特尔,2000:387)。这些困难使得分词在实际操作上会碰到许多见仁见智的分歧(袁毓林,2008:375)。形位作为“语言中最小的有意义的单位”是“组合成词的最小功能单位”(克里斯特尔,2000:229),也是语言间所共有的单位,因此,以形位为基本切分单位可避免分歧从而方便英汉两种语言的对比,并为对比提供基本的平台。

其次,形位中包含有丰富的语法信息。担任谓语的谓词实际是谓词短语,通常由可独自作为语句的直接成分使用的词汇形位(如谓词walk和助谓词be、will等)和不能独自作为语句的直接成分使用的语法形位(如-ed)构成,前者称为词(word),后者称为屈折变化(inflection)或词缀(affix)。依附于谓词的屈折变化或词缀蕴涵丰富的语法信息,如时、态、动式、人称、数等。由此可见,以形位为语料的基本切分单位,可以充分了解谓词做谓语时所蕴含的各种语法信息。

本研究区分语法形位(grammatical morpheme)和词汇形位(1exical morpheme),语料切分尽可能从使英、汉两种语言在形式、功能及意义三方面相互对应的角度出发。由于是对英语谓词及其汉语译文对应词进行语法标注,因此,本文只给出英语谓词的切分形式,如图1所示: 以下为各切分单位的具体定义和举例:

(1)词汇形位(1exical morphemes)

词汇形位是表达一定词汇意义并能独自作为语句直接成分或直接成分的中心或修饰成分使用的形位,如run‘跑步’。

根据能否独立做语句的谓语或能否带其他句元,英语谓词可以分为实谓词(1exical verb)和虚谓词(grammatical verb)。实谓词能独立做语句的谓语或带其他句元,虚谓词不能(Quirk et al.,1985)。

①实谓词

实谓词可以独立作语句的谓语,也可要求连带一定的句元,除be外,实谓词后面一般不能直接跟否定副词not,也无法与主语倒置后形成疑问句,例如:

a.He loves her‘他爱她。’

h.He does not love her‘他不爱她。’

c.*He loves not her

d.Does be love her?‘他爱她吗?’

e.*Loves he?

根据其本身构成成分的多少,实谓词可分为单词谓词(simple verbs)和短语谓词(phrasal verbs)。单词谓词既包括由一个形位构成的谓词如learn‘学’、like‘喜欢’,也包括由两个词合写在一起或由连字符连在一起具有单一语义指向的复合谓词(compound yerb)如overlook‘俯视;忽视’、cross-examine‘盘问’。

短语谓词由两个或多个分开写的词构成,其句法功能通常相当于一个单词谓词。许多短语谓词在语义上也相当于一个单词谓词,如give up‘放弃’、look.for‘寻找’。根据其构成成分的语法特点,短语谓词可分为三类,即介谓词(prepositional verb)(Huddleston&Pullum,2005:142-4)、带介副词的谓词(verb with aprepositional adverb,简称介副谓词)和习语渭词(idiomverbs)。

带宾语的介谓词相当于一般的单宾谓词。介谓词宾语的位置是固定的,不论名词短语或代名词做宾语,都只能位于介词之后。例如:

a.胁looks like his father‘他看起来像他父亲。’

b.胁resembles his father‘他像他父亲。’

c.He looks like him‘他像他。’

这类介谓词可再分为带宾语和不带宾语两种,

例如:

a.Get in the car‘进车。’

b.Get in‘进。’

有的谓词在使用时要带一个介副词。介副谓词带宾语时,其宾语的位置不固定。宾语若是名词短语,一般位于介副词之后;若是较短的名词短语,也可位于谓词和介副词之间;若是代名词,则一般只能位于谓词和介副词之间,例如:

a.I have to back up my claim with evidence‘我得用证据支持我的说法。’

b.I have to back my claim up with evidence‘我得用证据支持我的说法。’

c.I have to back it up with evidence‘我得用证据支持它。’

d.*I have to back up it with evidence

介副谓词也分为带宾语和不带宾语两种,例如:

a.He backed up the car a little bit‘他把车后倒了一点。’

b.He backed up a little bit‘他后倒了一点。’

习语谓词由两个或多个实词构成,其语义不透明,习语谓词中谓词后的名词性成分并非宾语。这类谓词如take advantage of‘占……便宜’、come to life‘活’、letgo of‘松开’,等等。例句如下:

a.He often took advantage of his clients‘他经常占客户的便宜。’

b.Who did he often take advantage of‘他经常占谁的便宜?’

c.*What did he often take?

②虚谓词

根据能否直接接受否定副词not的否定及能否与主语倒置以形成疑问句,虚谓词可分为助谓词(auxiliaryverbs)和连谓词(catenative verbs)两类(Huddleston&Pullum,2005:214-22,245-6),前者可以,后者不可以。

根据形态上是否有人称和数的变化,助谓词又分为语法助谓词(grammatical auxiliary verb,简称auxilia-ry verb‘助谓词’)和情态助谓词(modal auxiliary yerb,简称modal verb‘情态谓词’)两个次类,前者有人称和数的变化,而后者没有(Anderson,2006)。

语法助谓词有全语法助谓词(full grammatical aux-iliary verb)和半语法助谓词(semi-grammatical auxiliary verb)之别,前者在形式上有时、人称和数的变化,都能与主语倒置以构成疑问句,也都能后接否定副词not以形成否定句,例如:

a.He is her brother‘他是她哥哥。’

b.Is he her brother?‘他是她哥哥吗?’

c.He is not her brother‘他不是她哥哥。’ 而后者只能与实谓词的过去分词形式一起构成被动式的功能,没有前者的其他语法功能,这个半语法助谓词是get,例如:

The thief got caught‘小偷被抓住了。’

英语的全语法助谓词共有三个,即be、do、have。

英语情态助谓词是对情态的表述,即表示说话者的意愿、能力、许可、命令、对事物或事件发生或存在的可能性和必要性的看法等。情态助谓词又有核心(core)情态助谓词和边缘(marginal)情态助谓词之别(Quirk et al.,1985)。

核心情态助谓词没有人称和数的变化,也没有谓名分词(即-ing形式)、过去分词形式和to不定式形式,后面所跟的谓词必须是原形,英语共11个核心情态助谓词,即:can/could‘能’、may/might‘可以;可能’、will/would‘愿意;将,会’、shall‘要,将’、should‘要,应’、must‘必须’、had better‘最好’、ought to‘该’(Huddleston&Pullum,2005),例如:

a.He can see me‘他能看见我。’

b.Will he save us?‘他会救我们吗?’

边缘情态助谓词既能像核心情态助谓词那样使用,又可以像实谓词那样使用,既可独立做语句的谓语,有人称和数的变化,也有谓名分词、过去分词形式和to不定式形式。英语有两个边缘情态助谓词,即dare‘敢’和need‘需要’(Huddleston&Pullum,2005),例如:

a.He need think about it‘他需要想一想。’

b.He needs to think about it‘他需要想一想。’

连渭词是连接另一个谓词的谓词,它与其所连带的谓词应被视为其所在语句的谓语。与助谓词一样,连谓词无法独立担任语句的谓语或带其他句元,因此不是实谓词;与助谓词不同的是,它不能直接接受否定副词not的否定,也不能与主语倒置以构成疑问句(Quirk et al.,1985),例如:

a.He happened to be there‘他碰巧在那儿。’

b.He didn’t happen to be there‘他没有碰巧在那儿。’

c.*He happened to not 6e there

d.Did he happen to be there?‘他碰巧在那儿吗?’

e.*Happened he to be there

根据其连接另一个谓词的方式,连谓词有两种,一种通过£o连接另一个原形谓词,另一种是将另一个谓词变为谓名分词形式而与之连接。前一种连谓词又分为以谓词be起头和不以谓词be起头的两种。以谓词be起头的连谓词有be able to‘有能力,能’、be going to‘即将,就要’、be willing to‘愿意’,等等;不以谓词be起头的连谓词有begin to‘……起来’、continue to‘继续’、have to‘得’,等等;连接谓名分词的连谓词有con-tinue v-ing‘坚持’、go on v-ing‘……下去’、keep v-ing‘不停地’等等。

(2)语法形位(grammatical morphemes)

语法形位,指不能独自作为语句的直接成分或直接成分的中心或修饰成分使用的、表达一定语法意义的单个形位,涉及谓词的语法形位包括:

a.时标记:-ed;

b.态标记:be+v-ing;

c.被动式标记:如be+v-ed。

d.非过去时第三人称单数标记:-s。

e.非过去时复数(包括第二人称单数)标记:零形式(用Ф表示)。

以上各类谓词及谓词的屈折变化即为具体的标注单位。

3.2 标注内容

传统上,语法主要由形态学(morphology)和句法学(syntax)组成,而本文所说的语法包括词的构造和形态变化规则、短语的构造规则以及语句的构造和转化规则。本文所建立的语法标注框架力求能反映出这三个层面的语法知识。本文认为,语言包括四个单位:音位(phoneme)、形位(morpheme)、短语(phrase)和语句(clause)。其中音位属于音系学(phonology)的范畴,其余三个属于语法范畴。在这三个语言单位中,形位通过构造构成短语,短语通过构造构成语句,这样层层推进搭建起了整个语法体系的框架。另一方面,对一个语法项目的考察总是涉及形式、意义和功能这三个方面。形式包括一个语言项目本身的形式及其变化;意义主要指该语言项目的语法意义或范畴意义;功能指该语言项目在一个构造中扮演什么角色或担任什么成分。综合上述考虑,本文所建立的谓词语法标注框架应当包括以下几项:

(1)形位:属于最小的有意义的语言单位;

(2)构造:属于短语层面,表示短语的构成方式;

(3)语法特征:表示切分出来的形位的语法意义或范畴意义;

(4)句元:表示语句的直接成分;

(5)句型:属于语句层面,表示语句的构成方式;

(6)句类:表示语句的功能类型。

这样,整个标注框架就形成了一个从形位到短语(构造)到语句的层级系统,加之功能和意义上的考虑,它就能够全方位地反映出和谓词相关的整个语法知识系统。下面是一个具体的谓词语法标注实例:

4、结语

本文从语言普遍性的角度出发,尝试建立起一套英汉通用的谓词语法标注体系。借用这套标注体系,我们对一个小型的英汉平行语料库(《典范英语》1-3)进行了语法标注,从中提取谓词369个,其中实谓词352个,助谓词9个,连谓词8个。同时,还获得了与谓词相关的各种语法范畴,包括时、态、数、动式、定式和非定式。从标注的实例来看,用这套标注体系同时标注英汉两种不同的语料是切实可行的;从语言对比的角度来看,本标注体系标注的层次深,从形式、功能和意义三个层面基本涵盖了和谓词相关的语法范畴,这便于进行英汉两种语言的对比研究。此外,这套标注体系是否能有效地推动机器翻译的研究有待于实践的进一步验证。

热点推荐

上一篇:我国中等职业教育师资配置的省份比较及区域特征

下一篇:如何对幼儿进行德育教育论文 幼儿园关于德育教育之类的论文

幼儿园中班能干的小手教案及反思(精选7篇) 销售顾问转正自我评价(热门18篇)