中文摘要 随着信息社会对信息自动化处理要求的不断提高,越来越需要 计算机能对自然语言进行深层分析,比如文本校对、机器翻译、自 动文摘等等,这就要求我们为计算机提供尽可能多的语言知识尤其 是语法知识,使其能够进行正确的分析进而做到真正的“理解”。 现有的汉语语法体系,可以说已经研究得比较深入了,但其主要是 面向人的,面对计算机这个新的交际伙伴,其研究成果还是显得有 些粗糙。因此,要真正实现信息自动化处理,必须加大汉语语法研 究的力度,加细语法刻画的颗粒度,构建真正适合计算机处理自然 语言需要的汉语词类体系。本书正是在这样的服务宗旨下展开研 究的。 本书研究主要从如下三个方面展开: 1.以语料库为信息源,采用统计并辅以内省的方法,详细考 察了名词、动词、形容词和副词中高频的3514个词的语法功能, 构建了语法功能信息库,并以信息库中统计的数据为依据,彻底贯 彻“按照词的语法功能划分词类的标准”,依据“句法功能完全相 同即为一类”的原则,对3514个常用词进行了分类,*终分出 676类,其中,一词一类的有364类,两词一类的有107类,两词 以上同类的有205类,对于一词一类和两词一类的,我们放到词典 里描述,剩下的205类就是新实词词类体系所包含的类别。 2.从句法功能复杂度和分类结果两个方面对现有的词类体系 和我们构建的词类体系进行了对比研究。研究结果表明,只有 lO.1%的词在两种体系中的句法功能复杂度是相同的,而有 84.1%的词在旧体系中的句法功能复杂度是高于新体系的。这说明 现有的词类体系夸大了汉语中词的多功能现象,归属同一类别的 词,不管是有1项功能还是具有10项功能都给以相同的标记显然 有失偏颇,不能客观地反映汉语的实际情况。另外,从分类结果 看,新体系中存在一个词类包含旧体系中多个词类的情况,这说明 旧体系通过找“特点”来为词归类的做法不可取,必须在详细考 察的基础上才能做到“词有定类”。 3.从清华大学100万字的汉语句法树库中提取了l 1206个v+v 序列和10081个v+n序列进行了考察。前一种序列匹配后只有一 种句法关系的有2679种组合模式共10296个实例,正确率分别为 82.9%和91.9%。后一种序列匹配后只有一种句法关系的有1462 种组合模式共7189个实例,正确率分别为70.7%和71.3%。其他 有两种以上句法关系的模板,尽管不能确定具体实例中究竟是哪种 关系,但相对于旧体系来说,其歧义的数量大大减少了。统计结果 表明,新体系在外显式歧义结构的消解和基本名词短语的识别方面 都起到了很好的作用。 关键词:句法功能;词类体系;句法分析;歧义消解
|