本文定量考察汉语常见篇章衔接标记在书面话语中的连贯用法。首先根据修辞结构理论(Rhetorical Structure Theory,RST),设立了汉语修辞关系集以及关系优选协议,按标注流程开发出汉语财经评论修辞结构树库。接着为各类衔接标记在该篇章语料库中的分布和用法设立多个特征变量,展开形式、句法、语义和语用标注。随后利用树库和标注语料,对特定衔接标记展开深入的个案分析,探讨其篇章分布与语用连贯作用之间的相关性。最后尝试利用衔接标记及其所在篇章单元的形式特征,通过机器学习方法来自动判定所在篇章单元间的修辞连贯关系,测试结果较令人满意。本文最后也讨论了对人工标注质量的理解,以及数据挖掘技术在语言学研究中的应用前景。 乐明,浙江大学副教授、“求是青年学者”。曾师从冯志伟研究员,于2006年获中国传媒大学语言学及应用语言学博士,研究方向为计算语言学。2011年在美国新墨西哥大学语言学系访问,师从Joan Bybee教授,研究方向为语法化理论。已发表多篇AHCI/CSSCI/SCI/SSCI语言学论文,负责完成国家社科基金青年项目一项及省部级项目两项。 目前主要的研究方向是语言资源的开发和利用,重点关注关联词语和人称代词在各类自然语篇中的分布和功能,通过制定详细的工作手册和标注规范,指导篇章语料库的构建以及目标词语在,语料库中的多维度标注,在此基础上用进行量化的语言学本体研究。
|