本书是作者多年来在自然语言处理领域开展对统计语言建模以及中文文本校对技术研究的总结。主要内容包括统计语言建模和中文文本自动校对技术两部分内容,共12章。前面部分介绍统计语言模型构建的基本原理与方法,并对模型训练及评价方法进行研究,提出统计语言模型建模时训练语料规模的定量化度量方法。后面部分概述中文文本中常见的各种错误,并针对这些错误类型提出字词级、句法级和语义级错误的自动侦测方法与模型,开创了汉语文本语义错误自动侦测的新思路,提出了中文文本错误的纠错建议生成与排序模型。*后基于所提出的模型与算法开发了一个"正文通"中文文本校对系统。本书可作为在自然语言处理领域开展中文文本自动校对技术与方法研究的相关人员的参考用书。
|