本书基于大规模动态流通语料库,抽取395万条左右的海量中文组织机构名称数据及其相关信息。以大数据为基础,从分词标注技术、语言资源开发与应用、语言规范化、语言本体等多个角度,针对组织机构名称这一特殊词语类别进行深入研究,从中心词角度提出中文组织名称形式化分类体系,提出中文组织名称“领域表征值”概念,并应用这一概念研究文本分类和通用词语,提出组织机构名称的两种结构模式、四类结构成分及其形式、性质、规则条件,以及组织机构名缩略的九个规则。确定了中文组织名称的三类上下文搭配形式、组织机构名称的分布特征,及中文组织机构名称识别方案。本书的主要内容包括组织机构名称识别、组织机构名称的界定与资源建设、组织机构名称规则、组织机构名称动态监测、组织机构名称的规范化等。
|