Skip to content

Commit

Permalink
fix: docs of MSR Tokenization Guidelines of Chinese Text (V5.0)
Browse files Browse the repository at this point in the history
  • Loading branch information
webSue authored and hankcs committed Nov 28, 2023
1 parent 6bbf1ff commit 8cbe01e
Showing 1 changed file with 5 additions and 5 deletions.
10 changes: 5 additions & 5 deletions docs/annotations/tok/msr.md
Original file line number Diff line number Diff line change
Expand Up @@ -627,7 +627,7 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时

## 第四章 地名

地名包括洲、海洋、国家、省、市、县、地区、街道、乡、镇、村、机场、军事基地、军区、铁路、公路、桥梁、海峡、海湾、港湾、河流、湖、公园、草原、煤矿、牧场、养殖场、音乐厅、剧院、教堂、寺庙、图书馆、博物馆、美术馆、展览中心、公园、动物园、植物园、火车站、广场、大厦、大楼、体育场(馆)、|游泳馆(池)、赛车场、商城、超市、书店(城)等城市公共设施,还包括某些特定的城市建筑和虚构的处所。详见下表。
地名包括洲、海洋、国家、省、市、县、地区、街道、乡、镇、村、机场、军事基地、军区、铁路、公路、桥梁、海峡、海湾、港湾、河流、湖、公园、草原、煤矿、牧场、养殖场、音乐厅、剧院、教堂、寺庙、图书馆、博物馆、美术馆、展览中心、公园、动物园、植物园、火车站、广场、大厦、大楼、体育场(馆)、游泳馆(池)、赛车场、商城、超市、书店(城)等城市公共设施,还包括某些特定的城市建筑和虚构的处所。详见下表。

### 4.1地名标注规则

Expand Down Expand Up @@ -1374,7 +1374,7 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此*

### 6.1时间表达式

时间表达式(*TIMEX*)包括日期(*dat*)、时间(*tim*)和时段(*dur*)三小类。所有小于一天的时间都被定义为时间(*tim*),如秒,分,小时*。一天或者大于一天的时间单位则属于日期(*dat*),如*天,日,星期,礼拜,月,季度,年,五年,十年,世纪*等。时段(dur)通常也使用日期和时间中的单位,如月、年、时、分*等。对此标注者要注意区分。
时间表达式(*TIMEX*)包括日期(*dat*)、时间(*tim*)和时段(*dur*)三小类。所有小于一天的时间都被定义为时间(*tim*),如秒,分,小时*。一天或者大于一天的时间单位则属于日期(*dat*),如*天,日,星期,礼拜,月,季度,年,五年,十年,世纪*等。时段(dur)通常也使用日期和时间中的单位,如月、年、时、分*等。对此标注者要注意区分。

将日期、时间同时段区分开来有时是困难的,下面分别给出它们的定义。

Expand Down Expand Up @@ -2594,9 +2594,9 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。

## 第九章 分词歧义消解细则

本章中的歧义切分实例是从微软亚洲研究院237万词训练语料、10万词测试语料和
本章中的歧义切分实例是从微软亚洲研究院237万词训练语料、10万词测试语料和

20万词散页语料中抽取出来的。这些歧义字段可粗分为交集型歧义(OAS)和组合型歧义(CAS)两大类。交集型歧义又包含用正反向最大匹配(MM)算法侦查不到的所谓隐藏的CAS。下面就分别介绍不同歧义字段的消解规则。
20万词散页语料中抽取出来的。这些歧义字段可粗分为交集型歧义(OAS)和组合型歧义(CAS)两大类。交集型歧义又包含用正反向最大匹配(MM)算法侦查不到的所谓隐藏的CAS。下面就分别介绍不同歧义字段的消解规则。

### 9.1交集型歧义字段(OAS)

Expand Down Expand Up @@ -2758,7 +2758,7 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。

下面对一些常见的组合型歧义字段加以解释。

##### 9.2.1.1数词一和量词组成的CAS
##### 9.2.1.1数词一和量词组成的CAS

词表词一个、一种、一类、一批、一次、一套、一阵等作为数量短语不予切分,也不标注int。其中有些量词重迭形式也是词表词,如一个个、一天天,应保持其整词形式,而其它非词表词的数量短语和量词重迭形式都是要切开的。(详见8.9)

Expand Down

0 comments on commit 8cbe01e

Please sign in to comment.