diff --git a/docs/annotations/tok/msr.md b/docs/annotations/tok/msr.md index 2c3d681d7..7ec7b3f31 100644 --- a/docs/annotations/tok/msr.md +++ b/docs/annotations/tok/msr.md @@ -114,9 +114,9 @@ format-2是基于XML的标注格式: 以词表词AB的重迭形式AABB和AB/AB为例: -/*转轨*/*哪*/*有*/*像*/*人*/*说*/*得*/*那般*/*轻轻松松*/*? +/*转轨*/*哪*/*有*/*像*/*人*/*说*/*得*/*那般*/*轻轻松松*/? -/*积累*/*多*/*了*/*,*/*抽出*/*时间*/*,*/*认真*/*整理*/*整理*/*, +/*积累*/*多*/*了*/*,*/*抽出*/*时间*/*,*/*认真*/*整理*/*整理*/, (3)新词(NW) @@ -209,9 +209,9 @@ TYPE="LOCATION">山庄寺庙林立僧侣 例如,词表词抗日战争*和*事后诸葛亮*中的地名和人名应分别予以标注。 -/*抗*[L*日*]*战争*/*----正确标注。 +/*抗*[L*日*]*战争*/----正确标注。 -/*抗日战争*/*----未标出*L*,是错误标注。 +/*抗日战争*/*----未标出*L,是错误标注。 /*抗*/[L*日*]/*战争*/ ----插入分词标记,是错误标注。 @@ -221,19 +221,19 @@ TYPE="LOCATION">山庄寺庙林立僧侣 ###### 1.5.2.4.1dat,tim等标记不得插入到一个词表词的内部 -词表词*夏令营'、*春耕、*冬训*、*早出晚归*中的*夏、春、冬、早、晚*等词素都有*dat*和*tim*的意思,但不得标注。例如, +词表词*夏令营、*春耕、*冬训*、*早出晚归*中的*夏、春、冬、早、晚*等词素都有*dat*和*tim*的意思,但不得标注。例如, /[dat*冬*]*训*/ ---错误标注。 -/[tim*早*]*出*[dat*晚*]*归* */ ---错误标注。 +/[tim*早*]*出*[dat*晚*]*归* / ---错误标注。 然而词表词被整体标注为*dat*和*tim*的情况是常有的,例如: -/*[dat*初冬*]/ ----*初冬*是词表词。 +/[dat*初冬*]/ ----*初冬*是词表词。 /*[dat*夏季*]/*----*夏季*是词表词。 -/告别*/*了*/[dat*冬日*]/*的*/*凝重*/*、*/[dat*春天*]/*的*/*轻盈*/*、*/[dat*夏日*]/*的*/*浪漫*/*, +/告别/*了*/[dat*冬日*]/*的*/*凝重*/*、*/[dat*春天*]/*的*/*轻盈*/*、*/[dat*夏日*]/*的*/*浪漫*/, - 注:在文本中具有比喻意义的*春、夏、秋、冬*、历史上的*今天、昨天、明天*不作标注。例如: @@ -243,7 +243,7 @@ TYPE="LOCATION">山庄寺庙林立僧侣 ###### 1.5.2.4.2int,ord等标记不得插入到到一个词表词的内部 -词表词*五湖四海*、*不管三七二十一*、*三纲五常中的数词不允许标注**int*(整数)。例如, +词表词*五湖四海*、*不管三七二十一*、*三纲五常中的数词不允许标注*int(整数)。例如, /*[int*五*]*湖*[int*四*]*海*/*----错误标注。 @@ -255,25 +255,25 @@ TYPE="LOCATION">山庄寺庙林立僧侣 ###### 1.5.2.5.1序数词素首 -词表中有许多词含有词素*首*,如*首创、首倡、首选、首发、首航、首飞、首演、首映、首战、首展、首席代表、首席科学家、首席执行官、首富、榜首、魁首、居首*等。但不可把词表词中的词素*首*单独作为**ord*(序数)来标注。 +词表中有许多词含有词素*首*,如*首创、首倡、首选、首发、首航、首飞、首演、首映、首战、首展、首席代表、首席科学家、首席执行官、首富、榜首、魁首、居首*等。但不可把词表词中的词素*首*单独作为*ord*(序数)来标注。 -/*首席执行官*/*----正确标注。 +/*首席执行官*/----正确标注。 -/[*ord*首席*]*执行官*/*----在词表词中插标**ord*是错误的。 +/*[ord首席]执行官*/----在词表词中插标*ord*是错误的。 -以下的词表词属于"首+量词"结构,可以整体作为**ord*标注。例如: +以下的词表词属于"首+量词"结构,可以整体作为*ord*标注。例如: *[ord*首届*]*,*[ord*首次*]*,*[ord*首批*]*,*[ord*首位*]*,*[ord*首例*]* ###### 1.5.2.5.2分数词素半 -词表中有许多词含有词素*半*如半价、半票、半饱、半身、半世、半辈子、上半时、下半场、半边*等,但不可把上述词表词中的词素*半*标注为**fra*(分数)。 +词表中有许多词含有词素*半**如半价、半票、半饱、半身、半世、半辈子、上半时、下半场、半边*等,但不可把上述词表词中的词素*半*标注为*fra*(分数)。 /*下半场*/*比赛*/[O*中国队*]/*未进*/*一*/*球*/ /*上半时*/ -/*下*[fra*半*]*场*/*----在词表词中插标**fra*是错误的。 +/*下*[fra*半*]*场*/----在词表词中插标*fra*是错误的。 以下的词表词可作为不同的数字串(*dur*,*tim*,*fra*,*int*,*age*)标注: @@ -281,11 +281,11 @@ TYPE="LOCATION">山庄寺庙林立僧侣 - 注:半个西瓜中的半个,与四半中的半概念不一样,前一个半是指二分之一, -后一个半是量词,所以标注也不同!!*/[int*一个*]/*西瓜*/*分为*/[int*四半*]/ /[fra*半个*]/*西瓜*/ +后一个半是量词,所以标注也不同!!/*[int*一个*]*/*西瓜*/*分为*/[int*四半*]/ /[fra*半个*]/*西瓜*/ ###### 1.5.2.5.3整数词素双 -当数词双成为词表词的一个词素时,如"双方、双边、双手、双打、双杠、双轨、双层、双目、双亲"等,一律不作为整数(*int*)标注。对于非词表词,只标*[int*双*]*。例如: +当数词双成为词表词的一个词素时,如"双方、双边、双手、双打、双杠、双轨、双层、双目、双亲"等,一律不作为整数(*int*)标注。对于非词表词,只标[*int双*]。例如: /*窗外*/*又*/*起风*/*了*/*,*/*双层*/*的*/*窗*/*硬是*/*阻挡*/*不住*/*沙尘*/*的*/*侵扰*/*。*/ @@ -293,23 +293,23 @@ TYPE="LOCATION">山庄寺庙林立僧侣 - 注:一般情况下,数词和"方"之间不切分整体标为*int*。但"四方"是词表词所以不标。 -*[int*三方*]/*会谈*/ /*举行*/*四方*/*会谈*/ +[*int三方*]/*会谈*/ /*举行*/*四方*/*会谈*/ 以下是相关的例子: -/*用*/*任何*/*一*/*部*/[int*双*]/*音频*/*电话*/*只需*/*拨打*/[pho*2580*]/*就*/*可以*/ +/*用*/*任何*/*一*/*部*/[*int双*]/*音频*/*电话*/*只需*/*拨打*/[pho*2580*]/*就*/*可以*/ /*部队*/*进行*/*的*/*海上*/*训练*/*、*/[int*双*]/*机*/*穿云*/*、*/*超低空*/*等*/*高难*/*课目*/*训练*/ /*全村*/[are*700亩*]/*旱地*/*都*/*种上*/*了*/[int*双*]/*膜*/*棉*/*,*/ ###### 1.5.2.5.4整数词素两 -当数词"两"成为词表词的一个词素时,如"两国、两会、两地、两者、两头、 +当数词"两"成为词表词的一个词素时,如"两国、两会、两地、两者、两头、 两手、两边、两旁、两侧"等,一律不作为数位串(*int*)标注。例如: -两手、两边、两旁、两侧"等,一律不作为数位串(*int*)标注。例如: +/*使*/*两国*/*的*/*友好*/*合作*/*得到*/*巩固*/*和*/*发展*/。 -/*使*/*两国*/*的*/*友好*/*合作*/*得到*/*巩固*/*和*/*发展*/*。 +- 注:一般情况下,数词和"国"之间是要切分的,如:[*int五*]/*国*/*元首*/ -- 注:一般情况下,数词和"国"之间是要切分的,如:*[int*五*]/*国*/*元首*/ /*前*/*些*/*年*/*我*/*对*/*参加*/*『*/*两会*/*』*/*总是*/*有点*/*发怵*/*。*/ +/*前*/*些*/*年*/*我*/*对*/*参加*/*『*/*两会*/*』*/*总是*/*有点*/*发怵*/*。*/ /*大街*/*两旁*/*店铺*/*林立*/ @@ -317,19 +317,19 @@ TYPE="LOCATION">山庄寺庙林立僧侣 /*中间*/[int*两间*]/*是*/*客厅*/*,*/*两边*/*是*/*卧室*/*和*/*书房*/*。*/ -/对*/*分散*/*居住*/*的*/*"*/*五保*/*"*/*户*/*,*/*镇*/*、*/*村*/[int*两*]/*级*/*拨*/*专款*/ +/*对*/*分散*/*居住*/*的*/*"*/*五保*/*"*/*户*/*,*/*镇*/*、*/*村*/[int*两*]/*级*/*拨*/*专款*/ /[int*两*]/*车*/*饮料*/*以及*/*办公*/*桌椅*/*,*/ -- 注:临时量词"车、船、床、桌、屋子、院子"等不进入int标注。*/*成为*/[O*议会*]/[int*两*]/*院*/*审议*/*的*/*重点*/*和*/*舆论*/*关注*/*的*/*焦点*/ +- 注:临时量词"车、船、床、桌、屋子、院子"等不进入int标注。/*成为*/[O*议会*]/[int*两*]/*院*/*审议*/*的*/*重点*/*和*/*舆论*/*关注*/*的*/*焦点*/ - 注:两院不是词表词,所以应当切分标注如上。 /*及早*/*进行*/*政治*/*谈判*/*推动*/[L*两岸*]/*关系*/*发展*/ /*沿江*/[int*两*]/*岸*/*苗家*/*吊脚楼*/*上*/*的*/*观众*/ -- 注:词表词两岸是专指台湾海峡两岸的地名。如果泛指江河两岸,则不作为 +- 注:词表词两岸是专指台湾海峡两岸的地名。如果泛指江河两岸,则不作为 地名标注,而且要切分并标数词"两"为*int*。 -地名标注,而且要切分并标数词"两"为*int*。*/*一下*/*进*/*了*/[int*两*]/*球*/ +/*一下*/*进*/*了*/[int*两*]/*球*/ #### 1.5.3基本规定 @@ -357,7 +357,7 @@ TYPE="LOCATION">山庄寺庙林立僧侣 ### 2.2专有名词是具体的、特定的,而不是抽象的、泛指的 -比如:上苍、老外、姑娘,小镇,企业*等就不应视为专有名词。 +比如:*上苍、老外、姑娘,小镇,企业*等就不应视为专有名词。 ### 2.3复合专有名词的标注不允许嵌套 @@ -373,13 +373,15 @@ TYPE="LOCATION">山庄寺庙林立僧侣 /[O*北京*101*中学*]/ -/[O*北京*[ord*四*]*中*]/ ----*这种嵌套式的的标注是错误的! +/[O*北京*[ord*四*]*中*]/ ----这种嵌套式的的标注是错误的! ### 2.5含有外文和数字的命名实体应整体一起标注 例如: -/[O*American*航空公司*]/ /[O*SONY*公司*]/ +/[O*American航空公司*]/ + +/[O*SONY公司*]/ ### 2.6当两个实体用虚词的连接时应分别标注为两个实体 @@ -397,7 +399,9 @@ TYPE="LOCATION">山庄寺庙林立僧侣 如果一个命名实体中间有引号或书名号,则引号或书名号是该实体的一部分。如果一个实体被外面的引号或书名号括起来,那么其引号或书名号就不作为实体的一部分标注。例如: -/[O*"*阿克布拉克*"*中哈合资企业*]/ /[O*美国《幸福》杂志*]/ +/[O"*阿克布拉克*"*中哈合资企业*]/ + +/[O*美国《幸福》杂志*]/ /*《*/[O*星岛日报*]/*》*/*的*/*社论*/*说*/ @@ -439,15 +443,17 @@ ER-99规定:如果一个短语内部包含实体、但整体又不是命名实 /[L*美*]/*军*/*飞机*/ -/[O*斯里兰卡空军*]/ /[O*英国皇家空军*]/ +/[O*斯里兰卡空军*]/ + +/[O*英国皇家空军*]/ 但是,有如下特殊情况: *[L*济南军区*]/ ----*军区是*L*而不是*O*。 -/[L*彼得森空军基地*]/ -----*军事基地是L而不是O。 +/[L*彼得森空军基地*]/ -----军事基地是L而不是O。 -/[L*西非*]/&*维*/*和*&/*部队*/ ------*部队不作为机构名标准。 +/[L*西非*]/&*维*/*和*&/*部队*/ ------部队不作为机构名标准。 ### 2.10多媒体、产品和条约中的人名、地名、机构名 @@ -457,7 +463,7 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 - 注:ER-99规定,电视节目的名字邓小平*不标。本规范仍把它标为人名。此外,邓小平*作为片名,在规范的文本中应当用书名号括出,如《邓小平》。 -/*二战*/ ----*二战*是事件*,*所以不标注。 +/*二战*/ ----*二战*是事件,所以不标注。 /[L*香港*]/*百*/*题*/*今天*/*为*/*您*/*解答*/ @@ -465,11 +471,11 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 /*这*/*本*/*介绍*/[P*毛泽东*]/*的*/*小说*/ ----*毛泽东*要标注。 -/*这*/*本*/*名*/*为*/[P*毛泽东*]/*的*/*小说*/ ----*ER-99*毛泽东*不标。 +/*这*/*本*/*名*/*为*/[P*毛泽东*]/*的*/*小说*/ ----ER-99*毛泽东*不标。 -/[L*广州*]/*条约*/ ----*ER-99*广州*不标。 +/[L*广州*]/*条约*/ ----ER-99*广州*不标。 -/[L*辽*][L*沈*]*战役*/ ----*ER-99*辽沈*不标。 +/[L*辽*][L*沈*]*战役*/ ----ER-99*辽沈*不标。 本规范在后面还要对人名、地名、机构名中不加标注的情况作专门的说明,详见下面的各章节标注细则。 @@ -477,9 +483,11 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 对人名、地名、机构名的别名或简称要标注。例如: -/[O*IBM]/ +/[O*IBM*]/ -/[L*深*]/[L*沪*]/*股市*/ /[O*北约*]/ +/[L*深*]/[L*沪*]/*股市*/ + +/[O*北约*]/ /[L*中*][L*美*]/*首脑*/*互访*/ @@ -489,9 +497,9 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 - 注:对于简称中嵌套的人名、地名、机构名不予标注,如: -/[O*中共*]/ -*---中*指中国*,但不标。 +/[O*中共*]/ ----*中*指*中国*,但不标。 -/[O*中共中央政治局*]/ -*---同理,不标注中*。 +/[O*中共中央政治局*]/ - ---同理,不标注*中*。 ## 第三章人名 @@ -511,7 +519,7 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 | 6 | 姓名+姓名 | 分开来标 | *[P*李向东*]/[P*李向阳*]* | | 7 | 外国人名 | 作为一个整体来标 | *[P*罗马里奥*]*[P*马拉多纳*]*[P*比尔*•*盖茨*]* | -- 说明:当人名中包含•时,整体标注为人名,如*[P*比尔•盖茨*]*。 +- 说明:当人名中包含•时,整体标注为人名,如[P*比尔•盖茨*]。 ### 3.2人名标注细则 @@ -519,7 +527,11 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 #### 3.2.1.1人名实例 -/[P*颜惠忠*]/ /[P*连战*]/ /[P*凡*•*高*]/ +/[P*颜惠忠*]/ + +/[P*连战*]/ + +/[P*凡*•*高*]/ /[P*陈方安生*]/ @@ -529,9 +541,13 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 称谓、绰号、官职(如先生、总理等)不作为人名的一部分。例如, -/[P*张*]/*经理*/ /[P*李*]/*市长*/ +/[P*张*]/*经理*/ + +/[P*李*]/*市长*/ -/[P*陈*]/*姓*/*游客*/*说*/ /[P*刘*]/[ord*二*]/*嫂*/ /[P*周*]/*总理*/ +/[P*陈*]/*姓*/*游客*/*说*/ + +/[P*刘*]/[ord*二*]/*嫂*/ /[P*周*]/*总理*/ /[P*雷锋*]/*同志*/ @@ -553,31 +569,49 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 #### 3.2.1.5家族实体 -/[P*蒋*]/*氏*/*父子*/ /[P*西迪*]/*兄弟*/ +/[P*蒋*]/*氏*/*父子*/ + +/[P*西迪*]/*兄弟*/ #### 3.2.1.6圣人和宗教人物要标注为人名 -/[P*释迦穆尼*]/ /[P*达赖*]/*喇嘛*/ +/[P*释迦穆尼*]/ + +/[P*达赖*]/*喇嘛*/ ### 3.3虚构的人物、动物的名字要标注为人名 #### 3.3.1在童话、小说中虚构人物要标注为人名 -/[P*孙悟空*]/ /[P*玉皇大帝*]/ +/[P*孙悟空*]/ + +/[P*玉皇大帝*]/ #### 3.3.2虚构的动物和非人的人物要标注为人名 -/[P*唐老鸭*]/ /[P*花仙子*]/ +/[P*唐老鸭*]/ + +/[P*花仙子*]/ /"/[P*盼盼*]/"/*是*/*国内外*/*著名*/*的*/*熊猫*/*明星*/*,*/ -/*争相*/*目睹*/*狮*/*王*/[P*木法沙*]/*和*/*王后*/[P*色拉碧*]*产下*/*的*/*小*/*王子*/[P*辛巴*]/ /*走进*/*一家*/*饭馆*/*,*/*发现*/*老板*/*就*/*是*/*大*/*灰*/*狼*/[P*罗克*]/*。*/ +/*争相*/*目睹*/*狮*/*王*/[P*木法沙*]/*和*/*王后*/[P*色拉碧*]*产下*/*的*/*小*/*王子*/[P*辛巴*]/ + +/*走进*/*一家*/*饭馆*/*,*/*发现*/*老板*/*就*/*是*/*大*/*灰*/*狼*/[P*罗克*]/*。*/ #### 3.3.3用称谓或朝代等名号来指称特定人时要标注为人名 例如: -/[P*康熙*]/ /[P*乾隆*]/ /[P*秦始皇*]/ /[P*老子*]/ /[P*孔子*]/ +/[P*康熙*]/ + +/[P*乾隆*]/ + +/[P*秦始皇*]/ + +/[P*老子*]/ + +/[P*孔子*]/ ### 3.4不标注为人名的各种情况 @@ -587,7 +621,9 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 /"/*彩霞*/*,*/"/*石子*/*小声*/*嘟哝*/*着*/*,*/"/*多*/*恶心*/*的*/*名字*/*!*/"/ -/*电磨*/*姐姐*/*故意*/*气*/*气*/*小*/*毛驴*/*,*/*说*/*:*/"/*输*/*了*/*,*/*可*/*不能*/*哭鼻子*/*。*/"/ /"/*卡车*/*哥哥*/*,*/*我*/*和*/*你*/*来*/*比*/*一*/*比*/*谁*/*运*/*得*/*多*/*,*/*怎么样*/*?*/"/ +/*电磨*/*姐姐*/*故意*/*气*/*气*/*小*/*毛驴*/*,*/*说*/*:*/"/*输*/*了*/*,*/*可*/*不能*/*哭鼻子*/*。*/"/ + +/"/*卡车*/*哥哥*/*,*/*我*/*和*/*你*/*来*/*比*/*一*/*比*/*谁*/*运*/*得*/*多*/*,*/*怎么样*/*?*/"/ /*好像*/*在*/*说*/*:*/"/*荷花*/*姐姐*/*,*/*你*/*好*/*!*/ @@ -595,7 +631,9 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 如: -/[L*嘉诚广场*]/ /[O*中山大学*]/ +/[L*嘉诚广场*]/ + +/[O*中山大学*]/ /[O*宋庆龄基金会*]/ @@ -603,7 +641,9 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 作为书名或画名的人名ER-99不标(见2.8),但本规范是要作标注的。如: -/*世界*/*名画*/*《*/[P*蒙娜莉萨*]/*》*/*/《/*[P*蒋介石*]/*与*/[P*毛泽东*]/*》*/ +/*世界*/*名画*/*《*/[P*蒙娜莉萨*]/*》*/ + +*/《/*[P*蒋介石*]/*与*/[P*毛泽东*]/*》*/ 3.4.4法律、法庭事件、天气形成、疾病和奖金等五种情况 @@ -615,7 +655,7 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 /*专家*/*呼吁*/*人们*/*要*/*注意*/*沙*/*氏*/*杆菌*/ -----*沙*不标。 -/[P*诺贝尔*]*奖*/ -----*ER-99*诺贝尔*不标。 +/[P*诺贝尔*]*奖*/ -----ER-99*诺贝尔*不标。 #### 3.4.5在人名后面出现基金会时要整体标注为机构名 @@ -623,7 +663,9 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 所以基金会*和奖、奖金*是不同的两种情况,需加以区别。又如 -/[O*李嘉诚股份有限公司*]/ /[O*诺贝尔股份有限公司*]/ +/[O*李嘉诚股份有限公司*]/ + +/[O*诺贝尔股份有限公司*]/ ## 第四章 地名 @@ -633,25 +675,25 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 | **序号** | **情况** | 标记方法 |例子 | | --- | --- | --- | --- | -| 1 | 只是单独地名 | 标出地名部分 | *[L*中国*]*[L*竹塘乡*]* | +| 1 | 只是单独地名 | 标出地名部分 | *[L*中国*]*[L*竹塘乡*] | | 2 | 地名+地理(行政)单位 | 作为整体标出 | *[L*北京市*]*[L*台北县*]*地理单位如:省、地区、市、县、乡、镇、村、店、庙、沟、屯、坟、崖、海洋、河、川、江、峡谷、海湾、港湾、丘陵、湖、半岛、三角洲、区、街、路、街、街道、社区、小区、公寓、音乐厅、剧院、图书馆、博物馆、美术馆、展览馆、公园、动(植)物园、火车站、广场、大厦、大楼、体育场(馆)、游泳馆(池)、赛车场、商城、超市、书店(城)等城市公共设施及象征性建筑物、军事基地、军区等。*[L*天安门广场*]*[L*艾菲尔铁塔*]* | -| 3 | 包含上、下位的地名(即合成地名)以及并列的地名 | 一律分别单独标出 | *[L*山东省*]/[L*青岛市*]/[L*胜利广场*]*[L*青岛市*]/[L*孙中山广场*]*[L*北京市*]/[L*海淀区*]/[L*知春路*]/[L*希格玛大厦*]*[L*北京*]/*、*/[L*天津*]/*、*/[L*上海*]* | +| 3 | 包含上、下位的地名(即合成地名)以及并列的地名 | 一律分别单独标出 | *[L*山东省*]/[L*青岛市*]/[L*胜利广场*]*[L*青岛市*]/[L*孙中山广场*]*[L*北京市*]/[L*海淀区*]/[L*知春路*]/[L*希格玛大厦*]*[L*北京*]/*、*/[L*天津*]/*、*/[L*上海*] | | 4 | 地名简称 | 单独标出 | *[L*鲁*]/*、*/[L*冀*]/*、*/[L*京*]* | -| 5 | 并列的简称 | 单独标出 | *[L*中*]/[L*俄*]/*两国*/*领导人*/*进行*/*了*/*会晤*[L*港*][L*澳*][L*台*]/*地区 | -| 6 | 地名包含人名以及地名包含地名的情况 | 地名中的人名、地名不标 | *[L*李嘉诚广场*]*[L*南京路*]* | +| 5 | 并列的简称 | 单独标出 | [L*中*]/[L*俄*]/*两国*/*领导人*/*进行*/*了*/*会晤*[L*港*][L*澳*][L*台*]/地区 | +| 6 | 地名包含人名以及地名包含地名的情况 | 地名中的人名、地名不标 | *[L*李嘉诚广场*]*[L*南京路*] | | 7 | 地名+地名关键词表达一个完整的概念时 | 相对完整的地名 | *[L*南非共和国*]*[L*宁夏回族自治区*]*[L*香港特别行政区*]* | ### 4.2地名标注细则 #### 4.2.1地名实体示例 -/[L*北京*]/ /[L*亚洲*]/ +/[L*北京*]/ -/[dat*2008*年*]/[L*奥*]*运会*/*,*/[L*中国*]*人*/ +/[L*亚洲*]/ -/[L*中国*]*人民*/ +/[dat*2008年*]/[L*奥*]*运会*/*,*/[L*中国*]*人*/ -*----*中国人、中国人民*都是词表词。 +/[L*中国*]*人民*/ ----*中国人、中国人民*都是词表词。 /[L*朝鲜*]/*南北*/*对话*/ ----*不标注南*,北。 @@ -659,35 +701,53 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 /[L*京*]*剧*/*、*/[L*京*]*白、*/[L*京*]*腔*/*、*/[L*京*]*味儿*/ -/[L*台东火车站*]/ /[L*卑南文化公园*]/ +/[L*台东火车站*]/ + +/[L*卑南文化公园*]/ + +/[L*基隆文化中心广场*]/ -/[L*基隆文化中心广场*]/ /[L*高雄港第一港口*]/ +/[L*高雄港第一港口*]/ /[L*苏澳镇*]/[L*南方澳渔港*]/ -/*环*/[L*渤海湾*]/*地区*/*的*/*天然气*/*市场*/ /*来自*/[L*沈阳军区*]/*各*/*集团军*/ +/*环*/[L*渤海湾*]/*地区*/*的*/*天然气*/*市场*/ + +/*来自*/[L*沈阳军区*]/*各*/*集团军*/ /[L*梅狮路后段*]/ /[L*中横公路天祥段*]/ -/[L*华禄溪*]/*及*/[L*碧绿隧道*]/ /[L*南二高*]/[L*高雄支线*]/ +/[L*华禄溪*]/*及*/[L*碧绿隧道*]/ + +/[L*南二高*]/[L*高雄支线*]/ /[L*台廿一线*]/ /[L*美国空军基地*]/ -/[L*上海*]/[L*国际航运大厦*]/ /[L*上海*]/[L*虹口足球场*]/ /[L*上海博物馆*]/ +/[L*上海*]/[L*国际航运大厦*]/ + +/[L*上海*]/[L*虹口足球场*]/ + +/[L*上海博物馆*]/ -/[L*上海*]/[L*城市规划展示馆*]/ /[L*石家庄*]/[L*富强电力新村*]/ /[L*西安第二长途通讯大楼*]/ +/[L*上海*]/[L*城市规划展示馆*]/ + +/[L*石家庄*]/[L*富强电力新村*]/ + +/[L*西安第二长途通讯大楼*]/ /[L*北京市*]/[L*王府井百货大楼*]/ -/[L*广深铁路*]/*以及*/[O*深圳发展银行*]/*部分*/*高官*/*也*/*被*/*免职*/ /[L*汉江*]/*上*/*的*/[L*圣水大桥*]/ +/[L*广深铁路*]/*以及*/[O*深圳发展银行*]/*部分*/*高官*/*也*/*被*/*免职*/ + +/[L*汉江*]/*上*/*的*/[L*圣水大桥*]/ -/[L*新亚欧大陆桥*]/ +/[L*新亚欧大陆桥*]/ ----从世界知识知道此处大陆桥的名字叫新亚欧大陆桥*,是不可分解的。 +---从世界知识知道此处大陆桥的名字叫*新亚欧大陆桥*,是不可分解的。 #### 4.2.2地名指示词(如国、省、市等)视为地名的一部分一起标注 @@ -695,17 +755,23 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 /[L*德国联邦*]/*政府*/*总理*/ -/[L*基隆市*]/ /[L*台东县*]/ /[L*南山部落*]/ +/[L*基隆市*]/ + +/[L*台东县*]/ + +/[L*南山部落*]/ -/[L*美国*]/ [L*马里兰州*]/ /[L*约旦河*]/ +/[L*美国*]/ [L*马里兰州*]/ -/[L*朝鲜半岛*]/ /[L*长江三角洲*]/ +/[L*约旦河*]/ ------*长江三角洲*是词表词。 +/[L*朝鲜半岛*]/ + +/[L*长江三角洲*]/ -----*长江三角洲*是词表词。 /[L*吉林省*]/[L*延边朝鲜族自治州*]/[L*图们市*]/ -以下两例均为错误的标注,因为延边朝鲜族自治州*是具有完整意义的地名: +以下两例均为错误的标注,因为*延边朝鲜族自治州*是具有完整意义的地名: /[L*吉林省*]/[L*延边*]/[L*朝鲜族自治州*]/[L*图们市*]/ @@ -721,35 +787,33 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 - 注:本规范不采用ER-99的标注:*[L*法属圭亚那库鲁航天中心*]*。 -/[L*武汉*]/[L*长江大桥*]*/ +/[L*武汉*]/[L*长江大桥*]/ /[L*上海*]/[L*中山公园*]/ -- 注:尽管其它城市也有长江大桥和中山公园,但在当地它们已构成完整的 - -地名,所以应单独标注。 +- 注:尽管其它城市也有长江大桥和中山公园,但在当地它们已构成完整的地名,所以应单独标注。 /*位于*/[L*朝阳门*]/*外*/*商务*/*区*/*之中*/*,*/ /[L*盛华公寓*]/*坐落*/*于*/[L*西直门*]/*内*/[L*冠英园小区*]/ -- 注:内、外都不在标注范围之内,但如果地名中的内、外去掉不能说明是一 +- 注:内、外都不在标注范围之内,但如果地名中的内、外去掉不能说明是一个完整的地名时,内、外要标注在地名内。如: -个完整的地名时,内、外要标注在地名内。如: +/[O*外交部*]/*位于*/[L*北京市*]/[L*朝阳门内南小街*52*号*]/ -/[O*外交部*]/*位于*/[L*北京市*]/[L*朝阳门内南小街*52*号*]/ /[L*西直门外大街*71*号*]/ +/[L*西直门外大街*71*号*]/ 4.2.3并列的地名应分别标注 -对于并列的多个地名应分别标注。对于嵌套在地名中的人名、地名和机构名不再单独 - -标注。例如: +对于并列的多个地名应分别标注。对于嵌套在地名中的人名、地名和机构名不再单独标注。例如: /[L*中*]/[L*意*]/*双方*/ ----*中意*是词表词,作为国名时要切开。 /[L*香港*]/*和*/[L*澳门特别行政区*]/ -/*目前*/*已*/*有*/[int*12个*]/[L*中*]/*、*/[L*东欧*]/*国家*/ /[L*北京*]/[L*上海*]/ +/*目前*/*已*/*有*/[int*12个*]/[L*中*]/*、*/[L*东欧*]/*国家*/ + +/[L*北京*]/[L*上海*]/ /[L*科*]/[L*伊*]/*边境*/ @@ -759,15 +823,13 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 /*从*/[L*陕*]/[L*甘*]/*革命*/*老区*/*到*/*沿海*/*经济特区*/*,*/ -/[L*亚太*]/*----亚太是词表词,它是一个地名,而不是两个地名。 +/[L*亚太*]/----亚太是词表词,它是一个地名,而不是两个地名。 /[L*近东*]/*和*/[L*北非*]/ ##### 4.2.4.1表示地理方位的名词 -一些表示地理方位的名词如*南半球、北半球、江南、江北、西南、西北、华南、 - -华北、华中、东北*等虽然不完全具备确指性,也要作为地名标注为*L*。 +一些表示地理方位的名词如*南半球、北半球、江南、江北、西南、西北、华南、华北、华中、东北*等虽然不完全具备确指性,也要作为地名标注为*L*。 /[L*汉水*]/*流域*/*、*[L*西南*]/*地区*/*东部*/ @@ -783,19 +845,21 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 ##### 4.2.4.2方位词修饰地名实体时要整体标注为L -/[L*东西九龙*]/ ----*这是一个并列的地名。 +/[L*东西九龙*]/ ----这是一个并列的地名。 + +/*一代*/*又*/*一代*/*海*/*测*/*官兵*/*犁*/*波*/*耕*/*浪*/*于*/[L*南中国海*]/*,* -/*一代*/*又*/*一代*/*海*/*测*/*官兵*/*犁*/*波*/*耕*/*浪*/*于*/[L*南中国海*]/*,*/[*L*北爱尔兰*]/ +/[L*北爱尔兰*]/ /[L*中西伯利亚*]/ -- 注:ER-99将此例标为*中*/ [L*西伯利亚*]*。我们认为它整体是一个专指性的地名。 +- 注:ER-99将此例标为*中*/ [L*西伯利亚*]。我们认为它整体是一个专指性的地名。 -/[L*中南美*]*/ +/[L*中南美*]/ /[L*东南亚*]/ -- 注:ER-99要求把上面两个地名分别标注为*[L*中*]/[L*南美*]*和*/[L*东*]/[L*南亚*]/*。其实中南美*指*中美*和*南美*两个地名,而东南亚*是一个地名。这样的细节需要专门的地理知识才能做出判断。所以我们不遵循ER-99的这条规则。 +- 注:ER-99要求把上面两个地名分别标注为[L*中*]/[L*南美*]*和*/[L*东*]/[L*南亚*]/*。其实中南美*指*中美*和*南美*两个地名,而*东南亚*是一个地名。这样的细节需要专门的地理知识才能做出判断。所以我们不遵循ER-99的这条规则。 #### 4.2.5地名实体受时间词修饰时,时间词不标 @@ -805,59 +869,77 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 #### 4.2.6 只有经纬度在一起时才能标注为 **L** -只有经纬度在一起时才能标注为L,否则经度或纬度单独标为角度*ang*。如:*/*震*/*中*/*位于*/[L*北纬三十六点二零度,东经九十点二九度*]/ +只有经纬度在一起时才能标注为L,否则经度或纬度单独标为角度*ang*。如: + +/*震*/*中*/*位于*/[L*北纬三十六点二零度,东经九十点二九度*]/ -/*并*/*将*/*卫星*/*定点*/*在*/[L*东经*110.5*度赤道*]/*上空*/*。*/ /*震*/*中*/*位于*/[ang*北纬*30.5*度*]/*,*/ +/*并*/*将*/*卫星*/*定点*/*在*/[L*东经*110.5*度赤道*]/*上空*/*。*/ + +/*震*/*中*/*位于*/[ang*北纬*30.5*度*]/*,*/ #### 4.2.7天体的标注 -/[L*宇宙*]/ /[L*地球*]/ /[L*太阳*]/ /[L*太阳系*]/ /[L*银河*]/ /[L*银河系*]/ /[L*月亮*]/ /[L*海王星*]/ +/[L*宇宙*]/ + +/[L*地球*]/ + +/[L*太阳*]/ + +/[L*太阳系*]/ + +/[L*银河*]/ + +/[L*银河系*]/ + +/[L*月亮*]/ + +/[L*海王星*]/ /[L*东方红三号*]/ -/[L*"*鑫诺1号*"*卫星*]/ +/[L"*鑫诺1号*"*卫星*]/ - 注:火箭只是卫星的发射工具,故火箭型号不作为星体标注。 -/[dat*96年2月15日*]/*长征*/[ord*三号乙*]/*火箭*/*发射*/*失利*/*, +/[dat*96年2月15日*]/*长征*/[ord*三号乙*]/*火箭*/*发射*/*失利*/, -/*长*/[ord*二*]/*捆*/*火箭*/ ----*全名为*"*长征二号捆绑式运载火箭*"*。 +/*长*/[ord*二*]/*捆*/*火箭*/ ----*全名为*"*长征二号捆绑式运载火箭*"。 ### 4.3不作地名标注的示例 /[L*阿*]/[L*以*]/*冲突*/ -- 注:ER-99和MT-2认为阿(阿拉伯)不是一个特定国家的简称,本规范不采 - -纳他们的规定。 +- 注:ER-99和MT-2认为阿(阿拉伯)不是一个特定国家的简称,本规范不采纳他们的规定。 /*回答*/*了*/[L*中*]*外*/*记者*/*的*/*提问*/ ---*外*不标。 #### 4.3.1地区一般不作为地名的一部分标注 -仅当地区*特指行政单位时,才被视为地名的一部分。一般情况下,地区*泛指一片地方,不是地名的一部分。若不能确定时,地区*不作为地名的一部分标注。 +仅当*地区*特指行政单位时,才被视为地名的一部分。一般情况下,*地区*泛指一片地方,不是地名的一部分。若不能确定时,*地区*不作为地名的一部分标注。 /[L*港*][L*澳*][L*台*]/*地区*/ -----*港澳台*是词表词。 -/[*L*巴尔干*]*地区*/ +/[L*巴尔干*]*地区*/ /[L*临沂*]/*地区*/*现*/*更名*/*为*/[L*临沂市*]/ #### 4.3.2平原、山脉、山区、盆地、沙漠、流域不在标注范围内 -平原、山脉、山区、盆地、沙漠、戈壁、流域、故里、故居、纪念馆、风景区、开发区、经济区*等都不在地名标注范围内。但当某某故居、故里、纪念馆成为一个对外开放的旅游景点时,才作为地名标注。如: +*平原、山脉、山区、盆地、沙漠、戈壁、流域、故里、故居、纪念馆、风景区、开发区、经济区*等都不在地名标注范围内。但当某某故居、故里、纪念馆成为一个对外开放的旅游景点时,才作为地名标注。如: /[L*云*][L*贵*]*高原*/ -*----*云贵高原*是词表词不可分割,但云、贵要分别标注*L*。 +----*云贵高原*是词表词不可分割,但云、贵要分别标注*L*。 -/[L*成都*]/*平原*/ /[L*秦岭山*]/*脉*/ +/[L*成都*]/*平原*/ + +/[L*秦岭山*]/*脉*/ /[L*秦*]/[L*巴*]/*山区*/ -/[L*四川*]/*盆地*/ /[L*撒哈拉*]*沙漠*/ +/[L*四川*]/*盆地*/ -*----*撒哈拉沙漠*是词表词。 +/[L*撒哈拉*]*沙漠*/ ----*撒哈拉沙漠*是词表词。 /[L*长江*]/*流域*/ @@ -865,57 +947,61 @@ ER-99规定:当人名、地名、机构名属于多媒体、产品和条约时 /*造型*/*典雅*//*毗邻*/[L*青云岩*]/*风景区*/*及*/[L*北山湾*]/*旅游区*/ -*[L*约旦河西岸*]*----因为约旦河西岸*是专指。 +*[L*约旦河西岸*]*----因为*约旦河西岸*是专指。 -/[L*海峡两岸*] */ ----*指台湾湾海峡两岸。 +/[L*海峡两岸*] / ----指*台湾湾海峡两岸*。 /[L*两岸*]/ -- 注:词表词*两岸*只有在表示台湾海峡两岸时,才作为地名标注为*L*,当作为*江河、湖泊*的两岸时,两岸*要切分标注。如: +- 注:词表词*两岸*只有在表示台湾海峡两岸时,才作为地名标注为*L*,当作为*江河、湖泊*的两岸时,*两岸*要切分标注。如: /[L*长江*]/*的*/*丰姿*/*和*/[int*两*]/*岸*/*的*/*美景*/*尽收眼底*/*。*/ /*祖国*/[L*大陆*]/ -- 注:内地虽然指中国大陆,但不作为地名标注,这里遵从了ER-99的规定。特 - -区只有在确指是香港和澳门时才作标注。如: +- 注:内地虽然指中国大陆,但不作为地名标注,这里遵从了ER-99的规定。特区只有在确指是香港和澳门时才作标注。如: /*来自*/*内地*/*和*/[L*香港特区*]/ -/[L*特区*]/*政府*/*和*/[L*香港*]/*同胞*/*正*/*以*/*喜悦*/*的*/*心情*/ /[L*中国*]/[L*厦门*]/*经济特区*/ +/[L*特区*]/*政府*/*和*/[L*香港*]/*同胞*/*正*/*以*/*喜悦*/*的*/*心情*/ + +/[L*中国*]/[L*厦门*]/*经济特区*/ #### 4.3.3对语言文字前的单音节地名不标,双音节的地名标注为L -英语*----*对*英*不标注。 +*英语*----对*英*不标注。 + +*汉语*----对*汉*不标注。 -汉语*----*对*汉*不标注。 +*中文*----对*中*不标注。 -中文*----*对中*不标注。 +/*对*/[L*西藏*]/*地区*/*的*/*藏语*/*广播*/ -/*对*/[L*西藏*]/*地区*/*的*/*藏语*/*广播*/ /*主张*/*台语*/*在*/[L*台*]/ +/*主张*/*台语*/*在*/[L*台*]/ -/*用*/[L*四川*]/*话*/ ----*如果语、文前面的地名为双音节时,就要标注。 +/*用*/[L*四川*]/*话*/ ----如果*语、文*前面的地名为双音节时,就要标注。 /[L*荷兰*]/*语*/ #### 4.3.4以族或裔结尾的词组中地名也要标注 -MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此*华裔*、*汉族*中的*华*和*汉(指汉族)*都不作为地名标,但*华人、华侨、华商、中医、中草药、中餐馆、亚运会、奥运会*里的*华、中、亚、奥*仍需标注**L*。本规范不采用这一规则。作为民族的名字,单音节的不标,双音节的标*L*。 +MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此*华裔*、*汉族*中的*华*和*汉(指汉族)*都不作为地名标,但*华人、华侨、华商、中医、中草药、中餐馆、亚运会、奥运会*里的*华、中、亚、奥*仍需标注*L*。本规范不采用这一规则。作为民族的名字,单音节的不标,双音节的标*L*。 下面是一些标准实例: -/[L*美*]*籍*[L*华*]*人----"美籍华人"是词表词。 +/[L*美*]*籍*[L*华*]人----"美籍华人"是词表词。 -/*目的*/*是*/*促进*/[L*塞浦路斯*]/*西*/*族*/*与*/*土*/*族*/*的*/*和解*/*她*/*和*/*同*/*是*/[L*日*]/*裔*/[int*三*]/*世*/*的*/*男*/*友*/ +/*目的*/*是*/*促进*/[L*塞浦路斯*]/*西*/*族*/*与*/*土*/*族*/*的*/*和解* + +/*她*/*和*/*同*/*是*/[L*日*]/*裔*/[int*三*]/*世*/*的*/*男*/*友*/ /*通过*/*在*/[L*中*]*医药*/*宝库*/*里*/*寻找*/*线索*/ /*人们*/*纷纷*/*拥向*/[L*中*]*餐*/*馆*/*,*/*一时间*/*人满为患*/ -/[L*吉普赛*]/*人*/*----吉普赛不是词表词。 +/[L*吉普赛*]/*人*/----*吉普赛*不是词表词。 -/[L*印地安*]/*民族*/*;*/ ----*印地安人是词表词。 +/[L*印地安*]/*民族*/*;*/ ----*印地安人*是词表词。 ## 第五章 机构名 @@ -928,45 +1014,71 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* | **序号** | **情况** | 标记方法 |例子 | | --- | --- | --- | --- | | 1 | 普通名字+机构名 | 整体标出 | *[O*板桥市胜捷公司*]* | -| 2 | 地名+机构名 | 机构名整体标出 | *[O*北京市电信局*]*[O*台北县立莺歌高职*]*[O*台北看守所*]*[O*基隆长庚医院*]*[O*东直门敬老院*]*机构名的关键词如:幼儿园、各级学校、科学院、部委、实验室、工厂、公司、报刊杂志、出版社、大使馆、领事馆、咖啡店、快餐店、饭店、酒店、旅馆等 | +| 2 | 地名+机构名 | 机构名整体标出 | [O*北京市电信局*]*[O*台北县立莺歌高职*]*[O*台北看守所*]*[O*基隆长庚医院*]*[O*东直门敬老院*]机构名的关键词如:幼儿园、各级学校、科学院、部委、实验室、工厂、公司、报刊杂志、出版社、大使馆、领事馆、咖啡店、快餐店、饭店、酒店、旅馆等 | | 3 | 人名+机构名 | 机构名整体标出 | *[O*李嘉诚基金会*]* | -| 4 | 简称 | 一律整体标注 | *[O*北约*]*[O*上轮集团*]*----*指上海轮胎集团*[O*白宫*]/*官员*/*表示 | +| 4 | 简称 | 一律整体标注 | *[O*北约*]*[O*上轮集团*]----*指上海轮胎集团*[O*白宫*]/*官员*/表示 | ### 5.2机构名标注细则 #### 5.2.1机构名标注实体示例 -/[O*国防部*]/*长*/[P*迟浩田*]/ /[O*美国国防部*]/*长*/[P*佩里*]/ /[O*台北县地政局地权课*]/ +/[O*国防部*]/*长*/[P*迟浩田*]/ + +/[O*美国国防部*]/*长*/[P*佩里*]/ + +/[O*台北县地政局地权课*]/ /[O*地政局*]/ -/[O*政风室*]/*接*/*获*/*检举*/*调查*/ /[O*国军北投医院*]/ +/[O*政风室*]/*接*/*获*/*检举*/*调查*/ + +/[O*国军北投医院*]/ /[O*三重地政事务所*]/ -/[O*台湾银行宜兰分行*]/ /[O*省立关山工商*]/ +/[O*台湾银行宜兰分行*]/ + +/[O*省立关山工商*]/ /[O*基隆市光隆家商*]/ -/[O*东信国小*]/ /[O*安乐国中*]/ +/[O*东信国小*]/ + +/[O*安乐国中*]/ /[O*原住民委员会*]/ -/[O*连萧全国竞选总部*]/ /[O*北京钓鱼台国宾馆*]/ /[L*浙江*]/[O*温州大酒店*]/ /[O*松下电工株式会社*]/ +/[O*连萧全国竞选总部*]/ + +/[O*北京钓鱼台国宾馆*]/ + +/[L*浙江*]/[O*温州大酒店*]/ + +/[O*松下电工株式会社*]/ + +/[O*公司*]/*英文*/*名称*/[O *HUNAN* FORE *SCAPE* TECHNOLOGY*CO*.,*LTD*]/ + +/[O*朝鲜人民武装力量部*]/*副*/*部长*/ -/[O*公司*]/*英文*/*名称*/[O *HUNAN* FORE *SCAPE* TECHNOLOGY*CO*.,*LTD]/ /[O*朝鲜人民武装力量部*]/*副*/*部长*/ +/[O*美国海军*]/ -/[O*美国海军*]/ /[O*欧共体*]/ +/[O*欧共体*]/ -/[O*中国国家生育委员会*]/ /[O*中国奥林匹克队*]/ +/[O*中国国家生育委员会*]/ -/[O*披头四*]/ /[O*飞虎队*]/ +/[O*中国奥林匹克队*]/ -/*敢死队*/ -----*泛指不标。 +/[O*披头四*]/ + +/[O*飞虎队*]/ + +/*敢死队*/ -----泛指不标。 /*但是*/[O*共和党*]/*人*/*说*/ -/[O*土耳其议会外交关系委员会*]/ /[O*终战*50*周年国会议员联盟*]/ +/[O*土耳其议会外交关系委员会*]/ + +/[O*终战*50*周年国会议员联盟*]/ /*记者*/*来到*/[O*中山医科大学第一附属医院住院部*]/ @@ -978,9 +1090,7 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* - 注:类似的简称党,由于专指性不强,不标,如: -/但/这种/现象/的/产生/,/是/同/党/和/国家/尊师重教/的/方针/背道 - -而驰/的/, +/但/这种/现象/的/产生/,/是/同/党/和/国家/尊师重教/的/方针/背道而驰/的/, /全国/"/[dat三八]/"/红旗手/、/全国/优秀/共青团员/ @@ -988,21 +1098,23 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[O*中共中央政治局常委会*]/ -- 注:常委会可以是机构名,常委则不是。*/*党*/*的*/[O*十四大*]/*以来*/ +- 注:常委会可以是机构名,常委则不是。 -- 注:中共的*X*中全会不是机构名,除了词表词三中全会什么也不标以外, +/*党*/*的*/[O*十四大*]/*以来*/ -数词*X*应单独标注为*ord*。例如: +- 注:中共的*X中全会*不是机构名,除了词表词*三中全会*什么也不标以外,数词*X*应单独标注为*ord*。例如: /*根据*/*党*/*的*/[ord*十五届*]/[ord*二*]/*中*/*全会*/ /[O*八届全国人大*]/*代表*/[P*陈妙珍*]/ -/[O*西藏政协*]/*委员*/*强调*/*,*/*必须*/*旗帜*/*鲜明*/*地*/*反对*/*民族*/*分裂*/ [O*澳门中华总商会*]/*会*/*董*/*兼*/[O*青年委员会*]/*副*/*主任*/ +/[O*西藏政协*]/*委员*/*强调*/*,*/*必须*/*旗帜*/*鲜明*/*地*/*反对*/*民族*/*分裂*/ + +[O*澳门中华总商会*]/*会*/*董*/*兼*/[O*青年委员会*]/*副*/*主任*/ /[O*足协*]/*杯赛*/*冠军*/[O*北京国安队*]/ ----*杯赛*是词表词。 -/[O*以国家电视一台*]/ ----*指以色列国家电视一台 +/[O*以国家电视一台*]/ ----指以色列国家电视一台 /[L*汉城*]/[O*路透*]/*电*/ @@ -1014,17 +1126,23 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*前往*/[O*解放军驻港部队总部*]/*慰问*/*驻军*/ -/[O*第四届和平小天使台湾访问团*]/*抵达*/[L*重庆直辖市*]/ /[O*塔里班*]/*部队*/*已经*/*到达*/[P*杜斯塔姆*]/*将军*/*的*/*家乡*/ /*用*/*公款*/*购买*/[O*靖国神社*]/*和*/[O*护国神社*]/*的*/*祭祀*/*品*/ +/[O*第四届和平小天使台湾访问团*]/*抵达*/[L*重庆直辖市*]/ + +/[O*塔里班*]/*部队*/*已经*/*到达*/[P*杜斯塔姆*]/*将军*/*的*/*家乡*/ + +/*用*/*公款*/*购买*/[O*靖国神社*]/*和*/[O*护国神社*]/*的*/*祭祀*/*品*/ /*纪念币*/*正面*/*是*/*由*/[O*解放军*]/*军徽*/*光,*/*八一南昌起义*/*和*/[O*解放军*]/[O*陆*]/[O*海*]/[O*空*]/*三军*/*战士*/*的*/*图案*/ -- 注:词表词八一南昌起义*是一个事件,不是机构名。三军*是词表词,所以数字三*不作为**int*标注。 +- 注:词表词八一南昌起义*是一个事件,不是机构名。三军*是词表词,所以数字*三*不作为*int*标注。 - 注:股市报导中的企业和公司名不论其前后有没有外文字符,一律作为一个整体 标注成*O*。例如: -/[O*ST辽物资*]/[dec*14.141*]/[O*宁波中百*]/[dec*20.354*]/ /[O*DR沪港机*]/[dec*11.194*]/[O*鲁北化工*]/[dec*8.051*]/ +/[O*ST辽物资*]/[dec*14.141*]/[O*宁波中百*]/[dec*20.354*]/ + +/[O*DR沪港机*]/[dec*11.194*]/[O*鲁北化工*]/[dec*8.051*]/ - 注:商城或百货公司本应标注为L,但作为股市中时企业时应标注为O。 @@ -1032,23 +1150,37 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* - 注:被命名的轮船、飞机、机车应标注为*O*。例如: -/*却*/*购*/*回*/*了*/[int*3张*]/ [O*"长月"号轮船*]/*船票*/*,*/ /[O*泰坦尼克号游轮*]/*上*/*的*/*这*/*对*/*情人*/*实在*/*浅*/*得*/*很*/*。*/ /[O*美国"哥伦比亚"号航天飞机*]/*上*/*的*/*宇航员*/ +/*却*/*购*/*回*/*了*/[int*3张*]/ [*O"长月"号轮船*]/*船票*/*,*/ + +/[O*泰坦尼克号游轮*]/*上*/*的*/*这*/*对*/*情人*/*实在*/*浅*/*得*/*很*/*。*/ + +/[O*美国"哥伦比亚"号航天飞机*]/*上*/*的*/*宇航员*/ #### 5.2.2机构名的后缀是机构名的一部分 机构名的后缀是机构名的一部分,即要准确的标出机构名的最长边界(机构名的全称)。机构名中可以包含人名、地名和机构名,但对于它们不再单独标注。例如: -/[O*苗栗县环保局*]/ /[O*卫生署桃园医院*]/ +/[O*苗栗县环保局*]/ + +/[O*卫生署桃园医院*]/ + +/[O*兰阳民生医院*]/*前身*/*为*/[O*吴外妇科*]/ -/[O*兰阳民生医院*]/*前身*/*为*/[O*吴外妇科*]/ /[O*台北爱乐青年管弦乐团*]/ +/[O*台北爱乐青年管弦乐团*]/ -/[O*行政院农委会林业试验所福山分所*]/ /[O*宋庆龄基金会*]/ +/[O*行政院农委会林业试验所福山分所*]/ + +/[O*宋庆龄基金会*]/ -/[O*上海轮胎橡胶(集团)股份有限公司*]/ /[O*中国驻日本大使馆*]/ +/[O*上海轮胎橡胶(集团)股份有限公司*]/ + +/[O*中国驻日本大使馆*]/ /[O*美国白宫*]/ -/*前*/[O*中国新华社香港分社*]/*社长*/[P*许家屯*]/ [O*清华大学计算机系人工智能实验室*]/ +/*前*/[O*中国新华社香港分社*]/*社长*/[P*许家屯*]/ + +[O*清华大学计算机系人工智能实验室*]/ [O*中保财产保险四川省分公司*]/ @@ -1056,7 +1188,9 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*当选*/[O*国会*]/*议员*/ -/[O*内阁*]/*改组*/*将*/*会*/*在*/[dat*八月底*]/*前*/*完成*/ /*前*/[O*内阁官房*]/*长官*/[P*山静六*]/ +/[O*内阁*]/*改组*/*将*/*会*/*在*/[dat*八月底*]/*前*/*完成*/ + +/*前*/[O*内阁官房*]/*长官*/[P*山静六*]/ /[P*刹瓦什*]/*向*/[O*宪政法庭*]/*提出*/*动议*/ @@ -1074,9 +1208,13 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* 如果机构名以一个地名开头,而且删除这个地名后所剩部分不再是一个具有特指性的机构名,那么该地名必须留在机构名中作为该机构名的一部分标注; -/[O*北京大学*]/ /[O*深圳中学*]/ +/[O*北京大学*]/ + +/[O*深圳中学*]/ -/[O*复旦大学专用集成电路与系统实验室*]/ /[O*东南大学*]/[O*深圳宝安设计院*]/ +/[O*复旦大学专用集成电路与系统实验室*]/ + +/[O*东南大学*]/[O*深圳宝安设计院*]/ ##### 5.2.4.2规则二 @@ -1096,7 +1234,9 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[O*上海同济大学*]/ -/[L*中国*]/[O*上海同济大学*]/ /[O*湖北省武钢三中*]/ +/[L*中国*]/[O*上海同济大学*]/ + +/[O*湖北省武钢三中*]/ ##### 5.2.4.4规则四 @@ -1104,21 +1244,23 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* 例如: -/[L*洛杉矶*]/[O*亚太法律中心*]/ /[L*香港*]/[O*中港贸易协会*]/ /[O*广东亚洲大酒店*]/ +/[L*洛杉矶*]/[O*亚太法律中心*]/ -/[O*澳大利亚维多利亚投资公司上海办事处*]/*》*/*, +/[L*香港*]/[O*中港贸易协会*]/ -/[O*澳大利亚维多利亚投资公司*]/*》*/ +/[O*广东亚洲大酒店*]/ -- 注:"广东"与"亚洲、澳大利亚与维多利亚"都不属于上、下级管辖关系,所以 +/[O*澳大利亚维多利亚投资公司上海办事处*]/*》*/, + +/[O*澳大利亚维多利亚投资公司*]/*》*/ -要把上一级地名标注在机构名内。 +- 注:"广东"与"亚洲、澳大利亚与维多利亚"都不属于上、下级管辖关系,所以要把上一级地名标注在机构名内。 ##### 5.2.4.5更复杂的情况 在更复杂的情况下,我们可能无法判定某机构名究竟是以一个还是两个地名开头的。这时可按规则5.2.5和5.2.6来处理。 -例如,洛杉矶台北经济文化办事处* +例如,*洛杉矶台北经济文化办事处* 究竟是A:*[L*洛杉矶*]/[O*台北经济文化办事处*]* @@ -1130,15 +1272,15 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* 如果该地名比较模糊,而标注者又没有足够的知识来判断某机构名的开头是否是一个地名。就标注到一个比较明确的地名, -例如:印度尼西亚莫巴蒂努山打腊航空公司*中的*莫巴蒂*·*努山打腊*不知道是不是地名。但至少知道一旦拿走了这个字符串,剩下的字符串已不构成专指性的地名。此时,按规则2.5的标注方式应是: +例如:*印度尼西亚莫巴蒂努山打腊航空公司*中的*莫巴蒂*·*努山打腊*不知道是不是地名。但至少知道一旦拿走了这个字符串,剩下的字符串已不构成专指性的地名。此时,按规则2.5的标注方式应是: -/[L*印度尼西亚*]/[O*莫巴蒂*·*努山打腊航空公司*]/ /[O*河北沙岭子电厂*]/ +/[L*印度尼西亚*]/[O*莫巴蒂*·*努山打腊航空公司*]/ -*----*沙岭子*是一个乡镇的地名,河北和内蒙古都有一个沙岭子镇, +/[O*河北沙岭子电厂*]/ -地名的概念比较模糊,故标注在机构名内。 +----*沙岭子*是一个乡镇的地名,河北和内蒙古都有一个沙岭子镇,地名的概念比较模糊,故标注在机构名内。 -/*国际*/*著名*/*的*/[O*加拿大*B*+*H*国际建筑师事务所*]/ +/*国际*/*著名*/*的*/[O*加拿大*B+*H国际建筑师事务所*]/ ##### 5.2.4.7紧邻的地名和机构名不构成修饰关系的情况 @@ -1148,7 +1290,11 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*在*/[L*日内瓦*]/[O*联合国*]/&*人*/*权*&/*会议*/*上*/ -更典型的例子需借助上下文来判断,如:*/*促进*/*了*/[L*中国*]/[O*微软*]*的合作*/ /[O*中国微软*]/*即将*/*发布*/*新产品*/ +更典型的例子需借助上下文来判断,如: + +/*促进*/*了*/[L*中国*]/[O*微软*]*的合作*/ + +/[O*中国微软*]/*即将*/*发布*/*新产品*/ - 注:如果标注者不能判断它们是不是修饰关系,则默认为分开标注,如: @@ -1156,15 +1302,13 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[O*美国众议院*]/ -/[L*重庆*]/[O*长江救助打捞公司*]/ /[L*日本*]/[O*东京股市*]/ +/[L*重庆*]/[O*长江救助打捞公司*]/ /[L*日本*]/[O*东京股市*]/ ----错误标注! -*----*错误标注! +/[L*日本*]/[L*东京*]/*股市*/ ----正确标注。 -/[L*日本*]/[L*东京*]/*股市*/ ----*正确标注。 +/[L*美国*]/[L*华盛顿*]/[O*三普证券公司*]/ ----错误标注! -/[L*美国*]/[L*华盛顿*]/[O*三普证券公司*]/ ----*错误标注! - -/[L*美国*]/[O*华盛顿三普证券公司*]/ ----*正确标注。 +/[L*美国*]/[O*华盛顿三普证券公司*]/ ----正确标注。 /[L*华盛顿*]/[O*美国国务院*]/ @@ -1174,7 +1318,9 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*泛*/[L*美*]/*运动会*/ -/[L*中国*]/[ord*第一届*]/*人工智能*/*大会*/ /[ord*第四届*]/[L*中*]/[L*法*]/*经济*/*研讨会*/ +/[L*中国*]/[ord*第一届*]/*人工智能*/*大会*/ + +/[ord*第四届*]/[L*中*]/[L*法*]/*经济*/*研讨会*/ /[ord*第三届*]/[L*海峡两岸*]/*水利*/*科技*/*交流*/*研讨会*/ @@ -1182,29 +1328,33 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[O*中国人工智能协会*]/ -/[O*中国人工智能联合会*]/ ----*为机构名。 +/[O*中国人工智能联合会*]/ ----为机构名。 当会议指议会(congress)或代表大会(chamberofdeputies)时,应视为机构名。但是要注意:虽然议会或代表大会是机构名,但是议会或代表大会中的某一次会议是一个事件,不是机构名。为了更明确的区分各种情况,我们用以下例子说明: -/*通报*/*了*/[O*八届政协*]/[ord*五次*]/*会议*/*的*/*各*/*项*/*安排*/ /[O*全国政协*]/[ord*八届*]/[[ord*五次*]/*会议*/*将*/*于*/ +/*通报*/*了*/[O*八届政协*]/[ord*五次*]/*会议*/*的*/*各*/*项*/*安排*/ + +/[O*全国政协*]/[ord*八届*]/[[ord*五次*]/*会议*/*将*/*于*/ /*听取*/*和*/*审议*/[O*全国政协八届五次会议常务委员会*]/*报告*/ /*审议*/[ord*八届*]/[ord*五次*]/*会议*/*提案*/*审查*/*情况*/*的*/*报告*/ -- 注:*八届五次会议*、*五次会议*是一个事件,不应标注为机构名。但是这次会议 - -的组委会、委员会应视为机构名。例如: +- 注:*八届五次会议*、*五次会议*是一个事件,不应标注为机构名。但是这次会议的组委会、委员会应视为机构名。例如: /[O*八届全国人大*]/[ord*五次*]/*会议*/ -/[O*政协九届一次会议*]/ --*错误标注! +/[O*政协九届一次会议*]/ --错误标注! + +/[O*中国共产党第十五次全国代表大会*]/ -/[O*中国共产党第十五次全国代表大会*]/ /[O*九届人大*]/[ord*一次*]/*会议*/ +/[O*九届人大*]/[ord*一次*]/*会议*/ -/[O*中国全国人大*]/ /[O*中共十五大*]/ /*各级*/*人大*/*常委会*/ +/[O*中国全国人大*]/ -*--*不是专指,故不标。 +/[O*中共十五大*]/ + +/*各级*/*人大*/*常委会*/ --不是专指,故不标。 /[O*中国科协*]/[ord*第五次*]/*全国代表大会*/ @@ -1212,21 +1362,21 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*向*/*同级*/*人民代表大会*/*或*/*人民代表大会常务委员会*/*提请*/*审议*/ -- 注:*全国人民代表大会*和确指的省、市人民代表大会及其常委会、常务委员会需作为机构名标注。泛指的人大、中央银行、人民银行、*&*农*/*发*/*行*&*不作为机构名标注。 - -/[O*临澧县人大*]/*抓*/*村*/*级*/*财务监督*/*一瞥*/*(*/*监督*/*广角*/*) +- 注:*全国人民代表大会*和确指的省、市人民代表大会及其常委会、常务委员会需作为机构名标注。泛指的人大、中央银行、人民银行、&*农*/*发*/*行*&不作为机构名标注。 -/*由于*/*各级*/*人大*/*代表*/*的*/*有效*/*监督*/*,*/[dat*去年*]/*以来*/*该*/*县*/*各*/*村*/*村*/*务*/ +/[O*临澧县人大*]/*抓*/*村*/*级*/*财务监督*/*一瞥*/*(*/*监督*/*广角*/) -情况*/*出现*/*好转*/*,*/ +/*由于*/*各级*/*人大*/*代表*/*的*/*有效*/*监督*/*,*/[dat*去年*]/*以来*/*该*/*县*/*各*/*村*/*村*/*务*/*情况*/*出现*/*好转*/*,*/ -- 注:在地名国会大厦中,*国会*不可作为机构名标注,否则就出现嵌套了。 +- 注:在地名*国会大厦*中,*国会*不可作为机构名标注,否则就出现嵌套了。 /[L*国会大厦*]/ - 注:"联合国大会"及其简称"联大"都是词表词,但不可整体标为O。如: -/[O*联合国*]*大会*/*于*/[dat*1992年*]/*批准*/*了*/*这*/*一*/*条约*/*。*/[P*沈国放*]/[dat*27日*]/*在*/[O*联*]*大*/*全体*/*会议*/*上*/*表示*/*, +/[O*联合国*]*大会*/*于*/[dat*1992年*]/*批准*/*了*/*这*/*一*/*条约*/*。* + +/[P*沈国放*]/[dat*27日*]/*在*/[O*联*]*大*/*全体*/*会议*/*上*/*表示*/, - 注:*会*也可能出现在一般的机构名中,如: @@ -1234,15 +1384,15 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* #### 5.2.6用我们、我等代词修饰的机构名,只对机构名进行标注 -/*我国*/[O*共产党*]/ /*我们*/[O*清华大学*]/ +/*我国*/[O*共产党*]/ -- 注:根据上下文是确指的某公司、单位名称的简称要标注为机构,否则不标注!但如果在公司、集团等词前面有本、我、该等字样时,此处的公司、集团不进行标注。其他特殊情况依据上下文进行标注。如: +/*我们*/[O*清华大学*]/ -/*凡*/*《*/[O*克罗伏特缓冲器股份有限公司*]/*股份*/*》*/*记名*/*的*/*持有*/*人*/*均*/*为*/ +- 注:根据上下文是确指的某公司、单位名称的简称要标注为机构,否则不标注!但如果在公司、集团等词前面有本、我、该等字样时,此处的公司、集团不进行标注。其他特殊情况依据上下文进行标注。如: -本*/*公司*/*股东*/*。*/ +/*凡*/*《*/[O*克罗伏特缓冲器股份有限公司*]/*股份*/*》*/*记名*/*的*/*持有*/*人*/*均*/*为*/*本*/*公司*/*股东*/*。*/ -/*我*/*公司*/*出资*/*总额*/[mon*50*万元*]/ +/*我*/*公司*/*出资*/*总额*/[mon*50万元*]/ /[O*港资陕西华懋实业公司*]/*总经理*/[P*商铭渔*]/*,*/*受*/[O*公司董事会*]/*委托*/*来到*/[O*咸阳市西北地勘局二一五医院*]/*看望*/[O*公司*]/*保安*/*员*/[P*韩玉刚*]/*,*/ @@ -1254,19 +1404,15 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* 当大使馆(或领事馆或其它外交使团)所代表的国家或所在地没有出现在上下文中,或者在描述范围内不连续,那么存在两种情况: -(1)大使馆所代表的国家和大使馆(领事馆)相连,此地名和大使馆一起标记 - -为机构名。如: +(1)大使馆所代表的国家和大使馆(领事馆)相连,此地名和大使馆一起标记 为机构名。如: /*前往*/[L*香港*]/*的*/[O*洪都拉斯领事馆*]/ -(2)大使馆所在地和大使馆(领事馆)相连,此地名应单独标记,整体不作为 - -机构名。如: +(2)大使馆所在地和大使馆(领事馆)相连,此地名应单独标记,整体不作为机构名。如: /[L*美国*]/*在*/*通过*/*驻*/[L*金沙萨*]/*大使馆*/*和*/*其它*/*正常*/*管道*/ -- 注:虽然驻金沙萨大使馆*是一个连续的短语,但它的实际意思是美国(或*X*国)驻金沙萨大使馆*,而不是什么金沙萨(的)大使馆*。因此在这里大使馆*不视为机构名。 +- 注:虽然*驻金沙萨大使馆*是一个连续的短语,但它的实际意思是*美国(或*X*国)驻金沙萨大使馆*,而不是什么*金沙萨(的)大使馆*。因此在这里*大使馆*不视为机构名。 #### 5.2.8生产厂家要标注为机构名,产品则不标 @@ -1276,9 +1422,15 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* ----因为股票指数可以视为产品,那么*道琼*就可以视为生产厂家。 -/[O*纳斯达克*]/*指数*/ ---*原因同前。 +/[O*纳斯达克*]/*指数*/ ---原因同前。 + +/[O*太原刚玉*]/[dec*10.581*]/ + +/[O*咸阳偏转*]/[dec*16.112*]/ -/[O*太原刚玉*]/[dec*10.581*]/ /[O*咸阳偏转*]/[dec*16.112*]/ /[O*深华发A*]/[dec*15.663*]/ /[O*渝开发*A]/ +/[O*深华发A*]/[dec*15.663*]/ + +/[O*渝开发*A]/ #### 5.2.9报纸、广播电台、电视台和杂志的名字要标为机构名 @@ -1292,27 +1444,37 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[O*中央电视台*]/*《*/*焦点*/*访谈*/*》*/*、*/*《*/*东方*/*时空*/*》*/*主持人*/ -/[O*武汉电视台*]/*《*/*科技*/*之*/*光*/*》*/*栏目*/*的*/*《*/*科学家*/*,*/*您好*/*》*/*专栏*/ /[O*美国《科学》杂志*]/ +/[O*武汉电视台*]/*《*/*科技*/*之*/*光*/*》*/*栏目*/*的*/*《*/*科学家*/*,*/*您好*/*》*/*专栏*/ + +/[O*美国《科学》杂志*]/ /[O*美国探索电视网*]/ -/*创办*/*《*/[O*深圳房地产快讯*]/*》*/ /*办*/*好*/*《*/[O*中外房地产导报*]/*》*/ +/*创办*/*《*/[O*深圳房地产快讯*]/*》*/ + +/*办*/*好*/*《*/[O*中外房地产导报*]/*》*/ #### 5.2.10特殊情况 ***民族不作为机构名*** -***泛指的*部队不作为机构名***政府不作为机构名 +***泛指的*部队不作为机构名** + +***政府不作为机构名*** + +***学术或商务会议(conference,meeting)不作为机构名*** + +***交易会不作为机构名*** -***学术或商务会议(conference,meeting)不作为机构名***交易会不作为机构名 +***运动会不作为机构名*** -***运动会不作为机构名***联赛不作为机构名 +***联赛不作为机构名*** #### 5.2.11特殊情况示例 /[L*中国*]/[L*天津*]/*出口*/*商品*/*交易会*/ -/[L*中国*]/[O*天津出口商品交易会*]/ ----*错误标注! +/[L*中国*]/[O*天津出口商品交易会*]/ ----错误标注! /[L*中国*]/*政府*/ ----*不把政府*标为机构名。 @@ -1320,7 +1482,7 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[L*中国*]/*公安*/*部门*/ ----*不把部门*标为机构名。 -/[O*中国公安部门*]/ -*---错误的标注! +/[O*中国公安部门*]/ ----错误的标注! - 注:标注并列的机构名(*O*)时,连接词和标点符号不进入标注范围。例如: @@ -1328,137 +1490,141 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[P*贺国中*]/*分别*/*任*/[O*一*]/*、*/[O*四*]/*、*/[O*七团*]/*党代表*/ -- 注:上述情况和标注并列的序数(*ord*)不同,连接词和标点符号是否进入标注范 +- 注:上述情况和标注并列的序数(*ord*)不同,连接词和标点符号是否进入标注范围取决于序数词所修饰的词语。例如: -围取决于序数词所修饰的词语。例如: +/*获得*/*个人*/[ord*一、二、三等*]/*奖*/ -/*获得*/*个人*/[ord*一、二、三等*]/*奖*/ /[ord*一*]/*、*/[ord*二*]/*、*/[ord*三*]/*产业*/ /*书店*/[ord*三、四层*]/ +/[ord*一*]/*、*/[ord*二*]/*、*/[ord*三*]/*产业*/ -- 注:*中央*不作为机构名,但党中央*标为机构名。*/*在*/*中央*/*的*/*领导*/*下*/ +/*书店*/[ord*三、四层*]/ + +- 注:*中央*不作为机构名,但党中央*标为机构名。 + +/*在*/*中央*/*的*/*领导*/*下*/ /*以*/[P*胡锦涛*]/*同志*/*为*/*核心*/*的*/[O*党中央*]/*周围*/ #### 5.2.12地名和机构名容易混淆的情况 -/[L*人民大会堂*]*----地名。 - -/[O*五角大楼*]/*发言人*/*说*/*, +/[L*人民大会堂*] ----地名。 -/[O*白宫*]* +/[O*五角大楼*]/*发言人*/*说*/*,* -*----*机构名。 +/[O*白宫*] ----机构名。 -/[O*克里姆林宫*]/*表示*----*机构名。 +/[O*克里姆林宫*]/*表示* ----机构名。 /*在*/[L*总统府*]/*分别*/*约见*/*了*/*多*/*位*/[O*国民党*]/*中*/*常委*/*检察官*/ -- 注:*总统府*标注为L而不是*O。这是因为有的国家有多处总统府,所以不能 - -把它们视为国家或政府的唯一代表。 - -- 注:下面的例子中出现的类似单位名称的,因不是确指,而且是出现在各种条令、合同中,适合任何一个省、市、县的单位机构名称,所以不能作为一个机构名称标注为**O*。如: +- 注:*总统府*标注为L而不是*O*。这是因为有的国家有多处总统府,所以不能把它们视为国家或政府的唯一代表。 -/*本*/*合同*/*正本*/[int*三份*]/*,*/*出租*/*人*/*、*/*承租*/*人*/*、*/*市*/*公证处*/*各*/*执*/*一*/*份*/*。*/*副本*/*若干*/*份*/*,*/*报*/*市*/*经济*/*委员会*/*、*/*市*/*经济体制*/*改革*/*委员会*/*、*/*市*/*财政 +- 注:下面的例子中出现的类似单位名称的,因不是确指,而且是出现在各种条令、合同中,适合任何一个省、市、县的单位机构名称,所以不能作为一个机构名称标注为*O*。如: -/*局*/*、*/*劳动局*/*、*/*税务局*/*、*/*审计*/*局*/*、*/*工商*/*行政管理*/*局*/*、*/[O*中国人 - -民银行*]/*市*/*分行*/*、*/[O*中国工商银行*]/*、*/*市*/*分行*/*等*/*有关*/*部门*/*备案*/ */*本*/*合同*/*在*/*履行*/*中*/*如*/*发生*/*争议*/*,*/*双方*/*应*/*协商*/*解决*/*;*/*协商*/*不*/*成*/*时*/ /*任何*/*一方*/*均*/*可*/*向*/*工商*/*行政管理*/*局*/*合同*/*仲裁*/*委员会*/*申请*/*调解*/*或*/*仲裁*/ +/*本*/*合同*/*正本*/[int*三份*]/*,*/*出租*/*人*/*、*/*承租*/*人*/*、*/*市*/*公证处*/*各*/*执*/*一*/*份*/*。*/*副本*/*若干*/*份*/*,*/*报*/*市*/*经济*/*委员会*/*、*/*市*/*经济体制*/*改革*/*委员会*/*、*/*市*/*财政*/*局*/*、*/*劳动局*/*、*/*税务局*/*、*/*审计*/*局*/*、*/*工商*/*行政管理*/*局*/*、*/[O*中国人民银行*]/*市*/*分行*/*、*/[O*中国工商银行*]/*、*/*市*/*分行*/*等*/*有关*/*部门*/*备案*/ */*本*/*合同*/*在*/*履行*/*中*/*如*/*发生*/*争议*/*,*/*双方*/*应*/*协商*/*解决*/*;/*协商*/*不*/*成*/*时*/ /*任何*/*一方*/*均*/*可*/*向*/*工商*/*行政管理*/*局*/*合同*/*仲裁*/*委员会*/*申请*/*调解*/*或*/*仲裁*/ ## 第六章 数字串标注总则 -**数字串(** Factoid **)包括时间表达式(**TIMEX**) 、数字表达式( ** NUMEX )、度量 **表达式** - -**(MEASUREX)和地址表达式(ADDREX)等** 4 **大类,***27***个小类,详见表** 1-1 **。标注数字** - -**串的一条重要原则就是:它的标记不得插入到词表词的内部(见** 1.5.2.4 **)** 。 +数字串(**Factoid**)包括时间表达式(**TIMEX**) 、数字表达式( **NUMEX** )、度量表达式(**MEASUREX**)和地址表达式(**ADDREX**)等**4**大类,***27***个小类,详见表**1-1**。标注数字串的一条重要原则就是:它的标记不得插入到词表词的内部(见**1.5.2.4**)。 ### 6.1时间表达式 -时间表达式(*TIMEX*)包括日期(*dat*)、时间(*tim*)和时段(*dur*)三小类。所有小于一天的时间都被定义为时间(*tim*),如秒,分,小时*。一天或者大于一天的时间单位则属于日期(*dat*),如*天,日,星期,礼拜,月,季度,年,五年,十年,世纪*等。时段(dur)通常也使用日期和时间中的单位,如月、年、时、分*等。对此标注者要注意区分。 +时间表达式(*TIMEX*)包括日期(*dat*)、时间(*tim*)和时段(*dur*)三小类。所有小于一天的时间都被定义为时间(*tim*),如秒,分,小时。一天或者大于一天的时间单位则属于日期(*dat*),如*天,日,星期,礼拜,月,季度,年,五年,十年,世纪*等。时段(dur)通常也使用日期和时间中的单位,如月、年、时、分*等。对此标注者要注意区分。 将日期、时间同时段区分开来有时是困难的,下面分别给出它们的定义。 #### 6.1.1日期(dat)和时间(tim)的定义 -日期和时间在一维的时间坐标轴上有相对确定的位置。小于一天的时间都被定义 - -为时间。一天或者大于一天的时间则属于日期。 +日期和时间在一维的时间坐标轴上有相对确定的位置。小于一天的时间都被定义为时间。一天或者大于一天的时间则属于日期。 -/[tim*8*点*30*分*]/ +/[tim*8*点30*分*]/ /[dat*今天*]/[tim*晚上*]/ ----*晚上*是词表词。 /[dat*昨天*]/[tim*夜里*]/ ----*昨天*和*夜里*都是词表词。 -/[tim*昨夜*]/ *----*昨夜、昨晚*都是词表词,只能整体标** tim*。 +/[tim*昨夜*]/ ----*昨夜、昨晚*都是词表词,只能整体标*tim*。 -/[dat*昨*]/[tim*晚*]/ ----*错误的标注! +/[dat*昨*]/[tim*晚*]/ ----错误的标注! -/[dat*春节*]/*---在每一年中,是比较固定一天或几天。 +/[dat*春节*]/---在每一年中,是比较固定一天或几天。 -/[dat*1999*年*]/*---以年*为单位,与别的年份相区别。 +/[dat*1999*年*]/---以*年*为单位,与别的年份相区别。 -/*在*/"/[dat*六五*]/"/*中*/*---以五年*为单位,与别的五年*相区别 +/*在*/"/[dat*六五*]/"/*中*/---以*五年*为单位,与别的*五年*相区别 -- 注:严格地说,每一个*dat*或**tim*都占据了一个时间段,因此这里出现的*期间*和*中*,不能作为标注时段的理由。 +- 注:严格地说,每一个*dat*或*tim*都占据了一个时间段,因此这里出现的*期间*和*中*,不能作为标注时段的理由。 -/"/[dat*九五*]/"/*计划 +/"/[dat*九五*]/"/计划 -/[dat*"*九五*"*初*]/ +/[dat"*九五*"*初*]/ -/*仅*/*"*[dat*八五*]/*"*/*期间*/*就*/*达*/[mon*一百一十五亿元]/。 +/*仅*/*"*[dat*八五*]/*"*/*期间*/*就*/*达*/[mon一百一十五亿元]/。 -/[dat*下半年*]/*---以半年*为单位,与上半年*相区别。 +/[dat*下半年*]/---以*半年*为单位,与*上半年*相区别。 -/[dat*二十世纪*]/*---以一百年为单位,与别的世纪*相区别。 +/[dat*二十世纪*]/---以一百年为单位,与别的*世纪*相区别。 -/*为*/*庆祝*/[O*北京大学*]/*建*/*校*/[dat*100周年*]/*,*/ /[dat*民国八十六年*]/ +/*为*/*庆祝*/[O*北京大学*]/*建*/*校*/[dat*100周年*]/*,*/ + +/[dat*民国八十六年*]/ /[dat*民国六十年代*]/ -/[dat*八十八年下半年*]/*及*/[dat*八十九年*]/*中央*/*统筹*/*分配*/*款*/*,*/ /[dat*公元二千年*]/ +/[dat*八十八年下半年*]/*及*/[dat*八十九年*]/*中央*/*统筹*/*分配*/*款*/*,*/ + +/[dat*公元二千年*]/ /[dat*今年九月*]/ -/*"*/[O*迈特兴华*]/*"*/*杯*/[ord*首届*]/*全国*/*象棋*/*大师*/*赛*/*于*/[dat*今日*]/*收*/*秤 +/*"*/[O*迈特兴华*]/*"*/*杯*/[ord*首届*]/*全国*/*象棋*/*大师*/*赛*/*于*/[dat*今日*]/*收*/*秤* + +/[dat*1997年下半年*]/*,*/ -/[dat*1997年下半年*]/*,*/ /*可*/*于*/[dat*农历年*]/*前*/*迁居*/*。*/ /[tim*第七十三分钟*]/ +/*可*/*于*/[dat*农历年*]/*前*/*迁居*/*。*/ + +/[tim*第七十三分钟*]/ /[tim*中午*12*点*]/ -/[tim*格林威治时间*5*时*59*分*]/*----含有地名。 +/[tim*格林威治时间*5*时*59*分*]/----含有地名。 /[dat*第二天*]/[tim*一大早*]/*,*----*一大早*是词表词。 -/*在*/[dat*今年暑期*]/*大学生*/*送*/*科技*/*下乡*/*活动*/*中*/*, +/*在*/[dat*今年暑期*]/*大学生*/*送*/*科技*/*下乡*/*活动*/*中*/, /*大约*/[tim*七点*]/*到达*/*----大约*不标。 /[tim*晚上大约七点*]/*到达*/ -- 注:*大约*被两个**tim*包围,分割不开,所以整体标上。这条标注规则遵照了ER-99和MET-2的标准。 +- 注:*大约*被两个*tim*包围,分割不开,所以整体标上。这条标注规则遵照了ER-99和MET-2的标准。 - 注:事件戊戌变法、辛亥革命、甲午战争、五四运动等都是词表词,其中的日期不标注。但当戊戌、辛亥、五四单独出现时,应作为日期来标注。例如: -/*与*/*稍*/*后*/*的*/*辛亥革命*/*,*/*都*/*有*/*相通*/*的*/*地方*/*, +/*与*/*稍*/*后*/*的*/*辛亥革命*/*,*/*都*/*有*/*相通*/*的*/*地方*/, -/*在*/[L*香港*]/*回归*/[dat*周年*]/*前夕*/*和*/*"*/*七七事变*/*"*/*纪念日*/*,*/[dat*戊戌*]/*思潮*/*与*/*前此*/*的*/*洋务运动*/*, +/*在*/[L*香港*]/*回归*/[dat*周年*]/*前夕*/*和*/*"*/*七七事变*/*"*/*纪念日*/*,*/[dat*戊戌*]/*思潮*/*与*/*前此*/*的*/*洋务运动*/, #### 6.1.2时段(dur)的定义 -时段既可以长于一天,也可以短于一天。它不同于日期和时间,在一维的时间坐标 +时段既可以长于一天,也可以短于一天。它不同于日期和时间,在一维的时间坐标轴上没有确定的位置。例如: + +/[dur*三年*]/ -轴上没有确定的位置。例如:*/[dur*三年*]/ /[dur*半年*]/ +/[dur*半年*]/ /[dur*四分之一个世纪*]/ /[dur*廿四个月*]/ -/*时间*/*长*/*达*/[dur*六分钟*]/ /[dur*两个星期*]/ +/*时间*/*长*/*达*/[dur*六分钟*]/ + +/[dur*两个星期*]/ /[dur*一个月*]/*后*/ -/*曾*/*在*/[dur*5、6年*]/*前*/*撰文*/*陈述*/ /*早产*/[dur*十二周*]/*左右*/ +/*曾*/*在*/[dur*5、6年*]/*前*/*撰文*/*陈述*/ + +/*早产*/[dur*十二周*]/*左右*/ /*大水*/[dur*十天*]/*后*/*才*/*退*/*尽*/ /[dur*一至两年*]/ @@ -1466,7 +1632,7 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[dur*卅天*]/*会期*/*只*/*开*/*了*/[dur*九天*]/ -/*虽*/*经*/[dur*一整天*]/*磋商*/*,*----*一整天*不是词表词,但要标为**dur*。 +/*虽*/*经*/[dur*一整天*]/*磋商*/*,*----*一整天*不是词表词,但要标为*dur*。 与*/*洪水*/*奋战*/[dur*一天一夜*]/*,*----*一天一夜*也不是词表词。 @@ -1480,39 +1646,45 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[per*百分之二十五*]/ -/[per*百分之一点七*]/ ---*虽然是小数,但要标作per。 +/[per*百分之一点七*]/ ---虽然是小数,但要标作per。 /[per*六点五百分点*]/ /[per*五成*]/*以上*/ /[per*六折*]/ -/[fra*百万分之八*]/ +/[fra*百万分之八*]/ ----注意标的是*fra*而不是*per*。 -----注意标的是* *fra*而不是** per*。 - -/*大约/*[per*5%]/ ---*-约数*大约*不进入标注。 +/*大约/*[per5%]/ ----约数*大约*不进入标注。 6.2.2钱款(mon) -/[mon*四亿元台币*]/ /[mon*43.6*亿美元*]/ /[mon*卅万元*]/ +/[mon*四亿元台币*]/ + +/[mon*43.6亿美元*]/ -/[mon*四万五千块钱*]/ /[mon*四万五千元人民币*]/ +/[mon*卅万元*]/ + +/[mon*四万五千块钱*]/ + +/[mon*四万五千元人民币*]/ /*只*/*增加*/*了*/[mon*几元钱*]/*的*/*成本*/ -/*决不*/*乱*/*花*/*国家*/*的*/[mon*一分钱*]/*。 +/*决不*/*乱*/*花*/*国家*/*的*/[mon*一分钱*]/。 - 注:同一笔钱的不同货币形式需分开标注。货币中的地名不标。 -*[mon*26*万英镑*]/ (/[mon*43.6*亿美元*]/)*/ +[mon*26万英镑*]/ (/[mon*43.6亿美元*]/)/ + +- 注:*约*是一个不确切的概念,故不标注。但*上*、*数*、*好*要和数字串捆绑在一起标注。但*近*作为特例,不与数词捆绑!! -- 注:约*是一个不确切的概念,故不标注。但*上*、*数*、*好*要和数字串捆绑在一 +/*约*/[mon*十万元*]/ -起标注。但*近*作为特例,不与数词捆绑!!*/*约*/[mon*十万元*]/ +/*大概*/*需要*/*花费*/[mon*上千万美元*]/*的*/*投资*/*和*/[dur*3*年*]/*左右*/*时间*/*,*/ -/*大概*/*需要*/*花费*/[mon*上千万美元*]/*的*/*投资*/*和*/[dur*3*年*]/*左右*/*时间*/*,*/ /*多*/*收入*/[mon*好几十元*]/ +/*多*/*收入*/[mon*好几十元*]/ #### 6.2.3频度(fre) -/[fre*数度*]/ /[fre*两次*]/ /[fre*26*次*]/ /[fre*十多次*]/ /[fre*多次*]/ +/[fre*数度*]/ /[fre*两次*]/ /[fre*26次*]/ /[fre*十多次*]/ /[fre*多次*]/ - 注:动量词次除了一次不标注以外,其余的全部标注为*fre*。 @@ -1530,37 +1702,43 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*后*/[int*几名*]/ /[int*十*]/*多*/*人*/ /[int*四条*]/*断层*/ /[int*五十户*]/ /[int*百余名*]/ /[int*上万*]/*人潮*/ -/*"*/[int*双*]/[int*百*]/*"*/*方针*/*, +/*"*/[int*双*]/[int*百*]/*"*/*方针*/, - 注:"双百方针"是词表词,由于文中"双百"用引号括起,而且它们是两个数字,所以要分别按数字串标注。类似情况还有词表词"五四运动",这是个事件不标。但是如果文中日期"五四"被引号括起,就要单独标为:/"/[dat五四]/"/运动/。又如"六一儿童节、六一国际儿童节、六一节"都是词表词。由于"六一"和"儿童节"是同一个日期,即使在文中"六一"被引号括起,也可以整体标为dat,如:/[dat"六一"儿童节]/。 - 注:人次应标注为*mea*而不是*int*,例如: -/*近*/[dur*3年*]/*中*/*,*/*该*/*市*/*采取*/*多*/*形式*/*的*/*农技*/*培训*/*近*/[mea*万人次*]/*, +/*近*/[dur*3年*]/*中*/*,*/*该*/*市*/*采取*/*多*/*形式*/*的*/*农技*/*培训*/*近*/[mea*万人次*]/, -- 注:"数词*+*强"不一定表示序数,因此只单独标注数词为*int*。例如:*/*在*/*这次*/*从*/[int*十六*]/*强*/*到*/*冠*/*、*/*亚军*/*的*/*一次性*/*竞猜*/*中*/*,*/ +- 注:"*数词*+*强*"不一定表示序数,因此只单独标注数词为*int*。例如: + +*/*在*/*这次*/*从*/[int*十六*]/*强*/*到*/*冠*/*、*/*亚军*/*的*/*一次性*/*竞猜*/*中*/*,*/* /[O*宝钢*]/*为*/*跻身*/*世界*/[int*500*]/*强*/*而*/*采取*/*的*/*重要*/*步骤*/*。*/ #### 6.2.5分数(fra) -/[fra*数倍*]/ /[fra*一半*]/ /[fra*千百倍*]/ /[fra*3/4]/ +/[fra*数倍*]/ -/[fra*四分之三*]/ +/[fra*一半*]/ -/[fra*百万分之三百六十四*]/ *----*注意标记是** fra*而不是**per*。 +/[fra*千百倍*]/ -/[fra*半个*]/ /[fra*4*倍半*]/ +/[fra*3/4]/ -*----*倍数是分数的一种表示,应标*fra*。 +/[fra*四分之三*]/ + +/[fra*百万分之三百六十四*]/ *----*注意标记是*fra*而不是*per*。 -/[fra*4*倍半*]/ +/[fra*半个*]/ /[fra*4倍半*]/ *----*倍数是分数的一种表示,应标*fra*。 -/[fra*4.5*倍*]/ ----*虽然* *4.5*是个小数,但不标** dec*。 +/[fra*4倍半*]/ + +/[fra*4.5倍*]/ ----*虽然* *4.5*是个小数,但不标*dec*。 /*有效*/*载*/*力*/*提高*/[fra*2至3倍*]/ -注:"过半数"是词表词,因此不作为分数fra标注。例如:*/*都*/*难以*/*获得*/*过半数*/*的*/[int*207张*]/*选票*/*,*/ +注:"过半数"是词表词,因此不作为分数fra标注。例如:*/*都*/*难以*/*获得*/*过半数*/*的*/[int*207张*]/*选票*/*,*/* #### 6.2.6小数(dec) @@ -1568,37 +1746,53 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[dec*三点一四*]/ -/*看*/*了*/*那么*/*长*/*时间*/*的*/*电视*/*,*/*视力*/*依旧*/[dec*1*.*5]/ +/*看*/*了*/*那么*/*长*/*时间*/*的*/*电视*/*,*/*视力*/*依旧*/[dec*1*.*5*]/ -/*我*/*有着*/*足以*/*令*/*我*/*自豪*/*的*/[dec*1*.*2]/*视力*/ +/*我*/*有着*/*足以*/*令*/*我*/*自豪*/*的*/[dec*1*.*2*]/*视力*/ -----视力的多少是一个量级,没有单位,故按数量标注整数或小数。*/*并*/*以*/[dec*6139.69*点*]/*收盘*/ +----视力的多少是一个量级,没有单位,故按数量标注整数或小数。/*并*/*以*/[dec*6139.69点*]/*收盘*/ -/*以*/ [dec*33.8]/*收盘*/ /*比重*/*:*/[dec*1.02]/ +/*以*/ [dec*33.8*]/*收盘*/ /*比重*/*:*/[dec*1.02*]/ #### 6.2.7序数(ord) -/[ord*第一任*]/ /[ord*第一期*]/ /[ord*十六楼*]/ +/[ord*第一任*]/ + +/[ord*第一期*]/ -/[ord*第三次*]/*世界大战*/ /[ord*首*]/*日*/*销售*/*欠佳*/ /[ord*第二*]/*故乡*/ +/[ord*十六楼*]/ -/[ord*三等*]/*奖*/ /[ord*前*6*名*]/ +/[ord*第三次*]/*世界大战*/ -/*地震烈度*/*不*/*超过*/[ord*8*度*]/ /*这*/[ord*第二条*]/*尤为*/*重要*/ /*位居*/*金牌*/*榜*/[ord*第二名*]/ +/[ord*首*]/*日*/*销售*/*欠佳*/ -/[O*北京市*]/[ord*首家*]/*就业*/*与*/*创业*/*组合*/*市场*/ /[ord*1174*号*]/*文件*/ +/[ord*第二*]/*故乡*/ + +/[ord*三等*]/*奖*/ + +/[ord*前*6*名*]/ + +/*地震烈度*/*不*/*超过*/[ord*8度*]/ + +/*这*/[ord*第二条*]/*尤为*/*重要*/ + +/*位居*/*金牌*/*榜*/[ord*第二名*]/ + +/[O*北京市*]/[ord*首家*]/*就业*/*与*/*创业*/*组合*/*市场*/ + +/[ord*1174号*]/*文件*/ /[ord*6*路*]/*汽车*/ /[ord*六年级*]/*学生*/ /[dat*今年*]/*读*/[ord*大三*]/ -/*发展*/*第一产业*/*----第一产业*是词表词。 +/*发展*/*第一产业*/* ----第一产业*是词表词。 -/*发展*/[ord*第一*]*产业*/ ----*错误的标注。 +/*发展*/[ord*第一*]*产业*/ ----错误的标注。 -/*阵风*/[ord*五级*]* +/*阵风*/[ord*五级*] -/[ord*一、二、三等*]/*奖*/*。 +/[ord*一、二、三等*]/*奖*/。 /*他*/*亲手*/*接*/*治*/[L*墨西哥*]/[ord*首例*]/*艾滋病*/*患*/*儿*/ @@ -1610,7 +1804,7 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*上*/*一*/*届*/*世界杯*/*赛*/*就*/*以*/[rat*1∶0*]/*胜过*/*。*/ -/*最终*/*以*/[rat*三比三*]/*握手言和*/*。*/ /*用*/*原液*/*与*/*水*/*稀释*/[rat*1*∶*20*倍*]/*。/ +/*最终*/*以*/[rat*三比三*]/*握手言和*/*。*/ /*用*/*原液*/*与*/*水*/*稀释*/[rat*1*∶*20*倍*]/*。*/ 数字表达式的标注细则详见第八章。 @@ -1620,49 +1814,67 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* #### 6.3.1年龄(age) -/[age*卅五岁*]/ /[age*廿一岁*]/ /[age*六十五岁*]/ /[age*34*岁*]/ /[age*六十寿辰*]/ +/[age*卅五岁*]/ + +/[age*廿一岁*]/ + +/[age*六十五岁*]/ + +/[age*34岁*]/ + +/[age*六十寿辰*]/ /[age*花甲*]/*老人*/ ----*花甲*是词表词。 /*如同*/[age*年过半百*]/*的*/*老*/*妇*/*。*/ ----*年过半百*是词表词。 -/[P*李元*]/*、*/[P*卞德培*]/[int*两位*]/*先生*/*都*/*已*/[age*年逾古稀*]/*。 +/[P*李元*]/*、*/[P*卞德培*]/[int*两位*]/*先生*/*都*/*已*/[age*年逾古稀*]/。 #### 6.3.2温度(tem) -/*寒流*/*耍*/*酷*/*平地*/[tem*6*℃*]/ /*才*/*会*/*微*/*升*/[tem*6.1*℃*]/ +/*寒流*/*耍*/*酷*/*平地*/[tem*6℃*]/ + +/*才*/*会*/*微*/*升*/[tem*6.1℃*]/ -/*但*/*平地*/*温度*/*还*/*会*/*下*/*探*/[tem*5*℃*]/*左右*/ +/*但*/*平地*/*温度*/*还*/*会*/*下*/*探*/[tem*5℃*]/*左右*/ -/*积温*/*高*/*(*/[tem*2800*度*]/*)*/*----注意! +/*积温*/*高*/*(*/[tem*2800度*]/*)*/----注意! /[tem*零下*5*到*6*摄氏度*]/ - 注:数字范围的标注方式详见7.1.1。 -/*大约*/[tem*5~7*℃*]/ +/*大约*/[tem*5~7℃*]/ -/*低温*/*反而*/*只*/*有*/[tem*10*℃*]/~/[tem*12*℃*]/ /[tem*摄氏*19*-*24*度*]/ +/*低温*/*反而*/*只*/*有*/[tem*10℃*]/~/[tem*12℃*]/ -/[tem*摄氏*19*度*]/ -/[tem*24*度*]/ +/[tem*摄氏19*-*24度*]/ + +/[tem*摄氏*19*度*]/ -/[tem*24度*]/ #### 6.3.3角度(ang) -/*钝角*/*就*/*是*/*大于*/ [ang*90*度*]/*的*/*角*/ +/*钝角*/*就*/*是*/*大于*/ [ang*90度*]/*的*/*角*/ /*并*/*将*/*卫星*/*定点*/*在*/[agn*东经*110.5*度*]/[L*赤道*]/*上空*/*。*/ -/*震*/*中*/*位于*/[ang*北纬*30.5*度*]/*,*/ ---*-详见4.2.4.2 +/*震*/*中*/*位于*/[ang*北纬*30.5*度*]/*,*/ ----详见4.2.4.2 #### 6.3.4长度(len) -/*开掘*/*到*/ [len*一米六七*]/*深度*/*时*/ /*高*/ [len*五米*]/*宽*/ [len*一百米*]/ /[len*109×78*厘米*]/ +/*开掘*/*到*/ [len*一米六七*]/*深度*/*时*/ + +/*高*/ [len*五米*]/*宽*/ [len*一百米*]/ /[len*109×78厘米*]/ -/[len*1*纳米*]/=/[len*十的负九次方米*]/ +/[len*1纳米*]/=/[len*十的负九次方米*]/ -/*应用*/*于*/*紧*/*固*/*件*/*直径*/*为*/[len*1*/*4*″*]/*(*/[len*6m]/*)*/ */*最高*/*速度*/*每*/*秒*/ [len*360*米*]/ +/*应用*/*于*/*紧*/*固*/*件*/*直径*/*为*/[len*1*/*4″*]/*(*/[len6m]/*)*/ -/*发生*/*每*/*秒*/*速度*/*达*/[len*四十二米*]/*的*/*大风*/*。*/ /[L*三峡*]/*截流*/*落差*/*在*/[len*0.7-0.8*米*]/*之间*/*,*/ +/*最高*/*速度*/*每*/*秒*/ [len*360米*]/ + +/*发生*/*每*/*秒*/*速度*/*达*/[len*四十二米*]/*的*/*大风*/*。*/ + +/[L*三峡*]/*截流*/*落差*/*在*/[len*0.7-0.8米*]/*之间*/*,*/ #### 6.3.5面积(are) @@ -1672,15 +1884,21 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*兴建*/[are*五千坪*]/*大*/*的*/*厂房*/ /[are*七百余坪*]/ -/*每*/*套*/*住宅*/*面积*/[are*140*-*160m2]/*,*/ /[are*997*万平方公里*]/ +/*每*/*套*/*住宅*/*面积*/[are*140*-*160m2*]/*,*/ -/*农田*/ [are*20*万亩*]/ +/[are*997万平方公里*]/ + +/*农田*/ [are*20万亩*]/ #### 6.3.6容积(cap) -/*运输量*/*为*/ [cap*34*个立方*]/ /[cap*一两箩*]/*谷子*/ +/*运输量*/*为*/ [cap*34个立方*]/ + +/[cap*一两箩*]/*谷子*/ -/*选定*/*的*/*设计*/*流量*/*是*/*每*/*秒*/[cap*1.4*万至*1.9*万立方米*]/*。*/ /*工程*/*已*/*完成*/*土方*/[cap*2300多万方*]/*,*/ +/*选定*/*的*/*设计*/*流量*/*是*/*每*/*秒*/[cap*1.4*万至*1.9万立方米*]/*。*/ + +/*工程*/*已*/*完成*/*土方*/[cap*2300多万方*]/*,*/ /*全国*/*消费*/*了*/[cap*25万升*]/*啤酒*/*。*/ @@ -1688,43 +1906,49 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[wei*九百至一千吨*]/ -/[wei*零点三公克*/]*/[wei*三千二百英吨*]/ +/[wei*零点三公克*/] + +/[wei*三千二百英吨*]/ /*重*/*约*/[wei*五、六公斤*]/*的*/*鲤鱼*/ -/[wei*十台斤*]/ /[wei*三点五公吨*]/ +/[wei*十台斤*]/ + +/[wei*三点五公吨*]/ /*产量*/*达到*/ [wei*数千万吨*]/ /[wei*几万吨*]/ /[wei*二十万吨*]/*级*/*以上*/ -- 注:ER-99把上例标为:*[wei*二十万吨级*]/*以上。 +- 注:ER-99把上例标为:[wei*二十万吨级*]/以上。 #### 6.3.8速度(spe) -/*最高*/*速度*/ [spe*360*米每秒*]/ +/*最高*/*速度*/ [spe*360米每秒*]/ -/*打印*/*速度*/*:*/[spe*12cps]/ +/*打印*/*速度*/*:*/[spe12cps]/ -*----*"cps"*表示"characterspersecond(每秒字符数)"。 +----"*cps*"表示"characterspersecond(每秒字符数)"。 #### 6.3.9加速度(acc) -/*抗震*/*能力*/*:*/*地面*/*水平*/*加速度*/*≤*/[acc*0.4m*/*s2]/ /*地面*/*垂直*/*加速度*/*≤*/[acc*0.2m*/*s2]/ +/*抗震*/*能力*/*:*/*地面*/*水平*/*加速度*/*≤*/[acc*0.4m*/*s2*]/ /*地面*/*垂直*/*加速度*/*≤*/[acc*0.2m*/*s2*]/ #### 6.3.10其它度量表达式(mea) -除了上面提到的度量单位元之外,物理、化学及其它度量单位的统一标注为*mea*。*/*额定*/*电压*/*至*/[mea*660V]/ +除了上面提到的度量单位元之外,物理、化学及其它度量单位的统一标注为*mea*。/*额定*/*电压*/*至*/[mea*660V]/ -/[mea*5.5*瓦特*]/ +/[mea*5.5瓦特*]/ -/*参观*/*人数*/*达*/[mea*620*万人次*]/ /*工资*/[mea*3500*元*/*人*/*月*]/ +/*参观*/*人数*/*达*/[mea*620万人次*]/ /*工资*/[mea*3500元*/*人*/*月*]/ -/[mea*25*元*/*公斤*]/ +/[mea*25元*/*公斤*]/ -/*风*/*压*/*不*/*超过*/[mea*700Pa]/*(*/*相当于*/*风速*/[spe*34m*/*s]/*)*/*。 +/*风*/*压*/*不*/*超过*/[mea*700Pa*]/*(*/*相当于*/*风速*/[spe*34m*/*s*]/*)*/*。* -/*迁移*/*到*/[mea*千兆比特*]/*的*/*能力*/*能够*/*降低*/*拥有*/*总*/*成本*/*的*/*管理*/*方案*/ /*这些*/*快速*/*以太*/*网*/*和*/[mea*千兆位*]/*以太*/*网*/*服务器*/ +/*迁移*/*到*/[mea*千兆比特*]/*的*/*能力*/*能够*/*降低*/*拥有*/*总*/*成本*/*的*/*管理*/*方案*/ + +/*这些*/*快速*/*以太*/*网*/*和*/[mea*千兆位*]/*以太*/*网*/*服务器*/ #### 6.4地址表达式 @@ -1734,43 +1958,53 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[ema *exp@email.com.cn*]/ -/[ema*cnhuang@msrchina.research.microsoft.com]/ +/[ema*cnhuang@msrchina.research.microsoft.com*]/ #### 6.4.2电话(pho) -在标注电话号码时,要把国际区号、国内区号、本地区号等作为一个整体标注。如果有 +在标注电话号码时,要把国际区号、国内区号、本地区号等作为一个整体标注。如果有分机号码也要一并标注。当有多个分机号码时,要分别标注。如: + +*预约*/*订*/*位*/*电话*/[pho*九五一八六二八*]/ -分机号码也要一并标注。当有多个分机号码时,要分别标注。如: +/*洽*/*询*/*电话*/[pho*二四九三一零二零*]/ -预约*/*订*/*位*/*电话*/[pho*九五一八六二八*]/ /*洽*/*询*/*电话*/[pho*二四九三一零二零*]/ /*订*/*席*/*专线*/[pho*(*8610*)*-78906617]/ +/*订*/*席*/*专线*/[pho(*8610*)-78906617]/ /*查询*/*电话*/*是*/(/[pho*零三八六二一一零零转二五二*]/)/ -/*查询*/*电话*/[pho*三六九九七二一转二三三一*]/*或*/[pho*二三三二*]/ /[pho*120]/ +/*查询*/*电话*/[pho*三六九九七二一转二三三一*]/*或*/[pho*二三三二*]/ -/[pho*119]/ +/[pho*120*]/ + +/[pho*119*]/ #### 6.4.3传真(fax) -/*全国*/*客户*/*服务*/*传真*/*:*/[fax*010-58722727]/ /*传真*/*号码*/:/[fax*86-10-66665555]/ +/*全国*/*客户*/*服务*/*传真*/*:*/[fax*010-58722727*]/ + +/*传真*/*号码*/:/[fax*86-10-66665555*]/ -/*公司*/*传真*/*:*/[fax*86-10-66665555]/ +/*公司*/*传真*/*:*/[fax*86-10-66665555*]/ #### 6.4.4电报挂号(tel) -/[O*搜狐公司*]/*电报挂号*/*是*/*:*/[tel*(8610)*62726666]/ /*电报挂号*/*:*/[tel*86-10-66665555]/ +/[O*搜狐公司*]/*电报挂号*/*是*/*:*/[tel(8610)*62726666*]/ -/*联系*/*电话*/*:*/[tel*86-10-66665555]/ +/*电报挂号*/*:*/[tel*86-10-66665555*]/ + +/*联系*/*电话*/*:*/[tel*86-10-66665555*]/ #### 6.4.5邮政编码(pos) -/[O*清华大学*]/*的*/*邮政编码*/*是*/*:*/ [pos*100080]/ +/[O*清华大学*]/*的*/*邮政编码*/*是*/*:*/ [pos*100080*]/ -/[L*安徽*]/[L*阜阳*]*/*地区*/*的*/*邮政编码*/*是*/*:*/[pos*233600]/ +/[L*安徽*]/[L*阜阳*]*/*地区*/*的*/*邮政编码*/*是*/*:/[pos*233600*]/ #### 6.4.6网址(www) -/*活动*/*报名*/*网址*/*:*/[www*http:www.acer.net/event/apply]/ /[O*蕃薯藤*]/*购物*/*网*/*(*/[www*http:shopping.yam.com]/*)*/ +/*活动*/*报名*/*网址*/*:*/[www http:www.acer.net/event/apply]/ + +/[O*蕃薯藤*]/*购物*/*网*/*(*/[www http:shopping.yam.com]/*)*/ ## 第七章 时间表达式标注细则 @@ -1778,49 +2012,71 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* ### 7.1日期(dat) -/[dat*明治三十九年*]/*(*/[dat*公元一九零六年*]/*)*/ /[dat*大正十四年*]/*(*/[dat*公元一九二五年*]/*)*/ /[dat*昭和二年*]/*(*/[dat*公元一九二七年*]/*)*/ +/[dat*明治三十九年*]/*(*/[dat*公元一九零六年*]/*)*/ -/[dat*清*]/[dat*道光十四年*]/ /[dat*清*]/[dat*咸丰十一年*]/ +/[dat*大正十四年*]/*(*/[dat*公元一九二五年*]/*)*/ -/[dat*民国六十八年*]/*拆除*/*后*/*迁到*/[L*芦洲*]/*,*/[dat*八十一年*]/*间*/*又*/*扩建*/ /[dat*一九九九*]/ +/[dat*昭和二年*]/*(*/[dat*公元一九二七年*]/*)*/ -/[dat*一九九九年十二月三十号*]/ /[dat*公元*1990*年*4*月*22*日*]/ /[dat*旧石器时代*]/ +/[dat*清*]/[dat*道光十四年*]/ + +/[dat*清*]/[dat*咸丰十一年*]/ + +/[dat*民国六十八年*]/*拆除*/*后*/*迁到*/[L*芦洲*]/*,*/[dat*八十一年*]/*间*/*又*/*扩建*/ + +/[dat*一九九九*]/ + +/[dat*一九九九年十二月三十号*]/ + +/[dat*公元*1990*年*4*月*22*日*]/ + +/[dat*旧石器时代*]/ /[dat*八十年代*]/ /[dat*下半年*]/ -/[dat*1989*财年*]/ ----*注意! +/[dat*1989财年*]/ ----注意! + +/[dat*1989*财年第三季度*]/ + +/[dat*1990*上半财年*]/ + +/[dat*1991*财政年度*]/ -/[dat*1989*财年第三季度*]/ /[dat*1990*上半财年*]/ +/[dat*秋季*]/*报告*/ -/[dat*1991*财政年度*]/ /[dat*秋季*]/*报告*/ /[dat*第四季度*]/ +/[dat*第四季度*]/ /[dat*十五世纪*]/ -/*努力*/*成为*/*一*/*名*/*高*/*素质*/*的*/[dat*跨世纪*]/*人才*/*。*/ /*值*/*此*/[dat*世纪之交*]/*的*/*时候*/*, +/*努力*/*成为*/*一*/*名*/*高*/*素质*/*的*/[dat*跨世纪*]/*人才*/*。*/ -/*走*/*向*/[dat*新世纪*]/*的*/[L*中国*]/*律师*/*业*/ /[dat*新旧世纪交替*]/*之际*/ +/*值*/*此*/[dat*世纪之交*]/*的*/*时候*/*,* -/*黑色*/[dat*星期一*]*----*注意! +/*走*/*向*/[dat*新世纪*]/*的*/[L*中国*]/*律师*/*业*/ -/[*L北京]*/*在*/[dat*23*号*]/*发表*/*了*/*报告*/ +/[dat*新旧世纪交替*]/*之际*/ -- 注:数字串*23*号*若不表示日期,则不标。 +/*黑色*/[dat*星期一*]----注意! -/[dat*五月上旬*]/ +/[*L北京]*/*在*/[dat*23号*]/*发表*/*了*/*报告*/ -*----*上、中、下旬*要标注。 +- 注:数字串*23号*若不表示日期,则不标。 -/*科技*/*之*/[dat*夏*]/*----注意! +/[dat*五月上旬*]/ ----*上、中、下旬*要标注。 -/[dat*夏*]/[dat*秋*]/*之间*/ /[dur*一年*]/*中*/*四季*/*分明*/ +/*科技*/*之*/[dat*夏*]/ ----注意! -*----*四季*是词表词不标注。 +/[dat*夏*]/[dat*秋*]/*之间*/ -/[L*南极*]/*的*/[dat*夏季*]/ /[L*中国*]/[dat*汉代*]/ /[dat*春节*]/ +/[dur*一年*]/*中*/*四季*/*分明*/ ----*四季*是词表词不标注。 -----日期确定的节日要标注。 +/[L*南极*]/*的*/[dat*夏季*]/ + +/[L*中国*]/[dat*汉代*]/ + +/[dat*春节*]/ ----日期确定的节日要标注。 /[dat*肉孜节*]/ @@ -1830,13 +2086,13 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* ----注意*时节*不标。 -/[L*美国*]/*的*/[dat*独立日*]/*----美国独立日为每年7月4日。 +/[L*美国*]/*的*/[dat*独立日*]/----美国独立日为每年7月4日。 -/[dat*27*年*]/*是*/*一个*/*多*/*事*/*的*/*年份*/ +/[dat*27年*]/*是*/*一个*/*多*/*事*/*的*/*年份*/ - 注:*27*年*可能表示时段,标注者须根据上下文注意区分。 -/*现在*/*是*/[dat*26*号*]/*,*/[dat*星期三*]/ +/*现在*/*是*/[dat*26号*]/*,*/[dat*星期三*]/ ----同一个时间的不同表达,要分开标注。 @@ -1844,49 +2100,77 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*大约*/[dat*五月四日*]/*----大约,大致,大概*等词不标。 -/[dat*第二个十年*]/ /[dat*第二年3月*]/ /[dat*当年*9*月*]/ /[dat*今春*]/ +/[dat*第二个十年*]/ /[dat*第二年3月*]/ + +/[dat*当年*9*月*]/ -*----*今春*不是词表词。 +/[dat*今春*]/ ----*今春*不是词表词。 #### 7.1.1日期起讫表达式的标注 当日期表达式中有至、到和连结符-时,处在至、到和连结符-前后的日期表达式分别叫做前式和后式。如果前式和后式都是完整的日期表达式,则它们应分别进行*da*t标注;否则前、后式要整体标注为*dat*。 -这条规则同样适合于其它各类数字串的标注,如:*tim*,*dur*,*int*,*tem*,*wei*,*mo*n*等。其一般表达式为: +这条规则同样适合于其它各类数字串的标注,如:*tim*,*dur*,*int*,*tem*,*wei*,*mon*等。其一般表达式为: /X+量词/到/X+量词/ -/X+量词/至/X+量词//X+量词/-/X+量词//X+至+X+量词/ +/X+量词/至/X+量词/ + +/X+量词/-/X+量词/ + +/X+至+X+量词/ -/X+到+X+量词//X+-+X+量词//X+、+X+量词/ +/X+到+X+量词/ + +/X+-+X+量词/ + +/X+、+X+量词/ 例如: -/[dat*三月三日*]/*至*/[dat*三月卅一日*]/ /[dat*一月十八日*]/*到*/[dat*廿一日*]/ /[dat*三月三至廿一日*]/ +/[dat*三月三日*]/*至*/[dat*三月卅一日*]/ + +/[dat*一月十八日*]/*到*/[dat*廿一日*]/ + +/[dat*三月三至廿一日*]/ -/[dat*二月十八日*]/-/[dat*廿一日*]/ /*于*/[dat*今明两年*]/*陆续*/*推出*/*。*/ /[dat*民国五十五、五十六年*]/ /[dat*今明两天*]/ +/[dat*二月十八日*]/-/[dat*廿一日*]/ + +/*于*/[dat*今明两年*]/*陆续*/*推出*/*。*/ + +/[dat*民国五十五、五十六年*]/ + +/[dat*今明两天*]/ /[dat*今*]/*、*/[dat*明*]/[dur*两日*]/ -/[dat*1980*年*]*到*[dat*1990*年*1*月*]/ +/[dat*1980年*]*到*[dat*1990*年*1月*]/ -- 注:含有比喻意义的今天、昨天、明天、今日、昨日、明日全不标注。*/*"*/*一失足成千古恨*/*,*/*同学*/*们*/*,*/*看到*/*今天*/*的*/*我*/*,*/*你们*/*是否*/*感悟*/*到*/ +- 注:含有比喻意义的今天、昨天、明天、今日、昨日、明日全不标注。 -了*/*什么*/*?*/*"*/ +*/*"*/*一失足成千古恨*/*,*/*同学*/*们*/*,*/*看到*/*今天*/*的*/*我*/*,*/*你们*/*是否*/*感悟*/*到*/了*/*什么*/*?*/*"*/ /*尽管*/*炮火*/*已*/*消失*/*在*/*昨天*/*那*/*段*/*苦难*/*,*/ -/[O*"四方"集团*]/*的*/*明天*/*将*/*会*/*更加*/*灿烂*/*美好*/*。*/ +/[O"四方"集团*]/*的*/*明天*/*将*/*会*/*更加*/*灿烂*/*美好*/*。*/ - 注:当年、同年、当月等词语后有具体的日期时,要整体标注dat,如果当年、当月、同年等词语单独出现,而其前后有确指的日期时也要标注为dat,否则不作标注!当日、当天等词后有具体的时间时标注为dat,否则不作标注!如: -/[dat*当年7月*]/*在*/[L*莫斯科*]/*举行*/ /*然后*/*于*/[dat*同年8月*]/*奉调*/*回国*/*。*/ +/[dat*当年7月*]/*在*/[L*莫斯科*]/*举行*/ + +/*然后*/*于*/[dat*同年8月*]/*奉调*/*回国*/*。*/ + +/[P*克林顿*]/*在*/[dat*当月13日*]/*表示*/*,*/ -/[P*克林顿*]/*在*/[dat*当月13日*]/*表示*/*,*/ /*那*/*是*/[dat*当天*]/[tim*中午1时*]/*的*/*汇率*/ /*发言人*/*于*/[dat*当日*]/[tim*午夜*]/*发表*/*声明*/ +/*那*/*是*/[dat*当天*]/[tim*中午1时*]/*的*/*汇率*/ + +/*发言人*/*于*/[dat*当日*]/[tim*午夜*]/*发表*/*声明*/ #### 7.1.2前、头、下+时段(dur)应整体标注为dat -/[dat*头两个礼拜*]/ /[dat*前3天*]/ +/[dat*头两个礼拜*]/ + +/[dat*前3天*]/ /[dat*今年头四个月*]/ @@ -1896,7 +2180,7 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[dur*两周*]/*前*/ -/[dat*1993*年之初*]/ ----*注意! +/[dat*1993年之初*]/ ----注意! /[dat*公元之初*]/ @@ -1904,31 +2188,27 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* 当乾隆、康熙、道光*等表示年代时标注为*dat*,而当*乾隆、康熙、道光*等表示皇帝本人的名字时标为P。如: -/*最近*/*发现*/*一*/*张*/*在*/*农家*/*珍藏*/*的*/[dat*清代*]/[P*康熙*]/*、*/[P*雍正*]/*、*/[P*乾 - -隆*]/*、*/[P*嘉庆*]/*、*/[P*道光*]/[int*五*]/*皇帝*/*诰封*/*圣旨*/[int*九道*]/*,*/ /*收藏*/*了*/*自*/[dat*清代*]/[dat*乾隆*]/*年间*/*至今*/*各个*/*历史*/*时期*/*的*/*鼻烟壶*/*艺 - -术*/*珍品*/*,*/ +/*最近*/*发现*/*一*/*张*/*在*/*农家*/*珍藏*/*的*/[dat*清代*]/[P*康熙*]/*、*/[P*雍正*]/*、*/[P*乾隆*]/*、*/[P*嘉庆*]/*、*/[P*道光*]/[int*五*]/*皇帝*/*诰封*/*圣旨*/[int*九道*]/*,*/ /*收藏*/*了*/*自*/[dat*清代*]/[dat*乾隆*]/*年间*/*至今*/*各个*/*历史*/*时期*/*的*/*鼻烟壶*/*艺术*/*珍品*/*,*/ #### 7.1.4朝代名的默认值为dat -当朝代名被上下文确认为国家名时标注*L*,否则默认为**dat*。如: +当朝代名被上下文确认为国家名时标注*L*,否则默认为*dat*。如: -/*如果*/[P*刘伯温*]/*不是*/*一直*/*压抑*/*着*/*对*/[dat*元*]/*王朝*/*的*/*不满*/*,*/ /[dat*楚*]/*霸王*/[P*项羽*]/*带领*/[int*两万*]/*兵*/*将*/*,*/ +/*如果*/[P*刘伯温*]/*不是*/*一直*/*压抑*/*着*/*对*/[dat*元*]/*王朝*/*的*/*不满*/*,*/ -/*只*/*带*/[dur*三天*]/*粮食*/*,*/*渡过*/[L*漳河*]/*去*/*与*/*强大*/*的*/[dat*秦*]/*兵*/*作战*/*。*/*结果*/*,*/[dat*楚*]/*军*/*大败*/[dat*秦*]/*军*/*。*/ +/[dat*楚*]/*霸王*/[P*项羽*]/*带领*/[int*两万*]/*兵*/*将*/*,*/ -/[dat*吴*]/*王*/[*P*夫差*]/*战胜*/*了*/[dat*越*]/*王*/[P*勾践*]/*, +/*只*/*带*/[dur*三天*]/*粮食*/*,*/*渡过*/[L*漳河*]/*去*/*与*/*强大*/*的*/[dat*秦*]/*兵*/*作战*/*。*/*结果*/*,*/[dat*楚*]/*军*/*大败*/[dat*秦*]/*军*/*。*/ -/[dat*战国*]/*时*/[L*赵国*]/*良*/*相*/[P*蔺相如*]/*曾*/*为*/[L*赵国*]/*立*/*下*/*汗马功劳*/*; +/[dat*吴*]/*王*/[*P*夫差]/*战胜*/*了*/[dat*越*]/*王*/[P*勾践*]/, -*[P*唐睢*]/*出使*/[L*秦国*]/*,*/ +/[dat*战国*]/*时*/[L*赵国*]/*良*/*相*/[P*蔺相如*]/*曾*/*为*/[L*赵国*]/*立*/*下*/*汗马功劳*/; -《*/[L*水浒*]/*全传*/*》*/*描述*/*的*/*是*/[dat*北宋末年*]/*震撼*/[dat*宋*]/*室*/*江山*/*的*/[P* +*[P*唐睢*]/*出使*/[L*秦国*]/*,*/* -宋江*]*起义*/*。*/ +《*/[L*水浒*]/*全传*/*》*/*描述*/*的*/*是*/[dat*北宋末年*]/*震撼*/[dat*宋*]/*室*/*江山*/*的*/[P*宋江*]*起义*/*。*/* -/*从*/*侧面*/*表现*/*了*/[dat*清*]/*政府*/*的*/*腐败*/*无能*/*,*/*激起*/*了*/*深*/*埋*/*在*/*人们*/*心底 +/*从*/*侧面*/*表现*/*了*/[dat*清*]/*政府*/*的*/*腐败*/*无能*/*,*/*激起*/*了*/*深*/*埋*/*在*/*人们*/*心底* /*对*/*侵略者*/*的*/*敌视*/*和*/*对*/[dat*清*]/*政府*/*的*/*愤怒*/*,*/ @@ -1936,17 +2216,21 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* #### 7.1.5在"过去、今后、未来+时段(dur)"等修饰成分不进入标注范围 -/*过去*/[dur*3年*]/*中*/*, +/*过去*/[dur*3年*]/*中*/*,* /*将*/*在*/*未来*/[dur*几年*]/*内*/*出现*/ -/*未来*/[dur*两天*]/*沿江*/*地区*/*仍*/*有*/*中*/*到*/*大雨*/*,*/ /[dat*今年七八月*]/*间*/ +/*未来*/[dur*两天*]/*沿江*/*地区*/*仍*/*有*/*中*/*到*/*大雨*/*,*/ + +/[dat*今年七八月*]/*间*/ #### 7.1.6词表词近年来、近些年、近几年来、近几年、几年来等均不标注 -按规定,词表词近年来、近几年、近几年、几年来、多年来、近些年*等内部的*dat*、*tim*、*dur*都是不标的。但对非词表词则要分开标注。例如: +按规定,词表词*近年来、近几年、近几年、几年来、多年来、近些年*等内部的*dat*、*tim*、*dur*都是不标的。但对非词表词则要分开标注。例如: -/[L*瑞士*]/*多年来*/*是*/[ord*第一次*]/*。/近几年/,/[L中]/[L菲]/关系/ +/[L*瑞士*]/*多年来*/*是*/[ord*第一次*]/*。* + +/近几年/,/[L中]/[L菲]/关系/ /*近*/[dur*五年*]/*来*/ @@ -1956,79 +2240,95 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[tim*凌晨零时*]/ -/[tim*清晨六时卅五分*]/*到*/[tim*四十分*]/ /[tim*凌晨二至四点*]/ +/[tim*清晨六时卅五分*]/*到*/[tim*四十分*]/ + +/[tim*凌晨二至四点*]/ -/[tim*中午十二时*]/-/[tim*晚上九时*]/ /[tim*上午十一时*]/*至*/[tim*下午二时*]/ /[tim*第七十三分钟*]/ +/[tim*中午十二时*]/-/[tim*晚上九时*]/ -/[tim*格林威治时间*5*时*59*分*]/ +/[tim*上午十一时*]/*至*/[tim*下午二时*]/ -----含有地名。 +/[tim*第七十三分钟*]/ -/[tim*下午当地时间*5*时*59*分*]/ /[tim*九点整*]/*到达*/[L*北京站*]/ +/[tim*格林威治时间*5*时*59*分*]/ ----含有地名。 + +/[tim*下午当地时间*5*时*59*分*]/ + +/[tim*九点整*]/*到达*/[L*北京站*]/ /[dat*九月十三日*]/*大约*/[tim*七点*]/*到达*/[L*北京*]/ -- 注:这里*大约*不标。因为它虽被一个**dat*和一个*tim*包围,但是仍可以分割开。 +- 注:这里*大约*不标。因为它虽被一个*dat*和一个*tim*包围,但是仍可以分割开。 ### 7.3时段 -/[dur*两个星期*]/ /[dur*一个月*]/*后*/ +/[dur*两个星期*]/ + +/[dur*一个月*]/*后*/ + +/*曾*/*在*/[dur*5、6年*]/*前*/*撰文*/*陈述*/ -/*曾*/*在*/[dur*5、6年*]/*前*/*撰文*/*陈述*/ /*早产*/[dur*十二周*]/*左右*/ +/*早产*/[dur*十二周*]/*左右*/ /*大水*/[dur*十天*]/*后*/*才*/*退*/*尽*/ -/[dur*一至两年*]/ /[dur*一小时卅分钟*]/ /*这*/[dur*几天*]/ +/[dur*一至两年*]/ /[dur*一小时卅分钟*]/ + +/*这*/[dur*几天*]/ + +/[dur*卅天*]/*会期*/*只*/*开*/*了*/[dur*九天*]/ + +/[dur*10个月*]/ -/[dur*卅天*]/*会期*/*只*/*开*/*了*/[dur*九天*]/ /[dur*10*个月*]/ +/*虽*/*经*/[dur*一整天*]/*磋商*/ ----*一整天*不是词表词,但要标为*dur*。 -/*虽*/*经*/[dur*一整天*]/*磋商*/ *----*一整天*不是词表词,但要标为** dur*。 +/*与*/*洪水*/*奋战*/[dur*一天一夜*]/*,*/ ----*一天一夜*也不是词表词。 -/*与*/*洪水*/*奋战*/[dur*一天一夜*]/*,*/ ----*一天一夜*也不是词表词。*/*历经*/[dur*一二十年*]/*创建*/*了*/*庞大*/*的*/*船队*/*,*/ +*/*历经*/[dur*一二十年*]/*创建*/*了*/*庞大*/*的*/*船队*/*,*/* /*让*/*我们*/*全家*/*人*/*感动*/*了*/[dur*好几天*]/ /*在*/*水门*/*丑闻*/ [dur*四分之一世纪*]/*时*/*发表*/*的*/*评论。*/ -- 注:按照前面的原则:*水门*/*丑闻*/ [dur*四分之一世纪*]/*时*在时间坐标轴上有比较固定的位置,因此应当标为**dat*。但这种与事件(水门丑闻)相关的时间表达,在ER-99和MET-2中都是不标注的。这样,只有四分之一世纪*需要标注为*dur*。 +- 注:按照前面的原则:*水门*/*丑闻*/ [dur*四分之一世纪*]/*时*在时间坐标轴上有比较固定的位置,因此应当标为*dat*。但这种与事件(水门丑闻)相关的时间表达,在ER-99和MET-2中都是不标注的。这样,只有*四分之一世纪*需要标注为*dur*。 /[dur*十多年*]/ /[dur*几年*]/*以来*/ -/*在*/[dur*半年*]/*时间*/*内*/*----注意:*上半年*是*dat*。 +/*在*/[dur*半年*]/*时间*/*内*/----注意:*上半年*是*dat*。 -/*在*/*总结*/[dur*14*年*]/*改革开放*/*经验*/*的*/*基础*/*上*/ +/*在*/*总结*/[dur*14年*]/*改革开放*/*经验*/*的*/*基础*/*上*/ -- 注:*14*年*、**30*年*也可能表示dat。标注者要注意区分。*/*我们*/*在*/*美国*/*奔波*/*了*/[dur*30*年*]/ +- 注:*14年*、*30*年*也可能表示dat。标注者要注意区分。*/*我们*/*在*/*美国*/*奔波*/*了*/[dur*30年*]/ -/[dur*27*年*]/*的*/*军旅*/*生涯*/ /*整整*/[dur*十五年*]/ +/[dur*27年*]/*的*/*军旅*/*生涯*/ -*----*整整*不标。 +/*整整*/[dur*十五年*]/ ----*整整*不标。 /*大约/*[dur*十年*]*/的/时间*/ ----*大约*不标。 /[dur*十年*]/*来*/ -/[dur*十几年*]/*的*/*时间*/ - -----注意! +/[dur*十几年*]/*的*/*时间*/ ----注意! /[dur*十几年*]/*来*/ /[dur*十来年*]/ /[dur*数年*]/ -/[dur*多年*]/ - -*----*ER99不标。 +/[dur*多年*]/ ----ER99不标。 #### 7.3.1一年都标为dur /*新*/*的*/[dur*一年*]/*即将*/*开始*/ -/*硬*/*是*/*在*/*地下室*/*干*/*了*/ [dur*一年*]/*的*/*公司*/ /[dur*一年*]/*创*/*产值*/*效益*/…/…/ +/*硬*/*是*/*在*/*地下室*/*干*/*了*/ [dur*一年*]/*的*/*公司*/ + +/[dur*一年*]/*创*/*产值*/*效益*/…/…/ + +/*聘金*/*为*/[dur*一年*]/ [mon*900万美元*]/*的*/*价码*/ -/*聘金*/*为*/[dur*一年*]/ [mon*900*万美元*]/*的*/*价码*/ +- 注:*/*这*/*一年*/*、/*那*/*一年*/*中的一年不是确指不作标注。 -- 注:*/*这*/*一年*/*、/那*/*一年*/*中的一年不是确指不作标注。*/*这*/*一年*/*,*/*企业*/*增收节支*/*达*/[mon*110万元*]/ +*/*这*/*一年*/*,*/*企业*/*增收节支*/*达*/[mon*110万元*]/ /*在*/[O*北大*]/*就读*/*的*/*那*/*一年*/*,*/ @@ -2040,15 +2340,13 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*让*/*人*/[dur*整夜*]/*不得*/*入睡*/ -- 注:当年、月、日、周等词修饰后面的工资、交易(销售)额、创汇等 - -词语时,要作为时段(*dur*)来标注。如: +- 注:当年、月、日、周等词修饰后面的工资、交易(销售)额、创汇等词语时,要作为时段(*dur*)来标注。如: /[dur*月*]/*收入*/*就*/*在*/[mon*千元*]/*以上*/ -/[dur*年*]/*交易额*/*近*/[mon*1000亿元*]/*。 +/[dur*年*]/*交易额*/*近*/[mon*1000亿元*]/*。* -/*这*/*一*/*工程*/[dur*日*]/*处理*/*污水*/[cap*2万立方米*]/*。 +/*这*/*一*/*工程*/[dur*日*]/*处理*/*污水*/[cap*2万立方米*]/*。* #### 7.3.2一天的标注有以下三种情况,需区别对待: @@ -2060,59 +2358,53 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*这次*/[L*中*]/[L*韩*]/*足球*/*对抗赛*/*是*/*在*/[O*韩国队*]/*准备*/*赴*/[L*法*]/*出征*/ -世界杯*/*的*/[dat*前一天*]/*举行*/*的*/*,*/ +*世界杯*/*的*/[dat*前一天*]/*举行*/*的*/*,*/ ##### 7.3.2.2"一天"的意思是指时间段(24小时),标注为dur: -/*每人*/*每月*/*接待*/*来访*/[dur*一天*]/*, +/*每人*/*每月*/*接待*/*来访*/[dur*一天*]/*,* /[P*汤*]/[P*尤*]/*杯*/[dur*一天*]/*不*/*拿*/*回来*/*,*/ -/*仅*/[dat*5月31日*]/[dur*一天*]/*,*/[L*莫斯科市*]/*税*/*警*/*就*/*查出*/[int*16 - -00个*]/*违法*/*经营者*/*。*/ +/*仅*/[dat*5月31日*]/[dur*一天*]/*,*/[L*莫斯科市*]/*税*/*警*/*就*/*查出*/[int*1600个*]/*违法*/*经营者*/*。*/ /*青年人*/*辛苦*/*忙碌*/*了*/[dur*一天*]/*来*/*此*/*坐*/*坐*/*,*/ /*在*/[L*墨西哥*]/*最后*/[dur*一天*]/*的*/*访问*/*中*/*,*/ -/*每*/*枚*/*多*/*赚*/[mon*7分钱*]/*,*/[dur*一天*]/*下来*/*能*/*多*/*收入*/[mon*好几十元*]/*。 +/*每*/*枚*/*多*/*赚*/[mon*7分钱*]/*,*/[dur*一天*]/*下来*/*能*/*多*/*收入*/[mon*好几十元*]/*。* ##### 7.3.2.3"一天"的意思相当于"有一天",由于不是确指的日期所以什么也不标: /*但愿*/*有一天*/*我们*/*轻松*/*地*/*说*/*:*/*消费*/*着*/*是*/*美丽*/*的*/*。*/ -/[dat*1997年*]/*的*/*一天*/*,*/[P*吴佩民*]/*在*/*办公室*/*热情*/*接待*/*了*/*一个*/*素 - -不相识*/*的*/*中年*/*妇女*/*。*/ +/[dat*1997年*]/*的*/*一天*/*,*/[P*吴佩民*]/*在*/*办公室*/*热情*/*接待*/*了*/*一个*/*素不相识*/*的*/*中年*/*妇女*/*。*/ /*一天*/[tim*下午*]/*,*/*记者*/*到*/*那*/*店*/*里*/*专门*/*拜访*/*了*/[P*佛朗科*]/*师傅*/*。*/ -/*一天*/*,*/[P*列宁*]/*收到*/*一*/*封*/*前线*/*发*/*来*/*的*/*要求*/*支援*/*武器*/*和*/*服装*/*的*/*电 - -报*/*。*/ +/*一天*/*,*/[P*列宁*]/*收到*/*一*/*封*/*前线*/*发*/*来*/*的*/*要求*/*支援*/*武器*/*和*/*服装*/*的*/*电报*/*。*/ /*一天*/*上*/*晚*/*自习*/*回来*/*,*/*有*/*一*/*条*/*狗*/*总*/*跟着*/*她*/*,*/ /*一天*/[tim*深夜*]/*,*/*一*/*人*/*酒后*/*拦截*/*过往*/*的*/*外地*/*车辆*/*,*/ /*一天*/*,*/*我*/*走过*/*他*/*的*/*门前*/*,*/ -/*一天*/[tim*晚上*]/*,*/*新*/*上任*/*的*/[L*河北省*]/[O*栾城县委*]/*书记*/[dat*六月八 - -日*]/*,*/ +/*一天*/[tim*晚上*]/*,*/*新*/*上任*/*的*/[L*河北省*]/[O*栾城县委*]/*书记*/[dat*六月八日*]/*,*/ - 注:"这/一天、那/一天"中的"一天"也非确指,所以也不标。 -/*记住*/*这*/*一天*/*,*/*也是*/*表达*/*我*/*对*/[L*香港*]/*回归祖国*/*的*/*预祝*/*。*/ /[P*王龙雨*]/*从*/*上任*/*的*/*那*/*一天*/*起*/*,*/ +/*记住*/*这*/*一天*/*,*/*也是*/*表达*/*我*/*对*/[L*香港*]/*回归祖国*/*的*/*预祝*/*。*/ + +/[P*王龙雨*]/*从*/*上任*/*的*/*那*/*一天*/*起*/*,*/ ### 7.4有关时间表达式的规则 #### 7.4.1前(后)+日期|时间要整体标注 -/[dat*今年前五个月*]/ /[dat*前三天*]/ +/[dat*今年前五个月*]/ -- 注:以下的标注是正确的: +/[dat*前三天*]/ -/*在*/*上半时*/*结束*/*前*/[dur*1*分钟*]/ +- 注:以下的标注是正确的: -----*上半时*是词表词。 +/*在*/*上半时*/*结束*/*前*/[dur*1分钟*]/ ----*上半时*是词表词。 /*比赛*/*前*/[dur*十分钟*]/ @@ -2122,25 +2414,31 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* 刚才、最近、开始军备谈判以来、一会儿*等表示不确定时间的词语,不标。如果节日没有确定的时间,也不标。如: -/[L*印度*]/*国际*/*电影节*/ /[L*中国*]/*旅游年*/ +/[L*印度*]/*国际*/*电影节*/ + +/[L*中国*]/*旅游年*/ #### 7.4.3特例 若两个短语属于不同的子类*dat*和*tim*,就需分开标注。 -/[dat*2*月*12*日*]/[tim*上午*8*点*]/ +/[dat*2*月*12日*]/[tim*上午*8*点*]/ -/[dat*星期一*]/[tim*8*点*]/ +/[dat*星期一*]/[tim*8点*]/ -- 注1:时间中的地名,如北京时间下午*5*点*,在ER-99中不标注,而在NET-2中要标注。本规范按NET-2标注(参照前面的例子)。如果*dat*和*tim*分不开,就整体标注。 +- 注1:时间中的地名,如北京时间下午*5*点,在ER-99中不标注,而在NET-2中要标注。本规范按NET-2标注(参照前面的例子)。如果*dat*和*tim*分不开,就整体标注。 /[tim*北京时间*1997*年*2*月*9*号*19*点*28*分*]/ -- 注2:去年、昨天、今早*等词在MET-2中要标,在ER-99中不标。本规范只参照MET-2: +- 注2:*去年、昨天、今早*等词在MET-2中要标,在ER-99中不标。本规范只参照MET-2: -/[dat*去年上半年*]/ /[dat*今年夏天*]/ +/[dat*去年上半年*]/ -/[dat*今年三月一日*]/ /[dat*去年春夏之交*]/ +/[dat*今年夏天*]/ + +/[dat*今年三月一日*]/ + +/[dat*去年春夏之交*]/ /[dat*昨天*]/[tim*夜里*]/ ---*夜里*是词表词。 @@ -2148,17 +2446,15 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /[dat*今*]/[tim*早六点*]/ ---*今早*不是词表词。 -/[tim*早上六点*]/ *---**早上*是词表词。 - -/[dat*5月份*]/*产品*/*出口*/*和*/*转口*/*总值*/*比*/[dat*去年同月*]/ +/[tim*早上六点*]/ ---*早上*是词表词。 -下降*/[per*3.2%*]/*, +/[dat*5月份*]/*产品*/*出口*/*和*/*转口*/*总值*/*比*/[dat*去年同月*]/*下降*/[per*3.2%*]/*,* /[dat*同一天*][tim*晚上*]/ /[dat*当日*]/[tim*下午*]/ -- 注3:当日是词表词。如果在上下文中能确定*当日、当天*或同一天*的具体日期时,就标注;否则不标。 +- 注3:当日是词表词。如果在上下文中能确定*当日、当天*或*同一天*的具体日期时,就标注;否则不标。 /*每日*/[tim*上午11时*]/*至*/[tim*深夜3时*]/ ----*深夜*是词表词。 @@ -2166,11 +2462,13 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*每*/[dat*周四,二,一*]/ -- 注:MET-2和ER-99对*早上六点*的标注是相同的。但ER-99认为早上六点*与今早六点*不同。原因可以从英语的表达来理解:前者是"6:00am",后者是"6:00thismorning"。"thismorning"在ER-99中被视为"相对时间",不标注。但在MET-2中,"相对时间"是要标的。本规范遵循MET-2。 +- 注:MET-2和ER-99对*早上六点*的标注是相同的。但ER-99认为*早上六点*与*今早六点*不同。原因可以从英语的表达来理解:前者是"6:00am",后者是"6:00thismorning"。"thismorning"在ER-99中被视为"相对时间",不标注。但在MET-2中,"相对时间"是要标的。本规范遵循MET-2。 -/[dat*11*月24至27日*]/ +/[dat*11月24至27日*]/ -/[dat*3*月*15*日*]/*至*/[dat*17*日*]/ /[dat*1949*年*]/-/[dat*1972*年*]/ +/[dat*3*月*15日*]/*至*/[dat*17日*]/ + +/[dat*1949年*]/-/[dat*1972年*]/ /[L*美国*]/*南北战争*/*(*/[dat*1861—1865年*]/*)*/*中*/ @@ -2178,27 +2476,31 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* ---清注意这里日期范围的标注方式。 -迄今*----*词表词不标-,MET-2标今*。 +*迄今*----*词表词不标-,MET-2标今*。 -今后*----*词表词不标-,MET-2标今。 +*今后*----*词表词不标-,MET-2标今。 -晨练*----*词表词中的*晨*不标。*-* +*晨练*----*词表词中的*晨*不标。*- -晚宴*----*词表词中的*晚*不标。*-* +*晚宴*----*词表词中的*晚*不标。*- -春联----词表词中的*春*不标。 +*春联*----词表词中的*春*不标。 -他们*/*的*/*今天*/*,*/*仿佛*/*就是*/*我们*/*的*/*明天*/*。----泛指不标。 +*他们*/*的*/*今天*/*,*/*仿佛*/*就是*/*我们*/*的*/*明天*/*。*----泛指不标。 -参加*/*半决赛*----*半决赛*是词表词,半*不标。 +*参加*/*半决赛*----*半决赛*是词表词,*半*不标。 -双边*/*会谈*----*双边*是词表词,因此双*不标。 +*双边*/*会谈*----*双边*是词表词,因此*双*不标。 #### 7.4.4每年和年不标注 -本规则也适用于*月,天,小时*等其它时间单位。例如:*/*年产值*/*…*/*…*/ +本规则也适用于*月,天,小时*等其它时间单位。例如: + +*/*年产值*/*…*/*…*/* -/*每年*/*创*/*产值*/*效益*/*…*/*…*/ /*每年*/*收入*/*…*/*…*/ +/*每年*/*创*/*产值*/*效益*/*…*/*…*/ + +/*每年*/*收入*/*…*/*…*/ ## 第八章 数字表达式标注细则 @@ -2208,15 +2510,23 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* 例如: -/[int*几千万盆*]/ /[int*几家*]/*工厂*/ /*一*/*家*/ [int*5]/*人*/ +/[int*几千万盆*]/ + +/[int*几家*]/*工厂*/ + +/*一*/*家*/ [int*5*]/*人*/ + +/*一*/*家*/ [int*5口*]/*人*/ -/*一*/*家*/ [int*5*口*]/*人*/ +/*铁人*/[int*三项*]/*比赛*/*是*/*多*/*项目*/*的*/*综合*/*运动*/*,* -/*铁人*/[int*三项*]/*比赛*/*是*/*多*/*项目*/*的*/*综合*/*运动*/*,*/*计算机*/*配置*/*:*/586/*以上*/*,*/[int*8*兆*]/*内存*/*以上*/ /*打印*/*分辨率*/*:*/[mea*180dpi]/ +/*计算机*/*配置*/*:*/586/*以上*/*,*/[int*8兆*]/*内存*/*以上*/ + +/*打印*/*分辨率*/*:*/[mea*180dpi*]/ 注:*dpi*表示每英寸的点数,所以作为*mea*标注。 -/*评为*/*"*/[int*十*]/*星*/*级*/*乡镇*/*"*/*、*/*"*/[int*十*]/*星*/*级*/*支部*/*" +/*评为*/*"*/[int*十*]/*星*/*级*/*乡镇*/*"*/*、*/*"*/[int*十*]/*星*/*级*/*支部*/*"* ### 8.2单纯的数字、词表词(包括俗语)中的数字都不作标注 @@ -2224,19 +2534,21 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*自然数*/5/*和*/6/*都是*/*整数*/ -/*大家*/*听*/*口令*/*,*/*齐步走*/*,*/*一*/*二*/*一*/*,一*/*二*/*一*/*,*/*一*/*二*/*三*/*四*/*,/*/*但是*/*卷子*/*上*/*的*/"/6/"/*还是*/*颠*/*巍巍*/*地*/*变成*/*了*/"/8/"/*。*/ +/*大家*/*听*/*口令*/*,*/*齐步走*/*,*/*一*/*二*/*一*/*,一*/*二*/*一*/*,*/*一*/*二*/*三*/*四*/*,/* + +/*但是*/*卷子*/*上*/*的*/"/6/"/*还是*/*颠*/*巍巍*/*地*/*变成*/*了*/"/8/"/*。*/ /[L*瑞士*]/*、*/[L*西班牙*]/*、*/[L*比利时*]/*、*/[L*丹麦*]/[int*四*]/*国*/ /*并*/*促进*/*了*/[L*中*][L*美*]/*两国*/*的*/*交流*/*与*/*合作*/ ----*两国*是词表词。 -/*并*/*促进*/*了*/[L*中*][L*美*]/[int*两*]*国*/*的*/*交流*/*与*/*合作*/*,----错误! +/*并*/*促进*/*了*/[L*中*][L*美*]/[int*两*]*国*/*的*/*交流*/*与*/*合作*/*,* ----错误! -/*垄断*/*了*/[L*神奈川*]/*、*/[L*青森*]/*等*/[int*5*]/*县*/*的*/*交通*/*信号*/*维修*/*业务*/*。 +/*垄断*/*了*/[L*神奈川*]/*、*/[L*青森*]/*等*/[int*5*]/*县*/*的*/*交通*/*信号*/*维修*/*业务*/*。* /[L*两岸*]/*经济*/*合作*/*和*/*直接*/*三通*/ ----*三通*是词表词。 -/[L*两岸*]/*经济*/*合作*/*和*/*直接*/[int*三*]*通*/ ----*错误! +/[L*两岸*]/*经济*/*合作*/*和*/*直接*/[int*三*]*通*/ ----错误! /*到*/[L*云*]/[L*贵*]/[L*川*]/*的*/*大三线*/*地区*/*,----大三线*是词表词。 @@ -2248,51 +2560,55 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* /*十*/*年*/*九*/*旱*/*----非词表词。虚指的十年*不标。 -/*眼*/*观*/*六*/*路*/*,耳*/*听*/*八*/*方*/ ----*非词表词。虚指的六、八不标。 +/*眼*/*观*/*六*/*路*/*,耳*/*听*/*八*/*方*/ ----非词表词。虚指的六、八不标。 -/*利*/*在*/*千秋*/*的*/*大事*/ ----*虚指的*"*千秋*"*不标。 +/*利*/*在*/*千秋*/*的*/*大事*/ ----*虚指的*"*千秋*"不标。 /*十*/*年*/*如*/*一*/*日*/ ---*-虚指的十年*和*一日*,不标。 /*万里*[L*长城*]/ ---*-虚指的万里*,不标。 -/*三皇五帝/----*三皇五帝*是词表词。 +/*三皇五帝*/----*三皇五帝*是词表词。 /*乌七八糟*/*的*/*东西*/*几乎*/*扫荡*/*殆尽*/*----乌七八糟*是词表词。 -/*三大球*/*在*/*走*/*向*/*市场*/*时*/*----*三大球*是词表词。 +/*三大球*/*在*/*走*/*向*/*市场*/*时*/----*三大球*是词表词。 -/*第二次世界大战*/*的*/*反法西斯*/*斗争*/*----*第二次世界大战*是词表词。 +/*第二次世界大战*/*的*/*反法西斯*/*斗争*/----*第二次世界大战*是词表词。 -/*三五成群*/*地*/*散落*/*着*/*警察*/*,----*三五成群*是词表词。 +/*三五成群*/*地*/*散落*/*着*/*警察*/*,*----*三五成群*是词表词。 -- 注:*一会儿,一起,唯一,付之一炬,一流,千方百计,一分为二,一切, +- 注:*一会儿,一起,唯一,付之一炬,一流,千方百计,一分为二,一切,二娃*等词表词中的数字一律不标。 -二娃*等词表词中的数字一律不标。*/*本职*/*创*/"/*一流*/"/*活动*/ /[int*亿万*]/*人民*/ +/*本职*/*创*/"/*一流*/"/*活动*/ /[int*亿万*]/*人民*/ /[int*百万*]/*民众*/ -- 注:按照ER-99,* ** *亿万、百万*不是一个抽象的数字,因此是要标注的。 +- 注:按照ER-99,*亿万、百万*不是一个抽象的数字,因此是要标注的。 ### 8.3约、近是一个不确切概念,故不同后面的数字串一起标注 -上*、*数*、*几*、*好*则要和数字串捆绑在一起标注,而*约、近*作为特例,不与数 +*上*、*数*、*几*、*好*则要和数字串捆绑在一起标注,而*约、近*作为特例,不与数词捆绑。 -词捆绑。 +/*大约*/[int*12亿*]/*人口*/ -/*大约*/[int*12*亿*]/*人口*/ +/*约*/[int*四五千*]/*人*/*在*/[L*金边奥林匹克运动中心*]/*举行*/*集会*/*,*/ -/约*/[int*四五千*]/*人*/*在*/[L*金边奥林匹克运动中心*]/*举行*/*集会*/*,*/ /*约*/[mon*十万元*]/ +/*约*/[mon*十万元*]/ /*近*/[mon*千万元*]/ -/*大概*/*需要*/*花费*/[mon*上千万美元*]/*的*/*投资*/*和*/[dur*3*年*]/*左右*/*时间*/*,*/ /[O*省电力公司*]/*还*/*投资*/[mon*好几百万元*]/*,*/ +/*大概*/*需要*/*花费*/[mon*上千万美元*]/*的*/*投资*/*和*/[dur*3年*]/*左右*/*时间*/*,*/ + +/[O*省电力公司*]/*还*/*投资*/[mon*好几百万元*]/*,*/ -/*多于*/[mon*$90,000]/ /[mon*几百万新元*]*/ +/*多于*/[mon$90,000]/ /[mon*几百万新元*]/ /*统计*/*了*/[int*上百种*]/*数字*/*,*/ -/*每年*/*都*/*要*/*花费*/*大量*/*外汇*/*引进*/[int*上百套*]/*系统*/ /*每年*/*搞*/[int*一两个*]/*工程*/*,*/ +/*每年*/*都*/*要*/*花费*/*大量*/*外汇*/*引进*/[int*上百套*]/*系统*/ + +/*每年*/*搞*/[int*一两个*]/*工程*/*,*/ /*邀请*/*全国*/*近*/[int*百名*]/*书法*/*名家*/*,*/ @@ -2300,61 +2616,71 @@ MT-2和ER-99规定:以族或裔结尾的词组中的地名不标注。因此* - 注:余、多本不应标注,但当它们位于量词前分割不开,所以整体加以标注。 -/[mon*二十七万余元*]/ /[mon*五百多万元*]/ +/[mon*二十七万余元*]/ + +/[mon*五百多万元*]/ ### 8.4钱款式中的地名 钱款表达式中的地名不论是单音节还是多音节的,Er-99和MET-2都不标,否则就形成嵌套。 -如果货币字符串在文本中单独出现,字符串中没有数字修饰,那么双音节的地名要标注为**L*,单音节的地名不标注。例如非词表词*泰铢*中的*泰*不标。注意词表词*日元*、*美元*中的单音节的地名也不标。 +如果货币字符串在文本中单独出现,字符串中没有数字修饰,那么双音节的地名要标注为*L*,单音节的地名不标注。例如非词表词*泰铢*中的*泰*不标。注意词表词*日元*、*美元*中的单音节的地名也不标。 -/[mon*2000*新元*]/ /[mon*2000*新加坡元*]/ +/[mon*2000新元*]/ + +/[mon*2000新加坡元*]/ /*泰*/*铢*/*汇率*/*稳定*/*在*/[mon*38铢*]/—/[mon*39铢*]/*兑*/[mon*美元*]/*水平*/ -/*纷纷*/*抛*/*出*/*日元*/*购*/*进*/[L*德国*]/*马克*/*,*/ /[L*菲律宾*]/*比索*/*对*/*美元*/*汇率*/*也*/*下跌*/*。*/ +/*纷纷*/*抛*/*出*/*日元*/*购*/*进*/[L*德国*]/*马克*/*,*/ + +/[L*菲律宾*]/*比索*/*对*/*美元*/*汇率*/*也*/*下跌*/*。*/ ### 8.5钱款标注中的特例 MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。本规范采用ER-99的规定。 -/*这*/*辆*/*汽车*/*值*/[mon*20*万*]/ +/*这*/*辆*/*汽车*/*值*/[mon*20万*]/ -/*卷标*/*上*/*的*/*价格*/*是*/ [mon*50]/ /[O*纳斯达克*]/*跌*/ [int*140]/ +/*卷标*/*上*/*的*/*价格*/*是*/ [mon*50*]/ + +/[O*纳斯达克*]/*跌*/ [int*140*]/ ### 8.6频率的特例 -/[fre*四年一度*]/ *----*四年一度*并非词表词,但整体标注为** fre*。 +/[fre*四年一度*]/ ----*四年一度*并非词表词,但整体标注为*fre*。 /[fre*一年一度*]/ -*----*一年一度*是词表词,整体标注为**fre*。*/*主要*/*在*/*交流*/[fre*50Hz]/*,*/*额定*/*电压*/*至*/[mea*660V]/ +----*一年一度*是词表词,整体标注为*fre*。 -*---*交流电的频率是*50Hz*(赫兹)*,*即每秒变化*50*周。所以理应标成**fre* +*/*主要*/*在*/*交流*/[fre*50Hz*]/*,/*额定*/*电压*/*至*/[mea*660V*]/ -而不是**mea*。 +*---*交流电的频率是*50Hz*(赫兹)*,*即每秒变化*50*周。所以理应标成*fre*而不是*mea*。 -/*频率*/*高*/*(*/[fre*30*-*60KHz]/*) +/*频率*/*高*/*(*/[fre*30*-*60KHz*]/) -/*卫星*/*每年*/*发射*/[fre*6至7次*]/*。 +/*卫星*/*每年*/*发射*/[fre*6至7次*]/。 -- 注:又一次、再一次全部标注为fre,但/一次*/*又*/*一次*/*例外,不作标注。 +- 注:又一次、再一次全部标注为fre,但/*一次*/*又*/*一次*/例外,不作标注。 如: -/*此间*/*舆论*/[fre*又一次*]/*注意*/*到*/[L*亚*]/[L*非*]/*足球*/*的*/*差距*/ /*精湛*/*演技*/*,*/[fre*再一次*]/*赢得*/*了*/*首都*/*观众*/*的*/*由衷*/*赞赏*/ +/*此间*/*舆论*/[fre*又一次*]/*注意*/*到*/[L*亚*]/[L*非*]/*足球*/*的*/*差距*/ -### 8.7名词方没有与之搭配的量词,因此可以和前面的数词直接结合 +/*精湛*/*演技*/*,*/[fre*再一次*]/*赢得*/*了*/*首都*/*观众*/*的*/*由衷*/*赞赏*/ -在我方、校方中的名词方没有与之搭配的量词,因此可以和前面的数词 +### 8.7名词方没有与之搭配的量词,因此可以和前面的数词直接结合 -直接结合,如: +在我方、校方中的名词方没有与之搭配的量词,因此可以和前面的数词直接结合,如: /[int*三方*]/*已*/*就*/[O*劳斯莱斯*]/*汽车*/*的*/*前景*/*达成*/*协定*/*,*/ ### 8.8一相当于英语的冠词a,一般不标 -一相当于英语的冠词a,一般不标,但一倍是例外,要标fra。例如:*/*一个*/*条件*/ +一相当于英语的冠词a,一般不标,但一倍是例外,要标fra。例如: + +/*一个*/*条件*/ /*一*/*座*/*城市*/ @@ -2362,7 +2688,7 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 /*荣立*/*一等功*/ ----*一等功*是词表词,不可标注。 -/荣立*/[ord*一等*]*功*/*----错误的标注! +/荣立*/[ord*一等*]*功*/----错误的标注! /*获*/*县*/*政府*/*新技术*/*推广*/[ord*一、二等*]/*奖*/*。*/ @@ -2372,19 +2698,21 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 #### 8.9.1一+量词是词表词的情况 -词表词一个、一种、一类、一批、一次、一套、一阵等作为数量短语不予切分,也不标注*int*。其中有些量词重迭形式也是词表词,如一个个、一天天,应保 - -持其整词形式,而其它非词表词的数量短语和量词重迭形式都是要切开的。 +词表词一个、一种、一类、一批、一次、一套、一阵等作为数量短语不予切分,也不标注*int*。其中有些量词重迭形式也是词表词,如一个个、一天天,应保持其整词形式,而其它非词表词的数量短语和量词重迭形式都是要切开的。 /*一个*/*人*/ -/*一个个*/*观众*/ /*一种*/*算法*/ +/*一个个*/*观众*/ + +/*一种*/*算法*/ /*一套*/*特种*/*邮票*/ /*一次*/*讨论*/ -/一*/*匹*/*黄骠马*/ /*一*/*栋*/*栋*/*楼房*/ +/*一*/*匹*/*黄骠马*/ + +/*一*/*栋*/*栋*/*楼房*/ /*一天天*/*暖和*/*起来*/ @@ -2394,33 +2722,41 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 /*一*/*块*/*石头*/ -/*一*/*起*/*交通*/*事故*/ /*一*/*面*/*镜子*/ +/*一*/*起*/*交通*/*事故*/ + +/*一*/*面*/*镜子*/ ### 8.10一(1)"+物理单位元需按度量表达式标注 一(1)"+物理单位元(如米、公斤、摄氏度等)需按度量表达式(见6.3)标注。如: -/[wei*一公斤*]/*大米*/ /[mea*一度*]/*电*/ +/[wei*一公斤*]/*大米*/ + +/[mea*一度*]/*电*/ ### 8.11分数词素半 #### 8.11.1词表词中的词素半不可标注为fra(分数) -词表词*如半价、半票、半饱、半身、半世、半辈子、上半时、下半场、半边*等, - -但不可把上述词表词中的词素*半*标注为**fra*(分数)。 +词表词*如半价、半票、半饱、半身、半世、半辈子、上半时、下半场、半边*等,但不可把上述词表词中的词素*半*标注为*fra*(分数)。 /*上*/[fra*半*]/*场*/*比赛*/[L*中国*]*队*/*未进*/*一*/*球*/ -/*下半场*/*----词表词,是正确标注。 +/*下半场*/----词表词,是正确标注。 + +/*下*[fra*半*]*场*/----在词表词中插标*fra*是错误的。 -/*下*[fra*半*]*场*/*----在词表词中插标**fra*是错误的。 +/*目前*/*还*/*空闲*/*着*/[fra*一大半*]/*的*/*营业*/*面积*/*。*/ -/*目前*/*还*/*空闲*/*着*/[fra*一大半*]/*的*/*营业*/*面积*/*。*/ /*他们*/*之中*/*肯定*/*有*/[fra*一多半*]/*人*/*没有*/*球*/*票*/ /*有*/[fra*大半个*]/*篮球*/*场*/*那么*/*大*/ +/*他们*/*之中*/*肯定*/*有*/[fra*一多半*]/*人*/*没有*/*球*/*票*/ + +/*有*/[fra*大半个*]/*篮球*/*场*/*那么*/*大*/ - 注:当半作为一个独立的词时要标注,标注的原则是:半+量词或名词时标注,半+动词或形容词时不作标注,如: -/*下半场*/*后*/[fra*半*]/*段*/ /*地处*/*偏僻*/[fra*半*]/*山区*/ +/*下半场*/*后*/[fra*半*]/*段*/ + +/*地处*/*偏僻*/[fra*半*]/*山区*/ /*部分*/*企业*/*停产*/*或*/*半*/*停产*/ @@ -2430,7 +2766,13 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 #### 8.11.2以下的词表词不作为分数标注,而作为其它不同的数字串标注 -/[dur*半年*]/ /[dur*半天*]/ /[tim|dur*半夜*]/ /[int|age*半百*]/ +/[dur*半年*]/ + +/[dur*半天*]/ + +/[tim|dur*半夜*]/ + +/[int|age*半百*]/ #### 8.11.3例外 @@ -2444,61 +2786,69 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 #### 8.12.1词表词中的词素首不可标注为ord(序数) -词表中有许多词含有词素*首*,如*首创、首倡、首选、首发、首航、首飞、首演、首映、首战、首展、首席代表、首席科学家、首席执行官、首富、榜首、魁首、居首*等。但不可把词表词中的词素*首*单独作为**ord*(序数)来标注。 +词表中有许多词含有词素*首*,如*首创、首倡、首选、首发、首航、首飞、首演、首映、首战、首展、首席代表、首席科学家、首席执行官、首富、榜首、魁首、居首*等。但不可把词表词中的词素*首*单独作为*ord*(序数)来标注。 -/*首席执行官*/*----正确标注。 +/*首席执行官*/----正确标注。 -/[*ord*首席*]*执行官*/*----在词表词中插标**ord*是错误的。 +/[*ord首席*]*执行官*/----在词表词中插标*ord*是错误的。 #### 8.12.2具有首+量词结构的词表词或非词表词,应整体作为ord标注 -具有"首+量词"结构的词表词有:*[ord*首届*]*,*[ord*首次*]*,*[ord*首批*]*,*[ord*首位*]*, - -*[ord*首例*]*等。 +具有"首+量词"结构的词表词有:*[ord*首届*]*,*[ord*首次*]*,*[ord*首批*]*,*[ord*首位*]*,[ord*首例*]等。 具有首+量词结构的非词表词,如: -/[L*北京市*]/[ord*首家*]/*就业*/*与*/*创业*/*组合*/*市场*/ /[P*满文军*]/*则*/*以*/*自己*/*的*/[ord*首张*]/*个人*/*专辑*/ /[dat*首日*]/*销售*/*欠佳*/ +/[L*北京市*]/[ord*首家*]/*就业*/*与*/*创业*/*组合*/*市场*/ + +/[P*满文军*]/*则*/*以*/*自己*/*的*/[ord*首张*]/*个人*/*专辑*/ + +/[dat*首日*]/*销售*/*欠佳*/ ----这里首日不能作序数词来标注,应标注为日期*dat*。(详见7.1)。 - 注:头版、头条是词表词。它们和头一回统统标注为*ord*。如: -/*在*/[dat*4月11日*]/*的*/*《*/[O*人民日报*]/*》*/[ord*头版*]/[ord*头条*]/*社论*/ - -位置*/*发表*/*出来*/*, +/*在*/[dat*4月11日*]/*的*/*《*/[O*人民日报*]/*》*/[ord*头版*]/[ord*头条*]/*社论*/*位置*/*发表*/*出来*/*,* -/*由于*/*是*/[ord*头一回*]/*,*/*总*/*怕*/*有*/*个*/*闪失*/*, +/*由于*/*是*/[ord*头一回*]/*,*/*总*/*怕*/*有*/*个*/*闪失*/*,* - 注:"头"的上述标注不可类推到其它词组中,例如, -上*/*半场*/*表现*/*不好*/*,*/*头*/[dur*10分钟*]/*甚至*/*有些*/*拖泥带水*/*。 +*上*/*半场*/*表现*/*不好*/*,*/*头*/[dur*10分钟*]/*甚至*/*有些*/*拖泥带水*/*。* *----*注:这里半场时词表词,但不标注为*fra*。 ### 8.13序数词+量词结构,应整体作为ord标注 -/[ord*第一期*]/ /[ord*第二*]/*故乡*/ /[ord*三等*]/*奖*/ +/[ord*第一期*]/ + +/[ord*第二*]/*故乡*/ + +/[ord*三等*]/*奖*/ /[dat*第一天*]/ *---*相对日期,标*dat,*而不是** [ord*第一*]/*天*。 /[dat*第二年*]/ *---*相对日期,标*dat,*而不是** [ord*第二*]/*年*。 -/[O*波音*]/747 */ ----*产品序号不标。 +/[O*波音*]/747 */* ----*产品序号不标*。 -/*地震烈度*/*不*/*超过*/[ord*8*度*]// /*这*/[ord*第二条*]/*尤为*/*重要*/*,*/ /*位居*/*金牌*/*榜*/[ord*第二名*]/*。*/ +/*地震烈度*/*不*/*超过*/[ord*8度*]// -/*作为*/*大豆*/*行动*/*计划*/*的*/[ord*第二步*]/ /[ord*1174*号*]/*文件*/ +/*这*/[ord*第二条*]/*尤为*/*重要*/*,*/ -/[ord*6*路*]/*汽车*/ /[ord*六年级*]/*学生*/ +/*位居*/*金牌*/*榜*/[ord*第二名*]/*。*/ -/[dat*今年*]/*读*/[ord*大三*]/ +/*作为*/*大豆*/*行动*/*计划*/*的*/[ord*第二步*]/ -/*发展*/*第一产业*/ +/[ord*1174号*]/*文件*/ -----第一产业*是词表词。 +/[ord*6路*]/*汽车*/ /[ord*六年级*]/*学生*/ -/*发展*/[ord*第一*]*产业*/ ----*错误的标注。 +/[dat*今年*]/*读*/[ord*大三*]/ + +/*发展*/*第一产业*/ ----*第一产业*是词表词。 + +/*发展*/[ord*第一*]*产业*/ ----错误的标注。 /*阵风*/[ord*五级]*/ @@ -2508,7 +2858,11 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 /*在*/[L*里昂*]/*进行*/*的*/*世界杯*/*G*/*组*/*比赛*/*中*/ -- 注:"甲级、甲/A、乙/级、乙/A"等不作为序数ord标注。如:*/*当即*/*停止*/*该*/*场*/*比赛*/*主*/*裁判员*/*执法*/*全国*/*足球*/*甲*/*A*/*联赛*/*;*/*获得*/[ord*前两名*]/*的*/*球队*/*晋级*/*甲*/*A*/*行列*/*。*/ +- 注:"甲级、甲/A、乙/级、乙/A"等不作为序数ord标注。如: + +*/*当即*/*停止*/*该*/*场*/*比赛*/*主*/*裁判员*/*执法*/*全国*/*足球*/*甲*/*A*/*联赛*/*; + +/*获得*/[ord*前两名*]/*的*/*球队*/*晋级*/*甲*/*A*/*行列*/*。*/ /[dat*1998年*]/*全国*/[O*男篮*]/*甲*/*B*/*联赛*/ @@ -2520,83 +2874,85 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 /*获得*/[ord*前十名*]/*的*/*是*/*:*/*在*/*前*/[int*两轮*]/*小组*/*赛*/*中*/ -/*列*/*前*/[int*两位*]/*的*/*是*/[O*澳大利亚队*]/*和*/[O*日本队*]/*。 +/*列*/*前*/[int*两位*]/*的*/*是*/[O*澳大利亚队*]/*和*/[O*日本队*]/*。* ### 8.15文本中表示标号的数字不标 规范、条例中的条款标号,包括一、二、三、Ⅰ、Ⅱ、Ⅲ、1,2,3、第一条、第二条、第三条等,一律不予标注。只有当这些条款被正文引用时,才作为序号ord被标注。例如: -/*第二*/*,*/*制定*/*必要*/*的*/*行规*/*、*/*行约*/*,*/*共同*/*规范*/*,*/*共同*/*遵守*/*,*/ /*一*/*无*/*资金*/*,*/*二*/*无*/*场地*/ +/*第二*/*,*/*制定*/*必要*/*的*/*行规*/*、*/*行约*/*,*/*共同*/*规范*/*,*/*共同*/*遵守*/*,*/ + +/*一*/*无*/*资金*/*,*/*二*/*无*/*场地*/ /*一*/*靠*/*政策*/*调动*/*农民*/*的*/*积极性;*/ /*二*/*靠*/*科技;*/ /*一*/*是*/*继续*/*加强*/*农业;*/ -/*二*/*是*/*采取*/*措施*/*稳定*/*物价*/*,*/*抑制*/*通货膨胀;*/ /*1*/*.*/*自卑*/*的*/*羞耻*/*感*/*。*/ +/*二*/*是*/*采取*/*措施*/*稳定*/*物价*/*,*/*抑制*/*通货膨胀;*/ + +/*1*/*.*/*自卑*/*的*/*羞耻*/*感*/*。*/ /*2*/*.*/*依赖*/*的*/*恐惧*/*感*/*。*/ /*(1)*/*加强*/*爱国主义*/*的*/*宣传*/*教育。*/ -/*(2)*/*加强*/*正确*/*的*/*理想*/*、*/*信念*/*、*/*人生观*/*、*/*价值观*/*的*/*宣传*/*教育*/*。 - -"第*+*数词*+*条"视为词表词,但作为文中陈述的标号时不标注*ord*。仅当其在 +/*(2)*/*加强*/*正确*/*的*/*理想*/*、*/*信念*/*、*/*人生观*/*、*/*价值观*/*的*/*宣传*/*教育*/*。* -文中被引用时才作为*ord*标注。例如: +"*第*+*数词*+*条*"视为词表词,但作为文中陈述的标号时不标注*ord*。仅当其在文中被引用时才作为*ord*标注。例如: -/*第一条*/*、*/*消费者*/*永远*/*是*/*对*/*的*/*; +/*第一条*/*、*/*消费者*/*永远*/*是*/*对*/*的*/*;* /*第二条*/*、*/*如果*/*消费者*/*真*/*的*/*错*/*了*/*,*/*清*/*参照*/[ord*第一条*]/*。*/ - 注:当上述数字表示等级序号时,则要标注为*ord*。例如: -污秽*/*等级*/*:*/[ord*Ⅰ*]/*、*/[ord*Ⅱ*]/*、*/[ord*Ⅲ*]/*、*/[ord*Ⅳ*]/*。 +*污秽*/*等级*/*:*/[ord*Ⅰ*]/*、*/[ord*Ⅱ*]/*、*/[ord*Ⅲ*]/*、*/[ord*Ⅳ*]/*。* ### 8.16人名、地名、机构名中的数字,不单独标注int /[P*佐腾一郎*]/ -/[L*梅竹蹊六十七号茶花庄*]/ /[O*子弟一中*]/ +/[L*梅竹蹊六十七号茶花庄*]/ + +/[O*子弟一中*]/ /[O*三明市*]/ -/*任*/*队长*/*的*/ [O*1205*钻井队*]/ +/*任*/*队长*/*的*/ [O*1205钻井队*]/ ### 8.17外文字符串的标注 由于外文的词与词之间都有空格作为分隔符,因此无需再去切分,只在标点符号的前后加切分标记。遇到字母词、名称缩写等情况也不作切分,如:/COM/经济/(网络经济)、/E/产品/(电子产品)、/卡拉/OK/等。 -/Good *morning/ ,/everyone/./ +/Good morning/ ,/everyone/./ /*最近*/*引进*/*一*/*台*/JT-ESWL-*Ⅲ*/*型*/*体*/*外*/*震波*/*粉碎*/*肾结石*/*机*/*,*/ -"*/[L *ZHONG* HUA *REN* MIN *GONG* HE*GUO]/"/*,*/*这是*/[L*中华人民共和国*]/*的*/*汉语拼音*/*。*/ +"*/[L *ZHONG* HUA *REN* MIN *GONG* HE*GUO]/"/*,*/*这是*/[L*中华人民共和国*]/*的*/*汉语拼音*/*。*/* -"*/Brother/*,*/I *love* you *all* the *time/*,*/ Thank *you* very *much/*!*/"/ "/Happy *birthday* to*you/*!*/"* +"*/Brother/*,*/I *love* you *all* the *time/*,*/ Thank *you* very *much/*!*/"/ "/Happy *birthday* to*you/*!*/" /Dip *one* end *of* a *straw* in *the* solution/./Blow *gently* through *the* straw/./ */A* soap *bubble* forms/./What *happens* when *you* keep *on* blowing/?/ -/The *bubble* bursts *because* the *pressure* inside *the* bubble *is* more *than* the* - -*pressure *outside* the*bubble/./ +/The *bubble* bursts *because* the *pressure* inside *the* bubble *is* more *than* the*pressure *outside* the*bubble/./ ### 8.18数学公式和机型标号均作为一个整体来切分和标注 例如: -/*△*S/=/[len*12*(*S1*+*S2*)*mm]/ +/*△*S/=/[len*12*(*S1*+*S2*)*mm*]/ -/IEC298*.*265*.*129*.*694. *420*.*56.* 529*.*932/ */GB3804.* 3906*.*11022/ +/*IEC298*.*265*.*129*.*694. *420*.*56.* 529*.*932*/ -/IEC60129A2/*(*/[dat*1996]/*)*UES*-*K3*/*2/ /UEMC40K8U*/*1/ */1* V/FJ220001R2/ +/*GB3804.* *3906*.*11022*/ -/SFL12*/*17.5/IVD *P575303RI/ /S*FL24A/IVDP5753/O2RI/ +/IEC60129A2/*(*/[dat*1996*]/)*UES*-*K3*/*2/ /UEMC40K8U*/*1*/ */1* V/FJ220001R2/ -## 第九章 分词歧义消解细则 +/*SFL12*/*17.5*/IVD *P575303RI/ /S*FL24A/IVDP5753/O2RI/ -本章中的歧义切分实例是从微软亚洲研究院237万词训练语料、10万词测试语料和 +## 第九章 分词歧义消解细则 -20万词散页语料中抽取出来的。这些歧义字段可粗分为交集型歧义(OAS)和组合型歧义(CAS)两大类。交集型歧义又包含用正反向最大匹配(MM)算法侦查不到的所谓隐藏的CAS。下面就分别介绍不同歧义字段的消解规则。 +本章中的歧义切分实例是从微软亚洲研究院237万词训练语料、10万词测试语料和20万词散页语料中抽取出来的。这些歧义字段可粗分为交集型歧义(OAS)和组合型歧义(CAS)两大类。交集型歧义又包含用正反向最大匹配(MM)算法侦查不到的所谓隐藏的CAS。下面就分别介绍不同歧义字段的消解规则。 ### 9.1交集型歧义字段(OAS) @@ -2604,15 +2960,21 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 由于交集型歧义字段的例子太多,不便穷举,所以下面只列举少量实例供参考。 -(1)/矛头/所/指/正是/以/包/代/管/、/负/盈/不/负/亏/、/(2)/[L四川]/一/私营企业/家/向/下岗/女工/捐款/ +(1)/矛头/所/指/正是/以/包/代/管/、/负/盈/不/负/亏/、/ + +(2)/[L四川]/一/私营企业/家/向/下岗/女工/捐款/ (3)/柚木/购/进/后/市场价格/大/跌/,/ (4)/图/为/[O保险公司]/向/受灾/企业/赔/付/现场/ -(5)/地方政府/亟需/在/加强/压/锭/监管/力度/方面/下功夫/,/(6)/与/厂/内/存留/的/旧/纱/机/一并/销毁/。/ +(5)/地方政府/亟需/在/加强/压/锭/监管/力度/方面/下功夫/,/ + +(6)/与/厂/内/存留/的/旧/纱/机/一并/销毁/。/ -(7)经/请示/,/自行/将/本/厂/经/改造/的/应/压缩/设备(8)擅自/新/增/棉纺/生产能力/, +(7)经/请示/,/自行/将/本/厂/经/改造/的/应/压缩/设备 + +(8)擅自/新/增/棉纺/生产能力/, (9)/有人/钻/政策/空子/、/骗/财政补贴/。 @@ -2656,9 +3018,7 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 #### 9.1.2隐藏的交集型歧义字段 -隐藏的交集型歧义字段是指那些用正、反向最大匹配(MM)算法无法侦查到的交 - -集型歧义字段。 +隐藏的交集型歧义字段是指那些用正、反向最大匹配(MM)算法无法侦查到的交集型歧义字段。 注:以下例句中,双百分号右面为改正后的切分。 @@ -2766,33 +3126,33 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 /*一个个*/*观众*/ -/*一天天*/*暖和*/*起来*/ */*一套*/*特种*/*邮票*/ /*一次*/*讨论*/ +/*一天天*/*暖和*/*起来*/ -/一*/*匹*/*黄骠马*/ /*一*/*栋*/*栋*/*楼房*/ +/*一套*/*特种*/*邮票*/ -词表词一起、一道、一样、一手、一面、一口、一头、一气等既可以用作连词、副词、名词或形容词等,又可以切分开来成为数量短语。但像一套这样的词表词,除了数量短语的用法以外,不再有其它用法,因此不存在切分问题。词表词有一套是有本事的意思时,也不切分。这类词的切分问题只能逐个加以描述。 +/*一次*/*讨论*/ -##### 9.2.1.2动量词次与频率int的标注 +/*一*/*匹*/*黄骠马*/ -动量词中只有*次*被标注为频率*fre*,如*[fre*再次*]*、*[fre*数次*]*、*[fre*一次次*]*、*[fre*无数次*]*、*[fre*好几次*]*,而*遍、回、趟*不标注为频率,一*/*遍、一*/*回、一*/*趟、一次(词表词不切分)、一*/*遍*/*又*/*一*/*遍、一*/*回*/*又*/*一*/*回、一*/*趟*/*又*/*一*/*趟,一次*/*又*/*一次*也不标注为*fre*。这条规则的理由如下: +/*一*/*栋*/*栋*/*楼房*/ + +词表词一起、一道、一样、一手、一面、一口、一头、一气等既可以用作连词、副词、名词或形容词等,又可以切分开来成为数量短语。但像一套这样的词表词,除了数量短语的用法以外,不再有其它用法,因此不存在切分问题。词表词有一套是有本事的意思时,也不切分。这类词的切分问题只能逐个加以描述。 -(1)遍表达的是动作从开始到结束的全过程;次、回描写动作的重复;趟只用于表示行走意义的动词。去一趟*可以说成去一次*、*去一回,但*做一次*、*做一回*不能说成*做一趟*。 +##### 9.2.1.2动量词次与频率int的标注 -遍、次、回*有时可通用,如*你再唱一遍*,可以说成*你再唱一次或*你再唱一回*而意思不变。但单纯表示动作数量时,只用*次*,不用*遍*,如他表示了多次*、*敌人的三次进攻都被击退了。 +动量词中只有*次*被标注为频率*fre*,如[fre*再次*]*、*[fre*数次*]*、*[fre*一次次*]*、*[fre*无数次*]*、*[fre*好几次*]*,而*遍、回、趟*不标注为频率,一*/*遍、一*/*回、一*/*趟、一次(词表词不切分)、一*/*遍*/*又*/*一*/*遍、一*/*回*/*又*/*一*/*回、一*/*趟*/*又*/*一*/*趟,一次*/*又*/*一次*也不标注为*fre*。这条规则的理由如下: -次*与*回区别在于,*次既用于书面语又用于口语;*回*只用于口语。如*多次、数 +(1)遍表达的是动作从开始到结束的全过程;次、回描写动作的重复;趟只用于表示行走意义的动词。*去一趟*可以说成*去一次*、*去一回*,但*做一次*、*做一回*不能说成*做一趟*。 -次*等带文言色彩的短语,就不能说成*多回、数回*。 +*遍、次、回*有时可通用,如*你再唱一遍*,可以说成*你再唱一次*或*你再唱一回*而意思不变。但单纯表示动作数量时,只用*次*,不用*遍*,如*他表示了多次*、*敌人的三次进攻都被击退了*。 -(2)*这本书我看了一遍,是指从书的开头到末尾的全过程。*这本书我看了一次*,着 +*次*与*回*区别在于,*次*既用于书面语又用于口语;*回*只用于口语。如*多次、数次*等带文言色彩的短语,就不能说成*多回、数回*。 -重指看的次数,不指看的全过程。 +(2)*这本书我看了一遍*,是指从书的开头到末尾的全过程。*这本书我看了一次*,着重指看的次数,不指看的全过程。 ##### 9.2.1.3一(1)+物理单位元量词构成度量表达式 -当一(1)后面是长度、重量等物理单位元时应分别按度量表达式标注为*len*,*wei*,如**[*len* - -一米*]*、*[wei*1*公斤*]*(见8.10)。 +当一(1)后面是长度、重量等物理单位元时应分别按度量表达式标注为*len*,*wei*,如[*len*一米*]*、*[wei*1*公斤*](见8.10)。 #### 9.2.2CAS示例 @@ -2880,13 +3240,11 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 (13b)/[L法国]/报纸/刊/出/一/则/特写/, -(14)不见:是动词见的否定形式不切分。当它同前面的动词形成**V/*得*/*见、*V/*不*/*见*的 - -可能式动补结构时,要切分。类似的可能式动补结构还有**V/*得*/*下去*/*、*V/*不*/*下去*/*, +(14)不见:是动词见的否定形式不切分。当它同前面的动词形成V/*得*/*见*、*V/*不*/*见*的* -*V/*得*/*来*/*、*V/*不*/*来*,* *V/*得*/*起、*V/*不*/*起*,** V/*得*/*了*/*、*V/*不*/*了*/*,**V/*得*/*成*/*、*V/*不*/*成*/*, +可能式动补结构时,要切分。类似的可能式动补结构还有*V/*得*/*下去*/*、*V/*不*/*下去*/*, -长*/*得*/*大*/*、长*/*不*/*大*/*等。。 +*V/*得*/*来*/*、*V/*不*/*来*,* *V/*得*/*起、*V/*不*/*起*,** V/*得*/*了*/*、*V/*不*/*了*/*,*V/*得*/*成*/*、*V/*不*/*成*/*,*长*/*得*/*大*/*、长*/*不*/*大*/*等*。 (14a)/全/都是/"/不见/兔子/不/撒/鹰/"/。 @@ -2906,9 +3264,7 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 (16c)/时间/不/等/人/ -(17)不下:表示不少于时不切;作为动词下的否定式和可能式动补结构(见14),就 - -要切开。 +(17)不下:表示不少于时不切;作为动词下的否定式和可能式动补结构(见14),就要切开。 (17a)/每天/她/经手/的/业务/不下/[int百笔]/, @@ -2918,9 +3274,7 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 (17d)/[L俄罗斯]/整个/国家/开支/居/高/不/下/, -(18)不成:作动词、形容词和助词使用时不切分;当它作为可能式动补结构(见14)时, - -一律切开。 +(18)不成:作动词、形容词和助词使用时不切分;当它作为可能式动补结构(见14)时,一律切开。 (18a)/难道/自己/这/一辈子/就/这么/过/不成/? @@ -2930,9 +3284,7 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 (18d)/往往/是/有/点/而/形/不/成/网/, -(19)上下:用作动词时一律切开,如"上/下/火车";用作名词(包括并列意义)时则不 - -切,如"上下/两册"。 +(19)上下:用作动词时一律切开,如"上/下/火车";用作名词(包括并列意义)时则不切,如"上下/两册"。 (19a)/经过/上下/的/共同/努力/, @@ -2942,9 +3294,7 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 (20a)/有的/是/从前/在/队/中/当/板凳/球员/, -(20b)/导致/美元/对/马克/的/汇价/从/前/一/交易/日/的/[rat1比1·7766]/降/至/[rat1 - -比1·7762]/。 +(20b)/导致/美元/对/马克/的/汇价/从/前/一/交易/日/的/[rat1比1·7766]/降/至/[rat1比1·7762]/。 (20c)/从/前/不久/[L深圳]/一家/公司/大规模/地/恶意/抢/注/商标/案/, @@ -3026,9 +3376,7 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 (32b)/过去/村里/也是/上/路/打场/,/ -(33)得了:取助词用法时不切分;但作为动词+助词(了)和可能式动补结构(见14) - -时要切分。 +(33)得了:取助词用法时不切分;但作为动词+助词(了)和可能式动补结构(见14)时要切分。 (33a)/没/叫/到/你/的/时候/,/安心/等/着/就/得了/。 @@ -3046,9 +3394,7 @@ MET-2规定:如果没有表示钱款的单位,则不标。ER-99则不然。 (35a)作者/用/第一/人称/的/叙述/手法/, -(35b)据/用/过/的/人/称/,/打/国际/长途/如/从/[L北京]/到/[L美国]/,/每/分钟/只需/传统/ - -电话/费用/的/[fra1/4]/。 +(35b)据/用/过/的/人/称/,/打/国际/长途/如/从/[L北京]/到/[L美国]/,/每/分钟/只需/传统/电话/费用/的/[fra1/4]/。 (36)同行:用作名词时不切分,读作tonghang;用作动词时读作tongxing,一律切分。