新京报讯(记者 周怀宗)日前,南京农业大学黄水清教授团队推出的新版现代汉语通用语料库——新时代人民日报分词语料。黄水清教授介绍,新版“语料库”是对北京大学1998年1月人民日报语料库的弥补,此外,该语料库将对学界发布,供学术研讨用,而且后续还将不断弥补最新语料,以促进语料资源的敞开和同享。
新京报记者得悉,相对于20年前的语料库,新语料库呈现了许多改变,其间“乡愁”“村庄复兴”“扶贫”“精准扶贫”等呈现在人民日报上的频率大为添加,如“村庄复兴”在1998年1月全月中,呈现次数为0次,2018年1月,全月呈现次数为393次。
1998年、2015年、2016年、2017年、2018年1月份,四个词在《人民日报》悉数文章中呈现的频次。受访者供图
什么是“语料库”
何谓“语料库”?黄水清介绍,“语料库”是实在言语资料的聚集,“言语有许多种,口头言语、书面言语等。所谓实在言语,便是在实践中,实践有人说过、有人写过的词汇和语句。”
语料库并非简略搜集实在言语资料,黄水清说,“假如仅仅把一堆实在言语资料放在一同,那是没什么含义的。搜集之后,还要进行标示,所谓标示,便是依照不同的需求对相应的言语单位添加符号。比方标示名词、动词,比方把方言与普通话、中文与英文对应的阶段、语句、词汇对照起来。不同需求的使用者,可以精确的经过自己的需求寻觅适用的语料库。”
作为现代汉语通用语料,北京大学核算言语研讨所发布的“1998年人民日报语料”不管在学界和业界都有巨大的影响力。可是跟着时刻的推移,该语料库在词汇的时效性、齐备性和掩盖度上均有必要进行更新和弥补。“这也是咱们做这个新的语料库的初衷。这次发布的语料库,都是精标的。标示有两种方法,一种是机器标示,一种是人工标示。现在的技能条件下,人工标示的精准度要高于机器标示,所以人工标示也被称为精标”。
“语料库”是干什么的
搜集和收拾实践中使用过的实在言语资料,有什么用处?黄水清介绍说,“当时大多数都用在机器学习,当然也包含当时盛行的深度学习”。
“跟着人工智能的展开,机器学习的目标越来越重要。”黄水清说,“举例来说,像无人驾驭,抱负的办法是输入驾驭的操作方法、交规、地图等,它就能完成无人驾驭了,但现在技能还达不到,这样的情况下,就会挑选另一种技能计划,找一些优异的司机,让机器跟着人学。言语也是如此,抱负的战略,是给它输入语法、语义、语用,它就具有了言语了解和生成的才能,但相同做不到。这时候,根据实在言语的语料库,就有用处了,机器能从语料库中学到言语才能,相当于跟优异司机学驾驭才能。咱们挑选《人民日报》刊发的文章作为原始语料,一方面是因为《人民日报》的文章都是标准的现代汉语,思想内容与同时期的中央精神高度一致,另一方面也为了连续前人的效果,有利于展开持续性的研讨”。
据介绍,新版语料库已录入近年来共9个月的《人民日报》刊发的一切文章,悉数为人工标示精加工语料。
新版语料库有哪些改变
相对于1998年的语料库,新版语料库有哪些改变呢?
“咱们发现,20年前的语料和现在的语料仍是有一些显着的差异,有些东西改变很大。从总体上看,词语、语句都变长了。详细来看,有些词汇、语句的语境发生了改变。机器假如仍是依照20年前的语料库学习,很可能学的便是错的”,黄水清说。
记者注意到,和村庄相关的词汇,近年来呈现的频次大为添加。黄水清介绍,“跟着脱贫攻坚、村庄复兴等作业的推动,相应的概念渐渐的变多地呈现在干流媒体的言语中。咱们计算了1998年1月、2015年1月、2016年1月、2017年1月、2018年1月乡愁、村庄复兴、扶贫、精准扶贫几个词汇在人民日报中呈现的次数。在1998年,几个词汇呈现的次数分别是1次、0次、407次、0次。到2018年,几个词呈现的次数分别是44次、393次、1176次、137次。”
新京报记者 周怀宗
修改 张树婧 校正 李立军