国家“语料库”全解析

来源 :瞭望东方周刊 | 被引量 : 0次 | 上传用户:kaiping56
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  “国家语委前排的二层小楼简直就成了军事基地,谁都不能随便进入,录入工作是由解放军二炮某部完成的。录入进来的字词,又人工校对了7遍。”
  2012年7月25日,国家语言资源监测与研究中心平面媒体分中心、北京语言大学、中国新闻技术工作者联合会、中国中文信息学会联合发布“2012年春夏季中国报纸流行语”。“神舟九号”位居综合类流行语第一,其他进入前十的流行语是:明胶、黄岩岛、伦敦奥运会、穆巴拉克、小微企业、欧洲杯、学雷锋、农业科技和舌尖上的中国。
  2005年,教育部语言文字信息管理司和国内一些高校联合建设了国家语言资源监测与研究中心,上述平面媒体分中心的主要任务是建设平面媒体动态流通语料库,自2001年开始,每年根据“发行量、发行地域、发行周期、媒体价值、阅读率”等因素,选择15种网络版报纸内容作为语料库的采集源,目前已形成了近30亿字的“国家语言资源监测语料库”。
  利用监测语料库,国家语言资源监测与研究中心从2005年开始发布中国语言生活状况报告、年度流行语和年度新词。
  “上述工作就是在网络上搜集上亿字的资源,分领域抓文本,看词语集,做交集,按时间段跟踪,测算词语使用频率并解释其背后的经济社会文化背景。”原教育部语言文字应用研究所副所长、国家语委语言文字规范标准测查认证中心主任靳光瑾告诉《瞭望东方周刊》。
  “我们这个时代已经进入到语料库时代,也就是用电子形式保存的真实语言材料将作为对一个时代的记录而被保存。”北京语言大学党委书记、原教育部语言文字信息管理司司长李宇明在接受《瞭望东方周刊》采访时,总结说。
  国家语料库依据什么来选择语言原材料,它又究竟为我们的时代保存了些什么?改革开放后的语料占50%
  “监测语料库是动态的,其基础来自‘现代汉语平衡语料库’,两个语料库的研究重点不一样。”教育部语言文字应用研究所计算语言学研究室主任肖航告诉《瞭望东方周刊》,奠定我国语料库基本模式的是由国家语言文字工作委员会牵头、上世纪90年代初开始研发、历时十年、反映中国20世纪现代汉语整体发展情况的现代汉语平衡语料库。
  世界上第一个标准语料库是1961年建立的美国Brown语料库,随着各国对语言作为一种国家资源的认识的深化,各国政府和学术机构都开始投资建设大型语料库。1980年到1993年,欧美国家建设有超过50个语料库并投入使用。
  上世纪90年代初期,随着计算机技术在中国兴起,国家语委于1992年12月提出建设现代汉语语料库项目。
  “语言的边界非常大,不断新陈代谢,很难把握它,这样大的整体怎么去调查分析。”肖航介绍说,国家语委最后决定按照国际标准采用小样本抽样的方法来建语料库,“小样本,大样本量,尽可能多地搜集原材料,单一来源则不能太多”。
  1992年4月,国家语委召开现代汉语语料库选材原则专家论证会,1993年1月制订出选材原则。“因为要反映中国现代汉语的全貌,在选材上就要注重平衡性原则。抽样要注意文体、时间和地区三个方面的平衡性。”李宇明说。
  “在语料的选择上,要有别于专业性、地域性和纯口语性。尽可能提高所选语料在采字、采词和采义等方面的广度。”肖航说。
  在语料的选材分类上,专家组最终定了3大分类:人文与社会科学类、自然科学类和综合类,占比分别是50%、30%和20%,每一大类下又分了若干小类,样本一共分布在37类里。这37类并不是一成不变的,进入21世纪后,信息技术和电子科技的研究成为后起之秀,37种分类也为这些新出现的科目做出调整,自然科学类调整较大,增加了信息技术等方面的分类。
  从时间看,语料库将自1919年开始的现代汉语划分为5个阶段:1919~1925年,五四时期的白话文仍留有文言痕迹,这部分样本只占总体的5%;1926年~1949年,白话文逐步脱离文言痕迹,现代汉语逐渐成熟,样本约占15%;1950年~1965年,新中国的成立给社会生活带来巨大变化,新词新语大量涌现,这时期的样本约占25%;1966年~1976年,“文革”时期的许多词语仅作为历史词语存在于现代汉语中,特殊时期的样本量很小,只占5%;语料库大部分的样本量来自1977年以后,改革开放后,现代汉语有了新发展,这一时期的样本量占到总体的50%。
  保持样本平衡性
  从来源看,语言材料多选用政论性文章、新闻报道、各类文学艺术作品、科普读物、通俗读物、学术专论及各种应用文语体等现代汉语作品。样本容量2000字,上下允许有500字的浮动。书籍的抽样数量一般占全书字数的3%~5%,字数最多不超过10000字;报纸采用整版选用的方式,为了避免重复,不同报纸选用不同月份;刊物所选字数不超过5000字。
  对于2000字的样本容量,肖航解释说:“首先是因为同一个来源的样本不要太多的原则,希望样本选材来源更广泛;第二,国际上一般规定采集样本不能超过原材料内容的3%~5%,否则会构成侵犯版权。”
  据肖航介绍,文学作品采样采用掐头去尾的方法来保持样本的平衡性,“掐头去尾会破坏文本的流畅性,但字词语法的采样不受影响。文学层面的不通顺跟语料库研究意图不冲突”。
  按照选材原则,国家语委将抽样任务下发给北京语言大学、北京师范大学、中国人民大学等高校,从国家图书馆和高校图书馆一共抽取了4万多个样本,而这4万多个样本里,同样一本文学作品可能还有3-5个版本。
  “一共找了多少本书可想而知。国际上对语料库的两大要求——大规模和真实性,在现代汉语平衡语料库上体现得十分明显。”肖航说。
  在坚持语料分布的平衡性原则上,曾经参与了选材原则专家论证会的国家语委咨询委员会委员、教育部语言文字应用研究所研究员李行健深有体会。
  “比如,鲁迅这样一个大家,他的作品是现代汉语,但有很多文言的成分夹杂在里面,比较古奥,因此根据平衡性原则,语料库要有来自鲁迅作品的语料,但不宜过多。”李行健告诉《瞭望东方周刊》,“诗歌就不能当做一般的语料,因为这种文体太宽泛灵活,如果用诗歌体做样本,会不符合研究现代汉语语法的原则。”   “神马”为什么没收入
  按照平衡性原则采集回来的4万多个样本被称为“生语料库”,将其录入进计算机进行加工也是一项大规模的工作。
  靳光瑾回忆说:“那个时候做语料库真是倾全国之力。国家投入200万元,采样后没有经过加工的生语料库要一个字一个字地录入计算机。国家语委前排的二层小楼简直就成了军事基地,谁都不能随便进入,录入工作是由解放军二炮某部完成的。录入进来的字词,又人工校对了7遍。”
  1998年底,7000万字的生语料库建成。
  李宇明将生语料库的真实性特点概括为“有见必录”,“样本原文中的错别字也得收入,然后做上标记。生语料库反映现代汉语用词和语法的情况都没有问题,但是它的用字情况并不能很好地反映真实面貌。”
  由于上世纪末我国的计算机字库水平有限,仅有的6000多个字在收录现代汉语方面远远不够,所以在录入时会把繁体字、异体字改换成相应的简体字、正体字,有时还需要造字。
  “生语料库”必须进一步加工成“熟语料库”,才能发挥作用。国家语委遵循国外信息处理领域通用的语料库加工方式,标注分词和词性,制定了《信息处理用词类标记集规范》,以机助人校的方式加工,最后得出可供使用的5000万字标注语料。
  据肖航介绍,2000年以后每年保持增加300万字的速度更新语料,然后进行整体校对,目前在使用的语料库校对数据仅更新到2003年。“2004年以后语料库在新的环境下该怎么做,方向选择上产生了摇摆。”
  “原来报刊是语言文字的最主要载体,现在都有了电子版本,有些语料甚至没有印刷版,技术手段升级,语料选材可以做得更大,但2003年之后的语料采集量我们不敢加太多,加太多就压掉了之前的语料比例,语料比例一旦轻易改变,平衡性就会受到影响。”肖航说。
  而靳光瑾认为,现代汉语平衡语料库应该呈现一种动态更新的平衡。
  “每年应该有15%的新陈代谢,有新旧替换才能反映语言的发展,体现出语言的与时俱进,又不影响原来的词频和使用情况。”靳光瑾说。
  21世纪特别是近几年出现的网络语言,也在现代汉语平衡语料库的收入范围,但在语言整体里并不占很大比例。“网络语言是小群体语言,跟语言普通的面貌不太一样,虽然比较刺激眼球,实际上占语言整体总量比例并不大。”肖航说,语料库会从博客、微博和论坛里采集语料资源,但网络语言仅作为现代汉语整体情况的一个补充,不是重要组成部分。
  《现代汉语词典》第六版的修订也利用了语料库查询词频。至于“神马”这类网络通用词语为何未被收入,李宇明解释说:“词典编纂要考虑定量分析,因为它在整个语料库里的词频还没达到一定分量,在平面媒体、严肃媒体用得较少,没进入到我们民族的共同语言当中去,所以没有收入。”
  从语料库看词语的生命力
  为词典编纂和制定语言文字规范和标准服务,是现代汉语平衡语料库的主要用途之
  李行健是《现代汉语规范词典》的主编,他告诉本刊记者:“词典收什么词,如何选择,要用语料库先搞出一个词表,再进行人工干预。语义和注释都要用语料库的资源。”
  语料库建设完成后,其价值的充分体现,还要看对这个庞大的语言仓库如何进行人工干预。
  “语言就是记录生活的,每个词语都有一段故事,通过语料库可以研究社会的现状与发展趋势。”李宇明说,“比如‘农民工’,在语料库里搜索这个词语就能看到它出现的时间,通过词频曲线图就可以分析它在什么时期特别受到关注。”
  肖航向本刊记者展示了“改革开放”和“市场经济”两个词汇的词频曲线图。截取现代汉语平衡语料库中1976年到2005年的《人民日报》等主要报纸上两个词汇的语料,按照每一万字出现的词语个数频率做成了曲线图。
  从曲线图上可以看到,1976~1986年间,两个词语的词频在起步阶段。“改革开放”从1985年出现在《人民日报》上,1986年开始呈明显上升趋势,而“市场经济”曲线仍旧平缓,直到1992年两个词语的词频猛然上升,最高峰时“改革开放”在主要报纸上每万字中就出现了3.7767次。
  肖航解释了词频变化的两个原因:“一是词汇所代表的话题本身的活跃性对词频分布造成决定性的影响;二是报纸内容中心的变化、报纸内容范围扩展也会对词频分布造成大的影响。例如,报纸内容范围扩大,某一领域所占的比例自然降低,领域词汇所占的比例也就相应下降。”
  “通过语料库研究社会语言的变化,可以看出词语是有生命的。有的词语在解放前死了,解放后又活了,而活了的意义可能会不一样。很多新词新语,字还是那个字,意思却变了。比如盖帽子的‘盖’,作为字古已有之,但‘盖帽子’的意思却是‘文革’时出现的。”靳光瑾说。
  类似的例子还有许多称呼用词,改革开放初期,年轻女子都愿意被称作小姐,而当下小姐这个词又被社会默认为与性从业人员发生了关联。肖航说:“而和‘小姐’同一时期的‘公子’则一直没有回到生活中,一个原因是因为其他词语能够代替表达它的意思。”
  相对于现代汉语平衡语料库,功能是监测当下语言生活的“监测语料库”采用更鲜活的抽样原则,这个库里的词语“活在当下”。以检测语料库为基础的中国语言生活状况报告,除了年度流行语、年度新词等已经公布的信息以外,还向有关部门提供了诸如人名表、地名表、省市排行榜、单位排行榜、科技排行榜等参考资料。
  “语料库对于中国的各个部门了解中国语言的现状,是个可持续的开发资源。”李宇明说。
  用方言做军事密码
  “某些国家的军事组织随时都在监测全世界的网络语言,哪个国家的哪些词汇使用频率一旦猛增,他们就会分析并预测这个国家发生了哪种状况。例如,2006年化妆品品牌SK-Ⅱ在网络的使用词频猛增,不久后,SK-Ⅱ化妆品检测出铬和钕的新闻使得其暂时退出中国市场。”靳光瑾举例说。
  “我们的监测语料库目前也承担了网络舆情分析的功能,”李宇明说,“语料库的发展,对网络安全是很重要的,网络安全涉及金融、军事和信息战略安全。中国要壮大自己的网络力量,没有语料库是不可能的。”
  “但我国现在的语料库发展水平还不够,计算机处理语言的能力还不够,目前所用的‘关键词技术’是一种比较落后的技术,把很多有用的信息都堵掉了。帮助计算机正确理解语言,自动进行语料知识挖掘,提高自动翻译水平,才能提高国家信息化的能力。”李宇明说,“发达国家虽然掌握了语料库的核心技术,但我们有我们的优越性,那就是汉语和中国其他少数民族语言的独特性。我们自己研发了录入汉字和少数民族文字的技术,外国人搞不懂。”
  靳光瑾指出,进入21世纪,互联网上的海量文本一方面为语言处理提供了巨大需求,一方面又提供了语言处理的真实训练和测试数据。我国自上世纪90年代初就开始进行中文分词的研究工作,但至今还未开发出一个像日语分词系统那样被广为接受的分词标注系统。
  “在计算机语言处理技术层面,语料库的词性标注工作能起到训练机器学习自动标注的作用。”靳光瑾说。
  语料库不仅能在文本上助力信息技术的提升,国家语委在2008年启动建设的“中国语言资源有声数据库”还可以利用声音在保卫国家安全方面发力。
  有声数据库采集的是中国各少数民族语言及方言的有声资料,在进行科学的整理和加工后,除了发挥保护中华各民族语言文化遗产的功能外,还可用作军事密码,有利于国家安全。
  李宇明说:“电影《风语者》中,美国人在二战的时候用印第安语做军事密码,日本人怎么都破译不了。当年在战场上,我们国家也曾用温州话做过密码。未来计算机破解密码的能力非常强大,保密要求越来越高。我国有这么多民族语言和方言,通过分析和加工,可以成为保卫国家安全的工具,也可为公安系统破案提供帮助,犯罪嫌疑人的声音或用语在语料库和有声数据库里一对比就能缩小搜索范围,特别是在反恐缉毒这些领域会很有帮助。”
其他文献
在仰光以南的达威区,缅甸局势最为平静的地方,未来特区的落脚地,无国界医生的辅导员昂亨莫每天在黎明时分就开始工作。作为全球最大的独立国际医疗人道救援组织之一,“无国界医生”在此设立了一座艾滋病治疗诊所。除提供治疗外,这里还有4名辅导员定期外出跟踪300名病人的治疗进展。  昂亨莫的工作就是前往达威区和附近土瓦河的村落。这大约是最为典型的农业社会景象- - -晨雾中,他可以通过车窗看到在棕榈树间和稻田
有人说,购物是女人的天性。这话不假,我就是个完完全全的购物狂。  一般来说,购物狂大多是“月光族”。但我却不是,事实上,虽然我热衷于购物,但我在购物中理财的本事,却深得周围人的称赞。  所谓购物中理财,必须有两大要点:  第一,是理智购物,不管是生活必需品还是奢侈品,我只在自己的经济承受范围内出手,且早早地做好计划,避免冲动购物。  第二,是懂得选择购物的时机和地点。  后者,正是购物中理财的关键
2012年5月20日,一个普通的星期日,早上9点半位于打浦路的海丽花园小区内照常传来阵阵愉快的歌声。唱的是赞美诗,节奏明快,歌声中透出东南亚人特有的欢快情绪。这是一群在上海生活的菲律宾人,每个星期日早上在海丽花园的礼拜仪式已经持续了两年多了。  海丽花园的保安告诉《望东方周刊》,小区会所租用给他们的价格是500元一次,参加礼拜的人很友善,赞美诗的歌声在早晨响起,小区居民已经十分习惯。  我最喜欢的
这是一个“DIY”的时代。人们在家里自酿葡萄酒、自制泡菜、自己织毛衣,甚至自己动手改装汽车、造飞机……  没什么事情是“专利品”,必须由一些人做而旁人做不来。只要敢想,这就是一个可以“自造生活”的时代。你可以像个导演一样拍电影,像个摄影师似的摆弄镜头,还可以走进录音棚灌张唱片,甚至在家里摆上一幅自己画的油画……  “水仙门”的电影  “这几年被大家热议的电影《不可能说的秘密》、《明明》、《吸血鬼日
作为“社会企业”,我遇到的另一个独特困难是,如何在没有任何广告宣传费用的情况下增加“香格里拉农场”的认知度  我念完大学以后,就开始在“香格里拉农场”担任总经理一职。这是公司里最具挑战性的一个职位,我需要不断迅速地开发流通和销售渠道、寻找生意伙伴和采购途径,特别累。  作为“社会企业”,我遇到的另一个独特困难是,如何在没有任何广告宣传费用的情况下增加“香格里拉农场”的认知度。我不得不费尽心思想出各
韩日两国之间有一片岛屿,韩国称为独岛,日本称为竹岛,总面积只有约20万平方米。然而这片小岛在韩日关系中的地位,犹如中日之间的钓鱼岛。数十年来,它实际被韩国牢牢控制,但双方都声称对此岛拥有主权,为此争端不断。  最近,此岛之争又进入新一轮的紧张态势。据报道,韩国外交通商部东北亚局局长张元三4月6日召见日本驻韩大使馆总括公使高桥礼一郎,抗议日本政府在2010年版《外交蓝皮书》中把日韩两国均声称拥有主权
大同因“造城运动”走红全国,同样也受其所累。  2008年,大同强力推行耗资上百亿元的古城保护工程。耿彦波提出“一轴双城,新旧得利”的大格局。按照耿彦波的构想:古城实行整体保护,耗资10亿元的城墙修复工程在5年内全面完成,2012年底,大同古城全面合龙……古城内所有现代建筑都将搬迁出去,以恢复传统的城市格局;古城以东建设未来的市中心御东新城;两城间以御河为轴。西边传统,东边现代,两相呼应。  20
还是先从1860年说起吧。  那一年,一个叫戈登的英国人,指挥英法联军,一把火烧掉了圆明园,也给中国近代史烙下一块疮疤。是谁烧掉了圆明园,在中学历史考试中,经常会成为一道试题。  后来,这个被载入中国历史书的戈登,又带领侵略军打到了非洲的苏丹。只不过这一次他没那么幸运,在苏丹的反抗运动中,戈登被苏丹民众用长矛戳死在总督府的走廊里。  来到苏丹的中国人,大都会被带到戈登被戳死的地方参观。苏丹朋友也会
日上三竿,百叶窗在户外强光的照射下缓缓关闭。夜幕降临,随着最后一位留守职员的脚步声消失在走廊尽头,办公室的灯光很快自动熄灭。  这不是科幻电影中的镜头,而是西门子上海中心职员习以为常的工作场景。作为全球最大的环保技术供应商,西门子的绿色楼宇科技首先应用于自家的办公大楼。与国内同等规模的楼宇相比,西门子上海中心节能30%,每年可减少二氧化碳排放1400吨,赢得了美国绿色建筑委员会颁发的LEED金奖认
我们与一些中国的资深人士聊过我们的计划和困境,他们都表示,中国目前的情况还不适合这样的企业发展。  我全家跟云南香格里拉的缘分始于2005年。当时,我母亲在香格里拉成立了一个基金会,帮助当地人保护文化传统,并为孩子提供更好的受教育机会。  随后,我和我的两个姐姐决定创立一家“社会企业”——“香格里拉农场”(Shangrila Farms)。 所谓“社会企业”, 是指并非完全以营利、更多是为了社会责