大数据背景下BCC语料库的研制

来源 :语料库语言学 | 被引量 : 0次 | 上传用户:yigenjin2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“北京语言大学语料库中心(BLCU Corpus Center,简称BCC)”是以汉语为主、兼有其他语种的在线语料库。BCC总规模达数百亿字,是服务语言本体研究和语言应用研究的在线大数据系统。BCC检索式由字、词和语法标记等单元组成,并且支持通配符和离合查询。本文将概述BCC的总体情况,包括语料库建设情况和检索引擎开发等,重点介绍BCC形式化检索语言和在线系统的使用方法。 “BLCU Corpus Center (BCC) ” is an online corpus mainly in Chinese with other languages. BCC, with a total size of tens of billions of words, is an online big data system for service language ontology research and language application research. BCC search by words, words and grammar markers and other units, and support for wildcards and clutch queries. This article will outline the general situation of BCC, including corpus construction and search engine development, with emphasis on the use of BCC formal search language and online systems.
其他文献
目的探讨丹红注射液联合磺达肝癸钠治疗肺栓塞的临床效果。方法选取2015年1月—2017年12月延安市人民医院收治的肺栓塞患者98例,随机分成对照组(49例)和治疗组(49例)。对照组皮下