《大数据百科全书》术语特点及收录与处理原则

来源 :中国科技术语 | 被引量 : 0次 | 上传用户:zm850311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:大数据发展日新月异,新的应用需求和实践问题层出不穷,社会各界越来越重视大数据的基础研究。百科全书作为知识门类的概述性著作,是开展和推动基础研究的重要载体。作为大数据知识传播的工具,《大数据百科全书》不仅要有实用与新颖兼备的知识内容,并且还应具备准确严谨与通畅易懂的专业化语言文字表达。其中,术语是《大数据百科全书》不可或缺的有机组成部分,文章总结大数据领域的术语特点,并以此提出《大数据百科全书》术语方面的收录和处理原则。
  关键词:大数据;百科全书;术语
  中图分类号:N04;TP39;H059文献标识码:A DOI:10.3969/j.issn.1673-8578.2019.02.011
  Features, Collection and Treatment Principles of Terminology in the Big Data Encyclopedia//Key Laboratory of Big Data Strategy, Beijing Key Laboratory for Big-Data based Urban Science Research
  Abstract: The big data development is changing with each passing day. New demands in application and practical issues emerge in endlessly, and all sectors of the society pay an increasing attention to the basic research on big data. The Big Data Encyclopedia is a vital carrier to implement and accelerate such basic research for its knowledge category classification and overview explanation. In addition, the Big Data Encyclopedia is a tool to spread big data knowledge, so its content should be practical and novel, and its expression should be professional, accurate and precise. Considering terminology is an indispensable organic component in the Big Data Encyclopedia, we discussed features of terminology in big data fields, and proposed collection and treatment principles.
  Keywords:big data; encyclopedia; terminology
  2017年5月,中国大数据领域第一部专业百科全书——《大数据百科全书》正式启动编纂工作,该书将由大数据战略重点实验室负责研究编纂,并经全国科学技术名词审定委员会(以下简称“名词委”)审定发布。该書将在科学方法论的指导下,以历史和发展的眼光,对大数据知识体系进行全面梳理,覆盖大数据理论、大数据战略、大数据技术、数字经济、数字金融、数据治理、数据安全、数权法、大数据史九个方面,并以专业规范的百科全书语言的形式编纂成书,以期推动大数据领域的知识传播和普及,并为深入研究大数据提供基础性研究素材。
  《大数据百科全书》以大数据领域内的丰富知识为主体,包括大数据领域的基本理论、重要事件、基本事实、基本概念、重要流派、重要机构组织、重要著作和出版物、重要人物、重要政策文本等内容。术语作为概念、理论的语言指称,是《大数据百科全书》不可或缺的有机组成部分和研究重点,主要分布在百科全书的立目用词和释文用语。
  一 术语是《大数据百科全书》的有机组成部分
  1.术语是大数据领域主要的专业用语
  随着大数据的飞速发展,相关知识体系逐步完善,其领域词汇越来越丰富,相关术语所占的比重越来越大。术语是特定领域学科中的专门用语,是构建学科体系的基本元素。根据词汇使用范围的不同,德国学者希尔默(A.Schirmer)将其分成通用词和专业词汇,专业词汇由术语、专名①、行业用语等词汇单位组成,其中术语是基本的专业词汇单位[1]。与专名相比,术语称谓的普通概念更具概括性,可以指称客观世界的一类客体,而专名往往处于概念体系的最底层,指称客观世界的唯一客体,包括人名、机构名等等。同时,术语与专名具有相通性,在某些情况下可以互相转化。如“ENIAC”(Electronic Numerical Integrator and Computer),最初是指1946 年的第一台电子计算机,属于专名,但由其发展而来的“电子计算机”已经成为计算机科学术语。与行业用语相比,术语和行业用语虽都用于专业领域,且称谓某个专门的概念,但术语更具规范性,而行业用语中常用具有俚俗色彩的口头语,修辞色彩更强。如计算机领域从事软件开发的工作人员也常常自嘲为“码农”。
  2.术语是《大数据百科全书》的重要研究内容
  术语不仅仅是专业领域内的语言交流的工具,还是对学科知识的凝练和浓缩,是科学理论的组成部分。术语既是语言单位,又是科学知识单位,术语符号与该知识领域的概念系统中的概念相互对应,它不仅是对专业领域内理论概念的语言指称,还是对在认知过程中出现并完善的专业概念的形式化。它能够概括、增加和传递科学知识,反映某一认知领域的发展阶段和程度[2]。《大数据百科全书》在全面梳理大数据领域的基础理论、知识门类与发展实践的过程中,必然要对其领域的相关术语进行研究探索。以大数据领域概念为基础的术语系统,是归纳概括领域知识的符号系统,在一定程度上体现了人们对大数据的知识系统的认识,也是《大数据百科全书》框架体系的重要参考依据。   3.术语符合《大数据百科全书》的语言要求
  术语是科学语言,其科学性、简明性以及中立性等特性与百科全书的语言要求相符,使得术语成为《大数据百科全书》的重要用语。首先,术语的科学性要求术语要与所称谓的概念一致,准确传递概念内容。其次,术语的简明性要求术语简明扼要,易读易记,术语一般不宜过长。各语言中超过7个字(或词)的术语短语数量有限。冗长术语在使用时往往会被简化,从而构成缩略形式。如“笔记本”(笔记本式计算机)、“微机”(微型计算机)等。最后,术语的修辞中立性是指术语不带有修辞色彩、主观情态性和其他表现力因素。在构词时,避免使用方言或俗语词汇[2]。这与百科全书准确、平实、简明的用词特征相符。《大数据百科全书》要为相关读者释疑解惑,就必须具备真实、准确、科学的大数据知识或信息。这不仅要求其内容是大数据领域的客观真理或规律,符合客观实际,经得起推敲和逻辑推理;同时,作为内容载体的文本语言力求严谨显真,客观准确反映表达的内容。这就要求其用词表意准确,选用恰当、最能反映事物或现象真谛和精髓的词语入文,忠实地表达概念,多选择具有科技语体色彩并且表意准确的书面用语,避免使用口语化或存在歧义的日常用语[3]。
  二 大数据术语特点
  《大数据百科全书》作为大数据领域的专业百科全书,应尽可能体现所有或者至少大多数大数据领域的专业词汇单位。因此,《大数据百科全书》术语的范围以大数据术语为主,此外《大数据百科全书》还包括一部分相邻领域的相关术语。同时,大数据领域术语的一般规律和基本原则决定了《大数据百科全书》的术语特点,并深刻影响着《大数据百科全书》术语的收录和处理。
  1.前沿性
  大数据作为近年出现的新兴领域,相关新事物、新概念、新技术层出不穷,大数据领域术语更具有鲜明的时代性。大数据领域知识相比其他传统学科更为年轻,该领域大部分科技术语较其他学科术语发展历程较短。相关的概念作为新概念的期限一般不长,很快就进入使用阶段。它们既是在某一段时期内科学技术领域的研究热点,也是社会大众关注焦点的科技名词。“大数据”一词首次使用于1997年,20世纪末到21世纪初期,逐渐为学术界的研究者所关注。直到2014年,“大数据”作为我国科技新词②之一,由全国科学技术名词审定委员会正式对外发布试用。同时,大数据领域的新词数量多,发展快,很多术语尚未形成共识和规范,这为大数据领域的术语整理提出挑战。
  2.跨学科性
  大数据术语的跨学科性来源于大数据领域多学科交叉发展的特点。大数据与多门学科都有紧密联系,其理论基础来自多个不同的学科领域,包括计算机科学、统计学、信息科学等,其知识系统本身具有极高的复杂交叉性[4]。大数据领域固有术语③较少,大数据领域部分基础词汇来源于相邻学科的术语混合,也存在受其他学科影响而获得新义的术语。根据国家标准《GB∕T 35295—2017 信息技术 大数据 术语》,大数据术语中包含“数据、数据处理、数据管理、关系模型、关系数据库”等与信息技术密切相关的通用术语。大数据术语的跨学科性对整理术语及术语集界限的确定造成了一定的困难。
  3.融合性
  随着大数据与经济社会各领域进一步融合发展,大数据应用也向各细分领域延伸拓展,其领域词汇也逐渐扩展到各细分的应用领域,并在相互作用时产生术语的混合体。2017年5月,名词委联合大数据战略重点实验室首次对外发布块数据、主权区块链、秩序互联网、激活数据学、5G社会、数据铁笼、数权法等大数据十大新名词。这些新词不仅反映大数据的创新与发展,更是大数据在各个领域融合应用的结果。融合术语集有的模糊不清,有的基本术语完全保留了原义,有的略有修改,有的经过专业化后完全改变了原义,因其成分不纯,这些术语界線的确定和系统化显得更为复杂[5]。
  三 《大数据百科全书》的术语收录和使用原则
  新闻出版总署等多部门曾明确发文要求“各编辑出版单位今后出版的有关书刊、文献、资料,要求使用公布的名词。特别是各种工具书,应把是否使用已公布的规范名词作为衡量该书质量的标准之一”。大数据作为新兴学科领域,相关术语规范标准尚未完善,部分大数据术语的规范和选择还处于过程阶段。《大数据百科全书》作为大数据知识传播的重要载体,理应在整理、规范大数据术语方面承担更大的责任,发挥更大的作用。
  1.适量使用术语,在保证科学性的基础上注意通俗性
  《大数据百科全书》的读者对象主要是政府的政策制定与执行部门、研究机构、企事业单位中从事大数据相关研究和应用的人士。其中,既包括大数据领域的专业人士,也包括其他大数据领域的相关人士,受众范围相对宽泛。由于个人专业水平和文化素质等因素的影响,这些受众对大数据的专业认知存在差异。为尽可能满足每一位读者的需要,《大数据百科全书》的语言运用要处理好通俗化的问题,总体控制相关术语的收录数量、释义篇幅、使用范畴,尽可能避免使用艰深晦涩的专业术语,使得其知识的纵深适合。具体注意事项有以下几点:一是释义时仅在必要的情况下使用术语,在可以不用术语时,要选用大众熟知的表达方式;二是在使用过于艰深羞涩的术语时需对术语做出解释和说明;三是根据语言经济原则,要尽可能避免术语套术语,忌循环使用术语解释术语。
  2.谨慎对待科技新词,避免使用争议词
  人们对大数据领域的认识有一个逐渐清晰的过程。在大数据相关概念产生和构建的过程中,部分词汇的内涵有可能不够明确,概念不够稳定,学界对其认识也有个过程,在此过程中出现了大量科技新词。随着时间的推移,有的科技新词逐步稳定,进入成熟的概念体系,而有的科技新词会被更为规范的术语代替。
  作为一部规范性的权威辞书,《大数据百科全书》具有可信的精确性、时代性以及相对的稳定性的特点,其科技新词和争议词的处理是积极但又比较谨慎的。对于这部分词语收录的意义不仅在于对其进行实录和保留,更重要的是对其定型、规范释义和传播指导。一方面,《大数据百科全书》的科技新词收录标准是严格的,态度是慎重的。词的理据④上,要求名词合理,符合汉语的构词规律,排除和限制不规范的词语;词的使用上,要求收录具有生命力⑤和普遍性⑥的词语。一些偶发词⑦依赖于既有词和特定语境,且复用率极低,其意义也是临时性的,这类词应当避免。另一方面,有些问题虽未最终稳定下来,或者说尚未“盖棺定论”,但已形成人们熟知的话题,形成稳定下来的问题,也具有收录的意义。诸如类术语、准术语、伪术语这类专业词汇(见表1),它们是大数据术语发展过程的产物,是大数据领域概念的唯一称谓,对于那些能够反映重要研究成果、对大数据发展影响重大的关键性代表性的词汇,在经过认真筛选和审慎取舍后,应当和术语一同收入《大数据百科全书》条目表中,但在释义中一般不推荐使用。对于这些专业词汇的规范需要极为谨慎,以避免误导读者。   3.科学选择术语,规范术语使用
  对于经过时间沉淀或已形成共识的术语,我们须以科学术语规范意识为引领,积极学习大数据相关的国家术语标准,关注名词委的新词发布,及时了解学界术语发展,不用已被淘汰的旧名称或概念的非推荐名,如“3D打印”(以后应使用“三维打印”)。
  在具体术语收录时,综合考虑以下因素进行取舍:术语的重要性、使用频率、主体所属、系统性、术语的构成能力、术语集收词是否全面、时间因素和搭配特点等。对于已有规范的多领域交叉术语,不同學科术语标准参差不齐。大数据领域具有跨学科交叉的特点,其基础学科相应术语的规范形成的时间不同,规范制定的专家和出发点不同,形成的标准也不尽相同。同时,同一个术语,由于使用的地域不同,术语常常发生分歧。例如,“程序”这个术语,美国为program,英国则为programme。在中文术语中,由于我国台湾地区特殊的地理、历史和政治因素的影响,许多术语与大陆不同。如海峡两岸计算机科技术语中,两岸不一致的约占40%以上[6]。对于以上情况,有两个最基本的原则:一是遵循服从主学科的原则,即在以大数据为核心内容的前提下,筛选术语;二是择善而从,考虑术语出现的时间先后,以及目前的使用频率。同时,未选择的术语的缘由应做相应的交代。
  注释
  ① 专名即专有名词。
  ② 科技新词指称的是科技领域中近年出现的新概念,是新理论、新技术、新物质等的名词。
  ③ 固有术语指本语言中早已存在或已构成的术语。
  ④ 词的理据是指用某个词称呼某事物的理由和依据。
  ⑤ 新词的生命力是指经过时间的考验,这个词是否能流传并稳定下来。
  ⑥ 普遍性是指该词是否能推广并被大多数人共同理解。
  ⑦ 偶发词是指为了某种修辞目的而临时造出来的一种词流,又可称为翻造词语或自铸新词。
  参考文献
  [1]叶其松.术语学核心术语研究[D].哈尔滨:黑龙江大学博士论文,2010.
  [2]刘青.中国术语学概论[M].北京:商务印书馆,2015.
  [3]袁晖,李熙宗.汉语语体概论[M].北京:商务印书馆,2005.
  [4]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012(6):647-657.
  [5]格里尼奥夫.术语学[M].郑述谱,吴丽坤,孟令霞,译.北京:商务印书馆,2011.
  [6]张蕾,代晓明.交流两岸名词术语,促进科学文化繁荣:就海峡两岸科技名词交流对照工作访全国人大常委会副委员长、中国科学院院长、全国科学技术名词审定委员会主任路甬祥院士[J].中国科技术语,2009(4):5-7.
其他文献
【摘要】莺莺的悲剧是时代的悲剧。抛弃他的是薄幸子张生,而张生却是封建制度的产物。处于统治地位的礼教力量,统治阶级所宣扬的功名利禄思想,摧毁了张生一缕脆弱的情丝,也吞噬了莺莺这个纯洁少女的爱情。莺莺的悲剧结局,正是当时社会现实的反映。  【关键词】崔莺莺悲剧根源  自从元稹塑造了崔莺莺这样一个血肉丰满极富魅力的形象,向人们表明:人的世界,感情的世界,是一个丰富复杂的世界,一个美丽、充满诗意的世界后,
教研组作为学校最基层的研究团队,在青年语文教学风格的形成中起到很大的作用.具体表现在:在青年教师成长良好氛围的营造上发挥作用,在价值引领上发挥作用,在自我定位上发挥
期刊
在新课程标准的背景下,教师在教学中要注意能力的培养,而不只是让学生接受知识,尤其是在小学基础教育阶段。从非连续性文本概念在语文课程标准中确立以来,语文教学在这方面一直存
“学本课堂”是一种以学生为中心的教学模式,经过多年实践,我发现,使用这种模式无论是教师还是学生都从中获益匪浅。它使我们的地理课堂少了枯燥多了精彩,学生睡觉的情况少了,愿意起来发言了,甚至敢于和老师辩论了,并且从中获得了极大的乐趣和自信,学生从一开始的怀疑、尝试的态度变成慢慢的接受、喜欢上了这种模式。而作为一名老师,我的收获也颇多,下面就略谈一二:  相对于地理学科传统的教学方法,“学本课堂”教学法
我国农村地区,留守儿童作为一个特殊群体,其问题如今已经成为了一个社会性问题,由于留守学生家庭教育等的缺失,导致其社会化过程中,在生活习惯、心理健康、学习成绩、道德品
班级日志是班级和学生的成长记录,其记录的内容主要是整个班级的学习、生活及学生的心理活动.班级日志是一种在班主任的指导下由学生轮流自主对班级日常事务进行管理和记录的
“兴趣”是孩子各种创造力,求知欲的原动力.数学教学必须从转变学生的学习态度、学习情感入手,使学生由机械、被动学习转变为创造、主动学习.
期刊
【摘要】近年来中国未成年人的心理问题发生率呈逐年走高趋势!专家介绍,存在于中国未成年人中的心理问题主要发生在儿童身上。那么,未成年人的心理问题呈现什么样的特点?他们的心理问题来自哪里?怎样帮助他们重塑快乐人生?家庭教育对他们的心理健康和人格的发展有何意义?这里,我们将通过对未成年人心理健康的研究及其与家庭教育的关系来探索造成未成年人心理健康问题的原因和如何促进未成年人心理的健康发展。  【关键词】