汉语词长的计量研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:dddddddddddddzzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
"词"是构成人类语言系统的基本单位,在词的诸多特征中,"长度"又是最基本且易于量化的词汇结构属性特征之一。本文从共时和历时两个层面,运用计量语言学的方法系统考察了汉语词长问题。本文第1、2章介绍了如何运用计量语言学的理论和方法系统考察汉语词长问题。在计量语言学中,对于任一种语言结构属性特征,我们一般都假设其应该满足如下一些文本特性:"频率分布"、"序列分布"、"协同关系"、"层级关系"、"历时演化"。本文中,我们以词长本身所具有的"频率分布"和"序列分布"特性为基本考察面,兼具考察其系统特性"协同关系"和"层级关系",并且结合汉语有大量历时文本记载的优势,考察了词长特性的"历时演化"。对于汉语词长的"频率分布",我们在本文第3、4章进行了考察。第3章从共时层面(现代汉语)考察了汉语口语和书面语的词长分布问题。在这一部分中,我们主要考察了三个问题:汉语口语和书面语中的最佳词长测量单位、口语和书面语词长分布对比、词长与词在语言单位层级中的位置的关系。考察结果显示,"音节"是口语中最佳的词长测量单位。部件是书面语中最佳的词长测量单位;汉语口语和书面语在词长分布上存在一定差异,尤其是在短词使用频率上;在汉语书面语中,"词-部件-笔画"是符合"门策拉—阿尔特曼"定律的汉语语言单位层级;汉语口语和书面语存在交互效应,现代汉语口语受到了书面语的较大影响。本文第4章从历时层面考察了汉语词长分布问题。在这一部分中,我们运用不同计量方法分别进行了近一千年(分4个时段,大语料库)和近两千年(分6个时段,小语料库)汉语文本词长分布演化的考察。两种不同考察的结果都显示,汉语词长分布有着非常显著的历时演化规律,即词长分布越来越趋于"钟形分布",平均词长增加。进一步,基于词长与其它语言结构特性的"协同关系"考察显示,汉语词长的演化不是孤立的,而是发生在一个自组织的语言系统中的:词长与词频相互依赖,协同演化;词长演化也引起了整个词汇系统甚至语言系统的演化;词长的演化是在"省力原则"控制下的,词长的演化促进了语言交流效率的提高。对于汉语词长的"序列分布",本文在第5章进行了考察。考察分共时和历时两部分。总起来说,考察结果显示:汉语口语和书面语具有相同的词长动链分布模型;从词长动链长度分布的总体分布趋势来看,它与词长分布的情况非常相似,所以,词长动链长度分布确实继承了词长分布的一些特性。为了进一步考察汉语词长序列的历时演化,我们又使用了 N-gram词长熵的方法。考察显示,N-gram词长熵主要受到了词长分布的影响,且词长序列在越长距离上会表现出越高的相关性;汉语词长熵历时增加,词长搭配趋于模式化。综上,本文以计量语言学理论为指导,以"词长"这一重要词汇结构特性为切入点,综合运用了最新的计量统计方法,从共时和历时两个角度深入分析了汉语词长"频率分布"和"序列分布"两个文本特性。我们期望本文研究成果一方面有利于推动计量语言学尤其是"协同词汇学"的进一步发展,另一方面也有助于汉语本身的语言结构规律及演化规律发现,推动汉语语言学的发展。
其他文献
做好高校党外干部的培养选拔工作,既有利于坚持和完善中国共产党领导的多党合作和政治协商制度,又能有效地推进高校的民主政治建设,提高决策的科学化、民主化,有利于改善领导
我国利率市场化正由"放得开"向"形得成"与"调得了"转变,2015年存贷款利率管制放开之后,改革重点就是形成基准利率体系与风险定价体系。囿于市场分割与市场不完美,基准利率体
十六大是中国共产党在开始实施社会主义现代化建设第三步战略部署的新形势下召开的一次十分重要的代表大会.江泽民同志在大会上作的报告,回答了关系党和国家未来发展的一系列
期刊
<正>去年冬季以来,厉以宁先生频繁参加各种会议和调研,在多种场合谈论"国进民退"背景下民企的困境和出路。"两会"结束后,厉以宁先生在家接受了记者专访。
将梯度优化法与有限元法相结合,探讨了隐式功能函数可靠度算法,通过算例对比分析半刚接与刚接钢框架系统刚度的主要失效模式,同时用PNET法探讨了节点转动刚度和P-Δ二阶效应