【摘 要】
:
中文词法分析是中文信息处理中的一项基础性工作。词法分析结果的好坏将直接影响中文信息处理上层应用的效果。本文针对词法分析中的中文分词、词性标注和动词细分类进行了深
论文部分内容阅读
中文词法分析是中文信息处理中的一项基础性工作。词法分析结果的好坏将直接影响中文信息处理上层应用的效果。本文针对词法分析中的中文分词、词性标注和动词细分类进行了深入的研究并实现了一个实用化的词法分析系统IRLAS。通过权威的评测和实际应用表明,IRLAS是一个高精度、高质量的、高可靠性的词法分析系统。众所周知,切分歧义和未登录词识别是中文分词中的两大难点。文本采用了基于词类的分词概率模型,此模型把词归为若干类别并且把这些类别纳入到一个统一的概率模型框架下。通过选择概率最大的切分路径可以消除掉大部分的切分歧义。对于未登录词识别,文本采用了基于角色标注的未登录词识别方法,这种方法能充分利用未登录词的上下文信息并把未登录词识别的问题转化为角色序列的标注问题。通过训练角色的隐马模型参数,再利用Viterbi算法即可标注出最优的角色序列,也即完成了未登录词的识别。词性标注和动词细分类可以为上层应用提供更丰富的语法信息,例如句法分析可以利用这些词性信息进行句法关系的识别。词性标注是隐马尔科夫模型的一个典型应用,本文利用隐马尔科夫模型的方法进行词性标注并取得了较高的准确率。动词细分类和词性标注有些类似,它是在词性标注基础上对其中的动词进行更细致的类别标注。根据动词细分类自身的特点,本文提出了一种改进的隐马尔科夫模型的方法进行动词类别的自动划分,通过与最大熵的方法进行比较,证明这种方法十分有效。本文还通过把动词细分类嵌入到句法分析系统中,从而有效地提高了句法分析的识别精度。
其他文献
世界范围内教育信息化进入新的发展阶段。从数字化技术转为智能化技术而促发的"形变",到从数字化教育走向智慧教育而引发教育系统的"质变",以智慧教育引领教育信息化创新已成
纯电动汽车作为真正意义上的节能、环保交通工具,在经历了100多年风风雨雨后的今天又重新被人们所重视。 为了研究燃油汽车与纯电动汽车的异同点,探索纯电动汽车的设计方法
当前正在全国展开的以基础教育课程改革为核心内容的中小学教师继续教育 ,应当树立与时俱进的培训理念 ,变革培训的模式与方法。新课程的教师培训要从以下五个方面更新观念 :
受全球金融一体化、自由化浪潮的冲击,保险业竞争日趋激烈,这在客观上要求保险公司必须通过保险资金的有效营运来提高自身收益,尤其是投资收益,以应付预期的越来越高的赔付。
为探讨鳞翅目中绢丝昆虫之间的系统发育关系和分子进化特征,本研究测定了中国柞蚕Antheraea pernyi野生型和放养型的线粒体12SrRNA基因的部分序列,结合来自GenBank数据库的17
本文选取哥特式小说杰出代表人物雪莉·杰克逊的佳作《摸彩》,从对比、反常和影射三个要素,分析了"恐怖"的表现手法,对研究哥特式小说的特征有极大的启发作用。
随着科技的发展和社会的进步,智库在越来越多的领域发挥着重要的作用。既能够服务于政府决策,又能够为社会服务做贡献。治国理政必须善于集中各方面智慧、凝聚最广泛的力量,
入侵预防系统(IPS,Intrusion Prevention System)是近两年新兴起的一种网络安全技术。IPS比防火墙和入侵检测系统(IDS,Intrusion Detection System)具有更高的主动性,具备一定程
地气温差对大气边界层热力交换起着极为重要的作用,对局地气候、城市边界层结构和大气污染有着重要影响,因此有必要对城市下垫面地气温差进行相应研究。本文以典型盆地城市成
火电厂石灰石—石膏湿法烟气脱硫工程用石灰石活性被实验研究。选取8种不同产地天然石灰石,通过X荧光光谱分析其化学组成,确定石灰石的CaCO3和MgCO3含量。在固定pH值的条件下,采