面向高效越南语分词的有监督集成学习框架

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:shan527333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在很多亚洲语言书面文本中,词与词之间没有明显的分隔符,因此这些文本的自动分词任务依然具有挑战性.相应的分词算法能够被广泛用于各种自然语言处理应用当中.本文针对越南语分词问题,提出了一套完整的有监督集成学习框架,并且实现了一种新的基于有监督集成学习的分词算法.在二元音节频率索引数据结构支持下,我们实现的分词算法能够综合多个基本分词器的优势,形成一个集成分词器.公开数据集上的越南语分词实验结果表明我们提出的框架在统计、计算和表示上具有良好的表现,算法最终能够达到最优的分词效果.
其他文献
文本中蕴含的信息具有重要的应用价值.如何将文本进行聚类挖掘有价值的信息成为自然语言研究领域当前的热点.针对文本信息的层次聚类问题,提出基于动态词窗口的卷积神经网络(
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
大麦是保山市主要栽培的夏收粮食作物之一,据统计,2015年夏收粮食作物种植面积8.75万hm2,大麦种植3.44万hm2,占了39.2%.大麦种植的区域,大部分是玉米地,这些区域主要分布在半
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
如何让消费者在评分信息不完整,消费者偏好不一致和评价标准不一致的情况下从海量在线商品中做出正确选择,成为消费者关注的问题.为此,提出利用Copeland社会选择理论的在线商
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
1谷子倒伏的危害及造成倒伏的原因倒伏是造成减产的一个重要因素。倒伏不仅可使作物的产量品质降低,同时造成收获困难,甚至绝收。引起谷子倒伏的原因包括内因和外因两个方面,
为解决数据流分类过程中样本标注和概念漂移问题,提出了一种基于实例迁移的数据流分类挖掘模型.首先,该模型用支持向量机作学习器,用所得分类模型中的支持向量构建源领域,待