面向文本数据的正则化交叉验证方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：xuxuanxxd

【摘要】

：

面向文本数据建模时,交叉验证方法是特征选择及模型比较任务中的常用方法。许多研究表明,文本数据模型的性能估计对交叉验证的数据切分方式较为敏感,不合理的切分方式可能会

【作者】

：

王瑞波王钰李济洪

【机构】

：

山西大学软件学院

【出处】

：

中文信息学报

【发表日期】

：

2019年5期

【关键词】

：

文本数据正则化交叉验证信噪比 text data sets regularization cross-validation signal-to-noise

【基金项目】

：

国家社会科学基金(16BTJ034)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

面向文本数据建模时,交叉验证方法是特征选择及模型比较任务中的常用方法。许多研究表明,文本数据模型的性能估计对交叉验证的数据切分方式较为敏感,不合理的切分方式可能会导致不稳定的性能估计值,使得实验结果可复现性差。该文试图论证基于多次重复(m次)的2折交叉验证,通过引入对训练集、验证集分布差异的约束,所构造的正则化m×2交叉验证方法(简记为m×2BCV)可以改善模型的性能指标的估计,适宜于模型比较。该文首先针对文本数据引入训练集与验证集分布差异的卡方度量,基于该度量构建数据切分的正则化条件

其他文献

物料的标准化管理

文中重点阐述如何实施物料的标准化管理，以确保企业生产成本控制的有效性。

期刊

物料管理标准化Material Management Standardization

基于关键体词抽取的韩国语自动文摘

非通用语言信息爆炸导致人们的时间更加稀缺且注意力更加发散。该文围绕韩国语文本的自动文摘问题,提出一种新的基于关键体词抽取的韩国语文摘算法。该文认为韩国语体词主要

期刊