面向文本数据的正则化交叉验证方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:xuxuanxxd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向文本数据建模时,交叉验证方法是特征选择及模型比较任务中的常用方法。许多研究表明,文本数据模型的性能估计对交叉验证的数据切分方式较为敏感,不合理的切分方式可能会导致不稳定的性能估计值,使得实验结果可复现性差。该文试图论证基于多次重复(m次)的2折交叉验证,通过引入对训练集、验证集分布差异的约束,所构造的正则化m×2交叉验证方法(简记为m×2BCV)可以改善模型的性能指标的估计,适宜于模型比较。该文首先针对文本数据引入训练集与验证集分布差异的卡方度量,基于该度量构建数据切分的正则化条件
其他文献
文中重点阐述如何实施物料的标准化管理,以确保企业生产成本控制的有效性。
非通用语言信息爆炸导致人们的时间更加稀缺且注意力更加发散。该文围绕韩国语文本的自动文摘问题,提出一种新的基于关键体词抽取的韩国语文摘算法。该文认为韩国语体词主要
未登录词语义预测是自然语言处理研究的难点.该文基于知识库的语素构词知识,采用了分阶段的算法自动预测未登录词的语素构词知识,以此实现对未登录词的语义预测.基本思路是通
介绍了以TI公司TRS32F206为核心的电能质量监测仪研制,结合DSP的芯片特点分析了仪器的硬件电路、数据采样和A/D转换设计,DSP及相关电路设计、通信接口设计,现场表明该装置可监测