无关语获取与语料聚类方法研究

来源 :第六届江苏省计算机大会 | 被引量 : 0次 | 上传用户:jianjia88521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  剔除无关语及语料聚类对提高自然语言理解的质量具有重要意义,也是自然语言理解的预处理关键技术。鉴于无关语在语料中存在明显的特性,本文通过种子无关语推导出强无关语,并依据强无关语识别并导出新的无关语;然后,基于2-gram 构建句子之间的相似性,利用层次法对语料进行聚类对QA 语料进行问题相似的聚类。最后,通过识别的新无关语实验及语料聚类实验,验证本文提出方法的有效性。
其他文献
  在数十年的发展中,1H磁共振成像(MRI)取得了巨大的成功,已经成为临床医学、药学和病理学等领域中不可或缺的技术手段.与其他影像学方法相比,MRI具有无可比拟的灵活性,不
会议
电化学传感器因具有灵敏度高、选择性好、成本低、操作简单、分析速度快、易于微型化等优点,在环境监测、临床诊断、食品和医药工业等领域具有极其重要的应用价值。电极材料及其结构对实现灵敏、稳定的电化学检测至关重要。这一点在与生物大分子相关的生物传感与分析中尤为重要。最近的研究表明,三维多孔电极(three-dimensional-3D porous electrode)可有效提高电化学传感分析性能。因此,
作为第一种人工合成的聚合物,普鲁士蓝([KFeFe(CN)_6·aq],Prussian Blue,简称PB)自从1704年被合成以来,研究的对象从普鲁士蓝本身到其衍生物,研究领域不断扩大。普鲁士蓝及其衍生物是具有沸石特性的三维网状结构的聚合物,有着优良的电化学可逆性,高度的稳定性,制备成本低等优点,因而在二次电池方面有潜在的应用前景。 本文研究了普鲁士蓝及其衍生物在固体二次电池方面的应用。
利用环丁砜对芳烃进行抽提蒸馏新工艺(SED)以C6~C8为原料同时生产高纯度的苯产品及甲苯产品,此工艺由中国石油化工科学研究院开发。本文在55万吨/年芳烃抽提装置上针对于此工艺
棉花是我国重要的经济作物,但由于我国可耕地面积和水资源十分有限以及病虫害严重导致棉花生产安全压力很大。随着生物技术的迅猛发展,利用基因工程的手段将外源有益基因转入棉花的研究也越来越热。目前,转基因常用的方法是以根癌农杆菌介导棉花遗传转化,但该方法受到棉花基因型的限制、转化效率低和转化周期长等不利因素的影响从而制约了棉花转基因的发展和运用。本论文创新性地采用发根农杆菌遗传转化棉花,通过毛状根的诱导和
  网页内容分析及分类方法作为用户行为分析、兴趣识别、舆情分析等上层应用的底层核心技术逐渐成为学术界乃至工业界的热点。基于标签数据建立机器学习模型的传统网页分类
会议
  该文在传统基于音节的声像情报文件检索方法方法基础上,通过倒排索引方法提高了检索的效率并减小了情报索引文件的规模,提出了一种基于事件匹配搜索机制的声像情报检索方法
学位
  本文将基于小生境和交叉选择算子的粒子群算法(NCSPSO)改进后与人工鱼群算法(AFSA)混合,提出了一种改进的NCSPSO-AFSA 混合算法优化支持向量机(SVM)参数。并与AFSA 算法,
  龙芯处理器在国产处理器市场占有重要地位。由于龙芯采用的是MIPS 指令集且主要支持Linux 操作系统,然而目前在该平台上的应用软件还相对匮乏,且很多传统Windows 软件也无
会议