可比语料聚类中不同文本表示方法的比较研究

来源 :第五届全国情报学博士生学术论坛暨2015中国信息资源管理论坛 | 被引量 : 0次 | 上传用户:richard8517742
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  可比语料是由具有相似主题的两种不同语言的语料构成的.本文通过可比语料聚类实验以比较三种不同的文本表示方法,分别是空间向量模型(VSM),潜在语义索引(LSI),深度学习(DL).我们首先将可比语料中的源语言文本翻译为目标语言文本,然后和可比语料中的目标语言文本归为一个文本集合中.最后,分别利用VSM,LSI和DL,三种方法来表示文本并进行聚类.实验结果显示:1)根据聚类得到测评数据中净相似度与可识别的类簇数量,用深度学习表示文本的方法比其他的几种表示方法聚类效果要好.2)三种方法的实验数据表明,新文本集合为英语的语料比新文本集合为汉语的聚类效果要好.3)基于LSI文本表示的方法随着文本表示维度的增加,识别出的类簇数量会逐渐减小并最终趋于稳定.
其他文献
数据密集型科学发现作为科学研究第四范式的提出,为人文社会科学领域研究模式的创新提供了新的时代机遇.文章遵循此种研究思路,基于CSSCI库2013年收录的来源论文关键词数据,
  田野调查起源于人类学,是指在实验室、图书馆或工作场所之外收集信息,逐渐成为不同学科进行实地研究的途径和方法。近年来,图书馆学领域也开始采用田野调查进行研究。文章首
  情报学范式研究是情报学理论研究的重要组成部分。文章对国内外学者关于情报学范式划分的主要观点进行了梳理,在此基础上进行了分析,提出情报学是具有多元范式的常规科学,多
  网络舆情演变的实质是网民群体包含情感观点的行为决策过程。目前对网民行为的研究对网民行为内在因素的研究较少,因此,本文引入ACT-R认知模型,并尝试构建基于ACT-R框架的网
  学术型博客不断发展促使网络学术资源不断增长。为了有效地对网络学术资源进行分类,很多学术型博客网站引入博文分类机制。对用户的博文分类行为进行研究,有助于理解学术博
会议
“山行时见奇树,须四面取之。树有左看不入画,而右看入画者,前后亦尔。”明代大画家董其昌在《画禅室随笔》中如是说,这是揭出了画树的诀窍。其实,这同样适用于摄影的取景,著
本论文以东北林业大学帽儿山实验林场从白桦树上采集得到的香栓菌、一色齿毛菌和裂褶菌为研究材料,在生理水平上,探究这3种白腐菌的5种木质纤维素降解酶的酶活变化,在分子水平上研究3种白腐菌的7个木质纤维素降解酶相关基因的遗传差异性。PDA固体培养基上,比较3种白腐菌在23℃和28℃的生长速度,结果为:一色齿毛菌>裂褶菌>香栓菌,说明一色齿毛菌受温度影响不大,但是在23℃条件下生长的更快,说明一色齿毛菌可
天然免疫系统是抵御细菌、真菌和病毒等病原体的第一道防线,起着重要防御作用。当病原微生物入侵时,果蝇的天然免疫系统能够做出高效的免疫应答。果蝇体液免疫的主要特点是受免
  大规模的合作给科研人员进行有效评价带来了难度,特别是评价指标的计算变得更为复杂和耗时。本文尝试对只考虑主要贡献作者和考虑所有合著者两种评价指标计算方法进行探讨
会议
本文以SBA-15为固定化酶载体,利用较大孔径的SBA-15与酶分子之间的较弱相互作用,实现了酶的固定化,考察了不同几何微环境和化学微环境SBA-15对猪胰脂肪酶(PPL)扩散/吸附的影响,以