基于特征学习的分布式文本挖掘算法研究与应用

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:wiaoni007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及与发展,越来越多的数据挖掘任务需要在分布式的环境下进行。同时,随着博客、微博、微信等新兴社交工具的出现,层出不穷的文本数据挖掘需求需要满足。这使得在分布式环境下进行文本挖掘成为了研究的热点。然而,在分布式环境下进行文本挖掘时,算法必须满足分布式环境各方面约束,而文本数据又很难表示成具有高层次语义信息的特征,不能满足机器学习算法的要求。因此,如何使数据挖掘算法分布化和学习到文本的特征以适应相关算法成为分布式文本挖掘的难点和重点。本文首先针对分布式聚类问题,将混合分布概率主成分分析(MPPCA)模型的最大期望(EM)算法变形,并提出估计MPPCA模型参数的分布式EM算法,从而实现分布式子空间聚类。然后,本文针对结构化对等网络不支持语义检索问题,基于标准α稳定分布提出语义相似哈希算法,并用语义相似哈希替代一致性哈希,实现了支持语义检索的语义DHT网络。为了更好地支持以上分布式数据挖掘算法在文本数据上的效果,本文随后研究了基于神经网络的文本特征学习算法。针对句子级的特征表示,本文提出基于开放式递归自编码神经网络和动态平均池化的句子特征学习算法。实验表明,本文提出的句子特征学习算法可以更好地表示句子的特征。最后,本文实现了一个分布式语义检索系统,能够在分布式环境下进行文本检索。通过使用本文研究的算法,检索系统支持了用句子检索句子等功能,证明了本文研究的价值。
其他文献
随着无线业务数据量的爆炸性增长,无线通信系统面临频谱资源告急以及能量消耗剧增的双重压力。认知无线电(CR, Cognitive Radio)技术允许主次用户共享授权频谱,大大提高了频
短波超短波通信主要利用HF频段和VHF的低频段进行数据和语音通信.要完成短波超短波通信,必须实现基带MODEM和电台,该文的研究目标就是基带MODEM的实现.该文除了对基带MODEM的
本论文工作主要利用基因工程方法克隆和表达了一个新型肽类钠通道调制剂BmKαⅣ,采用电生理学、药理学、毒理学、病理学和行为学方法系统研究了BmKαⅣ与钠通道相互作用的分子
学位
文中重点研究了多用户检测算法中的并行干扰抑制(PIC)技术,将三级PIC算法与直接匹配滤波(MF)算法的性能进行了对比,得到了三级PIC算法在不同衰落信道下相对于MF的性能增益.考
该文从搜索和跟踪两个方面,介绍了HPRF波形的PD雷达信号处理的原理,并对其应用中存在的一些问题做了研究.HPRF波形的PD雷达存在距离模糊,该文从量测误差为均匀分布的情况入手
该文从利用OFDM系统中同已知信息和结构的角度,深入研究了基于时频导频数据序列的算法—导频码元法和导频法;以及基于时频数据结构的算法—基于循环前缀的算法和类MUSIC法这
想要让农村经济进一步发展,就需要寻找融资的新渠道,并且以多种方法来应对农村经济面对的困难.农村目前面临的融资问题如果得不到解决的话,将会对经济发展有着非常大的影响.
进入21世纪以后,我国的经济快速发展,进而使得人们生活水平不断提高.人们生活水平不断提高,使得当前高速公路已经成为了人们出行的主要方式之一,取消高速公路省界收费站整个
学位
该文介绍了微控制器芯片ZQD021的在线仿真器的设计,对设计的内容和关键技术进行了探讨,同时还介绍了部分SOC设计技术及可测试性设计(DesignforTest-DFT)技术在设计中的应用.