基于小波变换的稀有类挖掘

来源 :浙江大学 | 被引量 : 0次 | 上传用户:Shimq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科学研究和工程应用中,稀有类的数据样本往往具有重要的研究价值。例如,在网络访问数据集中,绝大部分的数据样本是正常的网络访问,小部分的数据样本是网络入侵行为,而只占小部分的网络入侵行为往往更具有研究价值。  稀有类挖掘(Rare Category Mining)致力于发现并挖掘出不平衡数据集中有价值的稀有类样本。稀有类挖掘的具体研究问题可以分为两个方面:(1)稀有类探测(Rare Category Detection),旨在为无标签数据集中的每个类发现至少一个数据样本,以确定数据集中存在哪些类;(2)稀有类勘探(Rare Category Exploration),旨在对已探测到且具有价值的某个稀有类样本,找到与其来自同一个稀有类的其他样本集合。  本文主要围绕稀有类探测和稀有类勘探两个问题展开,致力于解决以下三个主要挑战。  第一,现有的稀有类探测和稀有类勘探算法,相对于数据样本数量的时间复杂度为平方级甚至立方级,时间复杂度过高。  第二,现有稀有类探测算法和稀有类勘探算法在算法有效性上表现并不令人满意。具体而言,现有稀有类探测算法需要过多的贴标次数来发现数据集中所有的类,现有稀有类勘探算法的求准率和求全率有待提高。  第三,大部分现有的稀有类探测和稀有类勘探算法需要数据集的先验知识,数据集的先验知识往往难于甚至不可能事先获得。  本文针对以上挑战,分别给出了稀有类探测和稀有类勘探两个问题的解决方案。我们的算法利用小波变换的技术,在这两个问题上都首次达到了线性时间复杂度。本文的主要贡献如下:  (1)本文提出了线性时间复杂度的稀有类探测算法iFRED。该算法使用连续小波变换来发现局部密度的突变,使算法时间复杂度低且有效性高。  (2)本文提出了线性时间复杂度的稀有类勘探算法FREE。该算法使用离散小波变换来缩小目标稀有类的搜索范围,使得算法时间复杂度低且有效性高。  (3)针对高维数据集的问题,本文提出了适用于稀有类挖掘的降维思想。该思想的核心为迭代发现稀有类的粗略形状和去掉发现的稀有类紧实性最差的维度这两个步骤,直到收敛或迭代次数达到阈值。
其他文献
近半个世纪以来,随着计算机科学和新兴交叉学科的迅猛发展,人们对混沌现象在自然科学领域和社会科学领域的表现有了更深刻的认识,使得对混沌的研究迅速渗透到各个领域。混沌
无线传感器网络综合了传感器、嵌入式系统和无线通信等技术,具有广泛的应用前景。采集语音、图像、视频等多媒体信息的多媒体无线传感器网络是当前的研究热点之一。   本文
半监督学习技术试图利用未标记数据来辅助提高学习系统的泛化能力,已成为当前机器学习的研究热点之一。   协同训练是半监督学习领域的一种主流风范。标准协同训练算法需
随着社交媒体的快速发展,大量的社会热点新闻在以新浪微博和Twitter为代表的社交媒体平台快速生成和传播。然而,社交媒体平台在成为新闻发布和传播的便利渠道的同时,也一定程度
超级基站是中科院计算所无线通信中心提出的一种基于资源共享的新型集中式蜂窝网络架构设备,它具有积木块式软硬件、全局资源统计复用、业务智能转发等特点。为满足超级基站通
近十几年来,随着数字图像获取设备的日益方便,计算机存储介质成本的不断降低,互联网络技术迅速发展,同时随着人们对可视媒体的日益兴趣和关注,互联网上数字图像的数量和种类正在以
三维地质建模在上世纪90年代初期开始为人们所重视,并逐渐成为计算机图形学、油气藏勘探、科学计算可视化及GIS等领域的研究和应用热点。三维地质建模包括两类模型的构造:三维
调度是决策的一种形式,它在制造业和服务业中扮演着关键角色。生产调度是实现制造业运筹、管理与优化技术的核心,它是在时间上对一组可用的制造资源进行加工任务的安排,将工
本文主要研究的是地理信息系统中图形数据传输技术。随着Internet技术的不断发展和人们对GIS需求的日益增加,GIS同网络结合在了一起,形成了WebGIS。GIS中的数据量非常大,特别是
BPMN流程建模工具是一个能够为业务系统设计符合特定建模准则的可视化、可执行的流程设计建模的工具。本文从技术背景、需求分析、功能设计、系统实现、测评与持续开发的角度