基于EVS相似度的邮件社区划分方法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:jinn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,复杂网络中社区结构的发现及社会关系知识的挖掘,已经成为数据挖掘领域的研究热点之一。电子邮件系统中的邮件通信网络是一种较简单的社会网络,其社区划分问题本质上可以归结为稀疏图的聚类问题。聚类方法的核心是邻近性度量,因此发掘新的更加有效的邻近性度量方法进而提高邮件社区的划分质量,对以后的垃圾邮件的识别与过滤以及大型复杂网络的研究,具有非常重要的意义。本文以网络社区为背景,对邮件通信网络中的社区进行了重点研究,主要工作如下:(1)提出了一种新的邻近性度量方法EVS,用于指导邮件社区聚类。通过学习和研究各种邻近性度量方法以及国内外复杂网络社区挖掘的相关方法,论文将邮件社区划分转化为图的聚类。首先介绍了邮件特征的向量表示形式、构建了邮件特征矩阵。在此基础上,使用变形后的极值分布函数模型拟合邮件间通信特征信息,然后在转换后的信息矩阵上构建EVS。(2)结合微聚类-宏聚类的技术提出了基于EVS相似度的邮件社区聚类算法,验证了EVS的有效性。本文将余弦、皮尔森等经典的相似性度量方法引入邮件社区划分中,用于进行对比分析,并且从具体邮件社区的特点来评估邮件社区的划分质量。(3)实验结果表明,在实际的测试数据集上,基于EVS度量的邮件社区聚类算法比基于余弦、皮尔森相似性的邮件聚类方法更加有效,更能够发现高质量的社区。本文的研究具有很强的实际应用价值,对垃圾邮件的识别与过滤技术的进一步发展,大型复杂社会网络的社区发掘以及一些商业应用,都有十分重要的意义。
其他文献
随着网络的普及及发展,推荐系统越来越多地被应用在实际的商业应用中,越来越多的企业看到了推荐系统的价值。但是推荐系统在应用过程中,存在着数据稀疏性、可扩展性、用户兴
公开密钥加密体制(Public-key Encryption Scheme)也叫非对称加密体制,它的提出使密码学发生了一场根本性的变革,在此体制中使用两个密钥,即加密密钥和解密密钥,在与多个用户
随着Web 2.0的到来,网上信息量急剧增长,用户可利用的数据也越来越丰富。然而,用户不得不耗费大量的时间来获取有价值的信息。特别是大数据时代的到来,信息过载问题已然成为
人脸表情识别(Facial Expression Recognition,简称FER)是人工智能中一个非常重要且十分复杂的课题。人脸表情识别是指利用计算机对人脸图像进行分析,然后对其为哪种表情进行
学位
数据空间(Data Space)是作为解决当前数据管理所面临的挑战而提出的一种新的数据管理技术。随着信息技术的不断发展,数据源多源和多样化特点使的传统以关系数据结构为基础的数据
随着互联网的快速发展,网上的信息呈指数级增长,涌现了海量的XML数据,如何处理这些数量庞大的XML数据已经成为非常重要的研究课题。关系数据库技术已经十分成熟,在数据管理中
学位
MEMS是将微电子技术与机械工程融合到一起的一种工业技术,在近年来得到了越来越广泛的应用,在工业、信息和通信、航空航天、航海、医疗和生物工程、农业、环境和家庭服务等领
学位
随着信息技术的高速发展,中文信息处理在计算机各个领域得到了长足的发展,而中文分词是中文信息处理的基础所在,由于词是连接句子与信息处理平台的中间环节,因此中文分词的处
随着信息技术的飞快发展,信息的安全问题正在成为研究的热点。目前关于计算机设备的信息安全研究还主要集中在软件层面,虽然达到了比较好的效果,但没有从本质上解决安全问题
学位
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、最广泛使用的信息库,有效检索这些海量信息以获得感兴趣的部分已经成为人们迫切需要的服务。在实
学位