基于语义相似度分析的软构件聚类算法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:FinchPie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件技术的发展和复用概念的提出,软件复用作为提高软件开发效率与质量的有效途径,成为软件工程研究的热点。要真正实现软件复用的系统化、工程化,就需建立一个完善、高效的构件库系统,加强对构件的有效管理。构件的合理分类表示是实现构件高效检索的基础和前提,它与构件检索构成了构件管理中的两个核心问题。本文在构件刻面分类表示的基础上,采用数据挖掘中的聚类分析技术并结合语义分析技术实现对构件的更客观分类。针对目前较常用的刻面分类表示法存在的术语空间依赖于专家经验、具有较强人为主观因素等缺点,本文将基于刻面分类表示与正文检索相结合对构件进行描述,并提出了一种基于潜在语义分析模型的构件聚类算法来实现对构件的分类。该算法不仅能在一定语义程度上实现对构件的聚类分析,而且可以很好地克服传统的基于向量空间模型所带来的高维稀疏等问题。实验表明该算法有效地提高了构件聚类的质量,获得了较合理的构件分类,为构件的高效检索提供了有力的支持。为进一步改善构件聚类的效果,本文基于自然语言处理中的语义分析技术和基于遗传算法的优化策略,提出了一种基于语义相似度与优化的构件聚类算法。该算法利用语义分析技术降低了人为的主观性,使构件的分类更为客观;同时,采用优化策略增强了类内的紧凑度和耦合度,使构件的分类更加合理。在构件聚类过程中,为了更好的获得特征词权重,针对传统的TF-IDF权重计算方法在获取特征词权重过程中假设特征词之间是相互独立的、线性无关的不足,本文从特征词间语义联系的角度出发,给出了一种结合语义改进的TF-IDF权重计算方法,并应用于基于语义相似度与优化的构件聚类算法中,获得了更优的构件聚类结果。并将该聚类算法分别与基于向量空间模型和基于潜在语义分析模型的构件聚类效果相比较,实验表明了该算法进一步改善了构件聚类的效果,实现了构件的更客观、更合理的分类,为构件检索提供了更好的支持,达到了降低软件复用成本,促进软件复用的目的。构件分类作为构件库系统中的一个核心问题,得到了软件工程界广泛的研究。本文采用了数据挖掘中的聚类分析技术对构件进行“无指导”的自动分类,并结合了自然语义处理中的语义分析技术和遗传算法的优化策略,获得了构件更客观、更合理的分类效果。但目前对构件聚类的研究较少,且语义分析技术还处于研究阶段,因此从语义角度实现对构件的聚类分析,仍具有较大的研究与发展空间。
其他文献
随着计算机支持协同工作(CSCW)的发展,各种分布式系统开始与CSCW技术相结合,如协同编辑、协同软件开发和协同决策等。分布式协同系统越来越趋于开放性和动态性,其中的节点也
随着图像处理和计算机视觉等领域研究的不断发展,基于内容的图像检索技术逐渐成为当前研究中的一个热点。基于内容的图像检索作为一门交叉学科,结合了图像理解、模式识别、人工
贝叶斯网(Bayesian Network, BN)是联合概率分布的一种图形化表示,由于具有结构清晰,语义明确等特点,因此成为处理不确定性知识表示和推理的一种重要理论模型。贝叶斯网在机
学生进入高三三轮复习后,对于物理试题中出现的关键字“轻质”已经能基本把握,也能准确的进行物理解读,但是却很难找准其使用条件,下面以2015年河北省唐山一模理综试题24题分
用无弹性的绳子将两物体连接之后,当绳子处于拉紧状态时,两物体便处于牵连状态.处于牵连状态的两物体,一个物体的运动速度会随另一个物体运动速度的变化而变化.但由于其间有
高中物理的电学部分在物理教学中占着很重的地位,本部分内容与日常生活联系紧密,在高考中占着很大的比例.所以.任何一名高中物理教师在教学过程中,力求将每一个环节讲解透彻.
随着全球经济一体化进程的加快,企业间的竞争日趋激烈,改善企业内部生产管理的生产调度技术越来越受到重视。生产调度是制造业的核心,直接关系到企业的生产、经营和管理效率
我们建宁县桐元大队有九个生产队,一个耕山队。全队二百一十五户,一千二百三十八人,水田面积二千九百六十五亩,每人平均二亩五分,是土地多劳力少的大队。一九七○年和一九七
多示例学习是有别于传统的监督学习和无监督学习的一种机器学习框架。经过近几年的研究,多示例学习的应用越来越广,尤其是在基于Web的文本分类上。然而,在多示例学习里面,正包里
在新课改背景下,高中物理教学过程中应该更加注重以人为本的教育理念.问题式教学归根结底是一种启发式的教育教学方式,它注重培养学生的问题意识、质疑精神和探索精神,具有很