论文部分内容阅读
随着软件技术的发展和复用概念的提出,软件复用作为提高软件开发效率与质量的有效途径,成为软件工程研究的热点。要真正实现软件复用的系统化、工程化,就需建立一个完善、高效的构件库系统,加强对构件的有效管理。构件的合理分类表示是实现构件高效检索的基础和前提,它与构件检索构成了构件管理中的两个核心问题。本文在构件刻面分类表示的基础上,采用数据挖掘中的聚类分析技术并结合语义分析技术实现对构件的更客观分类。针对目前较常用的刻面分类表示法存在的术语空间依赖于专家经验、具有较强人为主观因素等缺点,本文将基于刻面分类表示与正文检索相结合对构件进行描述,并提出了一种基于潜在语义分析模型的构件聚类算法来实现对构件的分类。该算法不仅能在一定语义程度上实现对构件的聚类分析,而且可以很好地克服传统的基于向量空间模型所带来的高维稀疏等问题。实验表明该算法有效地提高了构件聚类的质量,获得了较合理的构件分类,为构件的高效检索提供了有力的支持。为进一步改善构件聚类的效果,本文基于自然语言处理中的语义分析技术和基于遗传算法的优化策略,提出了一种基于语义相似度与优化的构件聚类算法。该算法利用语义分析技术降低了人为的主观性,使构件的分类更为客观;同时,采用优化策略增强了类内的紧凑度和耦合度,使构件的分类更加合理。在构件聚类过程中,为了更好的获得特征词权重,针对传统的TF-IDF权重计算方法在获取特征词权重过程中假设特征词之间是相互独立的、线性无关的不足,本文从特征词间语义联系的角度出发,给出了一种结合语义改进的TF-IDF权重计算方法,并应用于基于语义相似度与优化的构件聚类算法中,获得了更优的构件聚类结果。并将该聚类算法分别与基于向量空间模型和基于潜在语义分析模型的构件聚类效果相比较,实验表明了该算法进一步改善了构件聚类的效果,实现了构件的更客观、更合理的分类,为构件检索提供了更好的支持,达到了降低软件复用成本,促进软件复用的目的。构件分类作为构件库系统中的一个核心问题,得到了软件工程界广泛的研究。本文采用了数据挖掘中的聚类分析技术对构件进行“无指导”的自动分类,并结合了自然语义处理中的语义分析技术和遗传算法的优化策略,获得了构件更客观、更合理的分类效果。但目前对构件聚类的研究较少,且语义分析技术还处于研究阶段,因此从语义角度实现对构件的聚类分析,仍具有较大的研究与发展空间。