【摘 要】
:
现有的针对分类数据的算法需要多次扫描数据库,对于数据开采经常处理的大容量数据,多遍I/O操作是一项沉重的系统开销.CACD(clustering algorithm for categoricaldata)是针对
【基金项目】
:
湖北省科技攻关计划基金项目(2004AA210B01)
论文部分内容阅读
现有的针对分类数据的算法需要多次扫描数据库,对于数据开采经常处理的大容量数据,多遍I/O操作是一项沉重的系统开销.CACD(clustering algorithm for categoricaldata)是针对分类属性数据的聚类算法,该算法采用压缩技术缩小需要处理的数据量以提高效率,同时算法提出了一种新的基于压缩数据结构的标准用于衡量分类数据的相似度.CACD只需扫描数据库一遍,算法理论分析和实验分析都表明该算法比同类针对分类数据的聚类算法效率要高,并且压缩技术对聚类结果的质量影响不大.
其他文献
针对肿瘤病理学研究和检验中缺乏微血管参数测量手段的状况 ,采用数字图像处理的方法 ,对微血管特征参数的测量作了研究 .采用了基于色度学的真彩色图像分割算法 ,以 HSI彩色模型为基础 ,辅以 I1I2 I3和 U* V* W*彩色模型中 I2和 U*分量 ,组成五维特征分量描述图像 ;利用多维阈值分割 (MDT)法与三维直方图生长法和颜色聚类法结合分割图像 ;为解决染色缺损问题 ,采用了可控的二值
高级英语教学的成功与否在整个英语专业教学中的重要性是不言而喻的,实现以情促教、以情优教的高级英语教学在英语专业教学实践中是具有一定现实意义的。
清华简《楚居》详细记载了从商末到战国初期历代楚先公先王居邑的变迁情况,其中惟有熊绎徙居书“卜”,应是《楚居》作者对熊绎始封立国的称美。熊绎在迁徙之前进行占卜,意在昭示
随着医改的不断深入,全面预算管理对基层医院实现长期战略目标、积极稳妥安排收支,提高运营水平,深化卫生体制改革,迎接巨大挑战起着至关重要的作用。该文旨在对基层医院如何
当前,国家对网络安全高度重视。习近平总书记指出,“要坚持网络安全为人民、网络安全靠人民,保障个人信息安全,维护公民在网络空间的合法权益;要坚持安全可控和开放创新并重,
以"美国梦"为题材的文学作品在美国已有很长的历史,而在任璧莲的《典型的美国佬》中也反应了这个主题,在主人公对"美国梦"的追寻与矛盾中,任璧莲将美国梦的残酷性进一步体现