从网站中自动挖掘数据记录的算法

来源 :东南大学学报:英文版 | 被引量 : 0次 | 上传用户:studycomputer1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高从web中挖掘数据记录的精确性和完整性,提出了同构页与目录页的概念及3个算法.如果一组网页结构相同,只是主信息不同,该网页称为同构页.一个包含有多个指向同构页连接的网页称为目录页.算法1用于发现目录页,它首先将连接排序,并对同一目录的链接记数.如果记数大于桌一给定阀值,则对其链接子页进行相似比较并得到结果.同时给出了一个网页相似度判断的函数、算法2采用了噪声信息过滤方法从同构页中挖掘主信息并得到数据记录,该算法是基于在2个同构页中噪声信息相同而只有主信息不同,算法3通过采用Spider技术可以实现
其他文献
针对目前广泛使用的道路土方量计算方法平均断面法和棱柱体法计算不准确的缺点,提出了三维土方量计算算法的概念.该算法以带约束的狄罗尼三角化(CDT)为技术核心,认为所有道路
在web信息集成领域,为消除语义异构、实现语义融合,将分类本体引入WWW信息集成,设计了一种基于本体集成的web信息集成系统.通过构建标准分类本体以获取局部分类本体,并建立二者间