【摘 要】
:
随着Internet的飞速发展,互联网上的信息量呈爆炸式发展,Web网页中存放着涵盖各个领域的大量有价值的信息。现阶段对网站分类需要处理大量的数据,正确率却不高,类目的设置也
论文部分内容阅读
随着Internet的飞速发展,互联网上的信息量呈爆炸式发展,Web网页中存放着涵盖各个领域的大量有价值的信息。现阶段对网站分类需要处理大量的数据,正确率却不高,类目的设置也是一个问题。网站信息抽取主要针对单一网站进行处理,即使获得模板也无法适应大规模web信息抽取的需要。web2.0时代的到来,使标签在博客系统、论坛、视频网站等方面得到了广泛的应用,成为一种全新的信息分类组织形式。本文选取对网站进行标签标注,并设计标签库实现信息的结构化保存和组织作为研究对象。本论文的主要工作分为标签库的研究、设计和对网站的标签提取两部分:对第一部分,分别对文献分类法和标签分类法进行了研究,在对分类目录和标签云进行分析对比后,提出了标签库的多面复合式等级结构,从主体性质、形式、行业、主题、地区、语言六个方面对网站进行信息标注。第二部分,在对网站进行结构分析后,与设计的标签库相结合,提出用网页分类、网页自动标引相结合的方法对网站进行标注,提取标签。通过分析网站拓扑结构建立网站结构树,来实现网页的自动分类,然后对内容网页进行自动标引提取标签。最后设计实验、分析结果,证明该方法取得了很好的效果。网站作为网络信息的一种重要的信息载体,是网络数据处理等应用中重要的研究对象。本研究针对网站的信息描述,借鉴标签的概念设计了标签库的结构并提出相应的标注方法,还有一些问题需要进一步研究,激励我们更好的对网站进行研究。
其他文献
面向FTTH的光接入网能够克服传统接入网带宽限制,目前采用的无源光网络(PON)结构较为单一,灵活性差。而无线Mesh网络由于灵活性好、易于管理、成本低等一系列优点,已经引起人
随着光纤通信技术的发展,100G及以上相干光通信必然使用偏振复用和高阶调制,例如100G光纤通信系统中使用最广泛的PDM-DQPSK,以及QAM等。传输速率的提高和调制阶数的增大更使得通
本试卷分第一卷(选择题)和第二卷(非选择题)两部分,满分150分。考生注意:1.答题前,考生务必将自己的学号、姓名等项内容填写在答题卡上。2.第一卷每小题选出答案后,用2B铅笔
H.264SVC作为H.264AVC的可伸缩扩展,在保证高效编码的前提下,可以提供空域、时域以及质量可伸缩的特性,以应对不同架构的网络环境与不同处理能力的用户终端,相对于H.264AVC标准码
在临床上如果患者注射了含有细菌内毒素的药品,就会引起患者身体发热、昏迷甚至死亡,所以在药品生产过程中进行细菌内毒素的含量检查是十分必要的.目前,美、日、英等发达国家
本试卷分第一卷(选择题)和第二卷(非选择题)两部分,满分150分。考生注意:1.答题前,考生务必将自己的学号、姓名等项内容填写在答题卡上。2.第一卷每小题选出答案后,用2B铅笔
详细阐述了寒地玉米田套养商品鹅种养结合模式下玉米品种的选择、 田间管理等玉米种植技术以及套养鹅品种选择、养殖密度等技术要点;从载畜量及玉米地饲养分区,经济效益、社
本试题卷分选择题和非选择题两部分。时间150分钟,满分300分。第Ⅰ卷一、选择题:本题共35小题,每小题4分,共140分。在每小题给出的四个选项中,只有一项是符合题目要求的。下
本试卷分第Ⅰ卷(选择题)和第Ⅱ卷(非选择题)两部分,满分300分。考试时间150分钟。第Ⅰ卷(选择题共126分)一、选择题(本题共13小题,每小题6分,在每小题给出的四个选项中,只有
随着雷达和通信系统的迅速发展,人们对新一代频率合成器和频率合成方案都提出了更高的要求。在现代雷达、武器制导和电子系统等领域,具有高指标的频率合成器往往决定了该领域的