面向博客的主题爬虫设计与实现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:flash_chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络用户急剧增加,分享作为一种互联网精神,正在影响着千千万万的用户。博客作为一种分享、交流的网络社交媒介,已经成为人们发表个人观点、研究成果、实践反思的重要平台。人们越来越习惯于通过博客获取有用的信息,越来越关注如何在海量博客中快速有效的获取有价值的信息。博客信息的获取是对博文资源进行有效利用的基础,但普通爬虫不符合具有特定主题需要的应用需求。该面向博客的主题爬虫系统以教育技术学为主题,专注于在大量博客中有效识别出与教育技术学研究内容相关的博文资源,并进行有效获取和及时更新。可以实现博文网页的下载,以及博文标题、正文、插入的图片等信息的抽取。本文主要做了以下几方面研究:(1)面向博客的主题爬虫关键技术研究。分析博客的基本特征,指出一般网页与博客网页的不同之处,进而确定博客信息的抽取维度。由于博客具有频繁更新的特性,为了提高爬虫的实时性,从采集策略上进行优化,提出了基于链接类型的采集策略。提出网站结构分析、链接类型分析与博文内容评价相结合进行主题相关性判断的方法。设定教育技术学相关博文的主题类别,研究SVM文本自动分类技术。(2)面向博客的主题爬虫设计。分析通用爬虫以及主题爬虫的基本原理和框架,指出其异同。分析并选择合适的通用爬虫框架,对其功能进行扩充,以适应面向博客的主题爬虫的需求。根据数据交互的需要设计数据库表。(3)面向博客的主题爬虫系统实现。对定时器、增量爬取、主题相关性判断、博文自动分类等关键功能予以实现,并评价采集及分类效果。(4)爬虫在博客分析中的应用。专家博客是一种重要的网络学术资源,能够促进学术领域科学信息的快速传递与交流,揭示学者潜在的主题偏好。以单个专家博客为例,利用采集到的信息分析博主的研究主题偏好,以及研究趋势变化。该爬虫系统充分结合博客特征进行采集,采用多种分析评价方式相结合的方法进行主题相似度判断,得到了较好的爬行效果,能够为以教育技术学为主题的应用研究提供高质量的博文数据。以单个博客为单位,分析教育技术学专家博客的研究主题偏好和趋势变化,可以为博客读者获取有价值的专业信息提供参考。
其他文献
孩子之间的冲突十分频繁,这是他们学习同伴交往的一个自然历程。处理好孩子们这些看似细小、微不足道的冲突是教师日常工作的重要组成部分,教师教育行为是否恰当会直接影响到孩
社会助学是高等教育自学考试相对薄弱的一个环节,改善和发展社会助学必然会加强高等教育自学考试的教育功能。作为社会助学的重要形式——网络助学,是高等教育自学考试适应时代
健美操虽然是一项新兴的运动项目,但是自诞生以来发展却非常迅速。它分为健身健美操和竞技健美操两大类。其中竞技健美操随着国际大赛的层出不穷,影响越来越大,逐渐成为一项受人
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
教育大计,教师为本。教师作为教育事业发展的第一资源,教师资源配置失衡,同样制约着教育大计的长久发展。信息技术对教育发展具有革命性的影响,这一高屋建瓴的概括,为信息技术在教