基于 Regex 网页去噪 Hash 比对的网络爬虫无登陆微博采集技术

来源 :山东师范大学学报：自然科学版 | 被引量 : 0次 | 上传用户：iamformywish

【摘要】

：

针对当前微博采集无精确去噪方法和微博无法无登陆采集现象，笔者提出了基于 Regex 网页去噪 Hash 对比的网络爬虫采集方案并利用插件采集实现了无登陆采集。该方法通过 Regex

【作者】

：

陈宇孟凡龙刘培玉朱振方

【机构】

：

山东师范大学信息科学与工程学院,山东省分布式计算机软件新技术重点实验室,山东交通学院信息科学与电气工程学院

【出处】

：

山东师范大学学报：自然科学版

【发表日期】

：

2015年3期

【关键词】

：

Regex Hash对比网络去噪 Regex Hash contrast network denoising

【基金项目】

：

国家自然科学基金资助项目（61373148）,国家社会科学基金资助项目（12BXW040）,山东省自然科学基金资助项目（ZR2012FM038,ZR2011FM030）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对当前微博采集无精确去噪方法和微博无法无登陆采集现象，笔者提出了基于 Regex 网页去噪 Hash 对比的网络爬虫采集方案并利用插件采集实现了无登陆采集。该方法通过 Regex 构建 DFA 和 NFA 模型来去除网页噪声，通过 Hash 对比对确定采集页面，并通过插件权限提升实现无登陆技术。有效的避免了 Hash 值的变化与网页内容变化产生偏离的现象，解决了网络爬虫虚拟登录时多次对 URL 采集造成的身份认证问题。实验表明，该方法可以实时快速的获取微博信息，为舆情数据分析提供批量精准的数据。

其他文献

基于有限元法的收音机计算机辅助脆值试验

利用基于动态子结构、有限元和模态分析的新产品脆值分析理论,以及计算机编程方法,从分析收音机数学模型入手,设计并进行收音机计算机辅助脆值试验.

期刊

有限元法收音机计算机辅助脆值试验形函数动态子结构模态分析CAT(Computer aided test) Panel element Dynamic

会泽县畜禽粪污资源化利用试点项目实施报告

会泽县被农业部、财政部遴选确定为2017年全国畜禽粪污资源化利用重点县,实施了畜禽粪污资源化项目,大力推行“农牧结合,入地利用”,使畜牧业与种植业、农村生态建设协调发展

期刊

畜禽粪污资源化利用种养结合项目实施

苏氏巧龙新材料

苏氏巧龙是一类体型较小的真蜥脚类恐龙,最早由董枝明于1990年研究命名。苏氏巧龙化石材料相对较多,中国科学院古脊椎动物与古人类研究所先后在同一化石点发现24具大小不同的

期刊

中国科学院古人类研究所古脊椎动物新疆准噶尔盆地巧龙董枝明蜥脚类恐龙苏氏

基于 Regex 网页去噪 Hash 比对的网络爬虫无登陆微博采集技术

其他学术论文