基于 Regex 网页去噪 Hash 比对的网络爬虫无登陆微博采集技术

来源 :山东师范大学学报:自然科学版 | 被引量 : 0次 | 上传用户:iamformywish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对当前微博采集无精确去噪方法和微博无法无登陆采集现象,笔者提出了基于 Regex 网页去噪 Hash 对比的网络爬虫采集方案并利用插件采集实现了无登陆采集。该方法通过 Regex 构建 DFA 和 NFA 模型来去除网页噪声,通过 Hash 对比对确定采集页面,并通过插件权限提升实现无登陆技术。有效的避免了 Hash 值的变化与网页内容变化产生偏离的现象,解决了网络爬虫虚拟登录时多次对 URL 采集造成的身份认证问题。实验表明,该方法可以实时快速的获取微博信息,为舆情数据分析提供批量精准的数据。
其他文献
利用基于动态子结构、有限元和模态分析的新产品脆值分析理论,以及计算机编程方法,从分析收音机数学模型入手,设计并进行收音机计算机辅助脆值试验.
会泽县被农业部、财政部遴选确定为2017年全国畜禽粪污资源化利用重点县,实施了畜禽粪污资源化项目,大力推行“农牧结合,入地利用”,使畜牧业与种植业、农村生态建设协调发展
苏氏巧龙是一类体型较小的真蜥脚类恐龙,最早由董枝明于1990年研究命名。苏氏巧龙化石材料相对较多,中国科学院古脊椎动物与古人类研究所先后在同一化石点发现24具大小不同的