分布式信息抽取系统在物流领域中的应用

来源 :江苏大学 | 被引量 : 0次 | 上传用户：lovetianbing

【摘要】

：

随着国内物流行业的蓬勃发展,在线物流平台的营运方式成为主流,每天都会有海量的货运信息和承运信息发布到各个承运平台上,而对互联网上的数据进行抓取和分析,也成为比较常见

【作者】

：

曹瑞

【出处】

：

江苏大学

【发表日期】

：

2018年01期

【关键词】

：

WEB信息抽取分布式信息抽取系统 Scrapy爬虫标签路径类选择器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着国内物流行业的蓬勃发展,在线物流平台的营运方式成为主流,每天都会有海量的货运信息和承运信息发布到各个承运平台上,而对互联网上的数据进行抓取和分析,也成为比较常见的商业行为。在实习企业惠龙易通的集配平台内,利用人工构建包装器的方式对物流站点进行数据抓取,但由于手工构建包装器繁琐且难以维护,因此,在现有系统的基础上,降低人工投入、提高包装器构建的自动化程度是课题研究的主要问题。论文针对企业现有系统的缺点和问题,通过对爬虫技术、WEB信息抽取技术以及分布式技术的研究,结合物流承运平台页面结构复杂、重复的特点,设计并实现了一个包装器规则自动化构建、根据规则自动采集数据,对采集的数据去重、存储的分布式信息抽取系统,并在采集的数据的基础上搭建了一个基于近义词语义转换的检索服务。论文的主要工作如下:(1)物流信息抽取规则的自动化构建:针对物流平台页面列表多且结构复杂的特点,对“标签路径”算法进行了改进,通过优化“标签路径比”的计算方式,提高正文节点和噪音节点的区分度,从而提高了标签提取的准确度;针对物流术语表达不规范的问题,将TD-IDF算法提取的特征值转化为国家颁布的物流标准术语,减少特征值歧义,从而提高VSM算法对页面主题相似度计算的准确度;针对标签路径无法直接提取页面数据的问题,将CSS选择器和正文列表的标签路径进行结合,设计并使用“标签路径类选择器”的方式生成了抽取规则,使标签路径可以准确地表示每一个元素。(2)分布式物流信息抽取系统设计:搭建了基于Scrapy-redis的分布式爬虫系统。应用抽取规则对某一个站点进行抓取时,为了使爬虫停留在当前站点内进行爬行,对框架内“爬行策略”组件进行了重写,设计“异源过滤”的策略过滤异源URL地址;为了减少“待爬取队列”管理对内存的开销,利用“布隆过滤器”对待爬URL队列进行过滤;为了降低细微表述差异对去重的影响,使用局部敏感哈希算法“SimHash”对物流信息进行去重,并将该算法的特征值提取过程和TD-IDF算法进行合并,并增加语义特征。通过对相关模块的重构,提高了原爬虫框架的工作效率。(3)分布式抽取系统的实现及性能测试:使用Python对包装器生成和爬虫系统进行开发,使用Node.js开发可视化网站界面。对中国物通网进行实际爬取分析,并对抓取过程在分布式环境及单机环境中进行测试比较。测试结果表明,优化后分布式系统整体运行效率比之前提高了11%;修改后的待爬队列去重误判率仅有0.047%。整个系统的运行效率可以达到预期目标和效果。最后根据测试结果,对系统中存在的不足提出了下一步的优化方向。

其他文献

基于EFSM模型的面向多样性的测试用例生成研究

基于模型的软件测试凭借其测试生成效率高、易于实现等优势,在自动化测试领域受到了广泛关注。扩展有限状态机EFSM模型是诸多软件模型中的一种,然而,EFSM模型测试覆盖准则存

学位

EFSM模型测试用例集多样性遗传算法测试用例生成

面向多媒体检索的重排序方法研究

近年来,多媒体检索重排序方法因其能有效提高多媒体检索的准确率而得到广泛关注,其中基于图的重排序是目前的主流方法。基于图的重排序方法可大致分为两类:全局上下文敏感的

学位

多媒体检索局部上下文敏感相似度度量贪心谱聚类

行政执法监察信息系统设计与实现

随着计算机网络技术的不断进步以及政务管理信息化进程的持续推进,信息管理系统已逐渐成为政务管理的重要手段。近几年,大规模的建筑项目投入建设,西安市执法部门间依然依靠

学位

行政执法微服务架构微服务管理业务组件

基于浮栅型图像传感器的显微芯片设计

在医学领域,显微镜的使用几乎贯穿许多科学研究的所有环节。而从20世纪90年代开始,几乎目前所有的显微镜,尤其是光学显微镜,都离不开图像传感器的配合。图像传感器,或称感光

学位

显微芯片图像传感器浮栅器件

基于Sakai的MOOC学习平台的设计与实现

近年来,伴随着现代网络信息技术和教育技术的飞速发展,我们已身处大数据时代。我们不难发现,由于网络的冲击,学习模式已发生了巨大的改变。随着近几年大规模在线开放课程(MOO

学位

MOOCSakai教学管理

直进式搬运机械手嵌入式控制系统研究

中小型五金冲压制品主要以人工生产为主,其生产环境恶劣,产品一致性差,生产效率低,且存在极大的安全隐患。为了改善中小五金冲压制品的生产方式,课题组以企业的迫切需求为契

学位

搬运机械手嵌入式系统工艺优化精确定位人机交互

基于多尺度LBP特征的人脸表情识别研究

人脸表情,体现着人类内心复杂的感情变化,传递着丰富的情感信息。人脸表情识别的研究对于改善人们生活品质和生活方式有着巨大的作用,广泛应用于安全、人工智能、情感机器人

学位

表情识别多尺度LBP重要区域ACILBP多尺度直方图统计SVM分类器

基于内容的无线多媒体QoE优化策略

为了解决无线网络的管理和优化问题,本文基于用户为中心的理念,提出了无线用户中心网wUCN的网络框架,wUCN定义了智能路由器的概念。用户是服务的目标,包含用户QoE的用户满意

学位

无线用户中心网无线资源分配内容分辨率内容流行度QoE用户满意度智能路由器

基于差分星座图的射频指纹提取方法研究

随着通信技术的飞速发展,无线网络已经覆盖到国防、经济、社会、民生等各个方面,与人们的日常生活密不可分。无线网络使人们的沟通摆脱了空间和时间的束缚,生活质量得到极大

学位

物理层安全射频指纹差分星座图软件无线电决策树支持向量机

基于内模的输入时滞过程采样控制设计与学习优化

在实际的工业生产过程中,普遍存在输入或者输出时滞现象。时滞的存在对闭环系统性能会产生很大的影响。本文针对具有输入时滞的控制系统,研究了离散域PID控制器设计方法与基

学位

内模控制输入时滞采样控制系统PID迭代学习控制鲁棒稳定性流化床温度控制

分布式信息抽取系统在物流领域中的应用

其他学术论文