【摘 要】
:
针对蒙古文主题爬虫主要面临的预测采集URL和发现隧道2个核心问题,提出一种基于主题团的站点聚类、排序和隧道发现的采集模型.通过站点的主题识别,将待爬行URL分为站点链接和
【基金项目】
:
国家自然科学基金资助项目(61363052),内蒙古自治区自然科学基金资助项目(2014MS0608),内蒙古自治区高等学校科学研究项目(NJZYl2052)
论文部分内容阅读
针对蒙古文主题爬虫主要面临的预测采集URL和发现隧道2个核心问题,提出一种基于主题团的站点聚类、排序和隧道发现的采集模型.通过站点的主题识别,将待爬行URL分为站点链接和非站点链接,使用文本相似度和超链图分析建立了预测URL优先级排序算法,基于站点粒度设计了站点自适应隧道发现算法,最后,构建了一个面向蒙古文主题的网络爬虫系统.实验结果表明:该算法在采准率、信息总量与采集速率上都得到了提高,明显优于基线算法.
其他文献
针对矿物浮选过程中以人工观测为主的浮选状态监测易受人主观因素影响,长流程的浮选现场难以实时获得生产状态信息,引起在线监测信息的不准确性及滞后,严重影响浮选生产工况及时调整,造成生产过程资源和能源浪费的问题,基于多变量图像分析方法研究矿物加工领域的泡沫浮选过程泡沫图像的分析与特征表征,并融合多变量图像分析、多分辨率分析、多分辨率-多变量图像分析、改进分水岭的图像分割算法和基于模板匹配的宏块跟踪方法,
针对成分及性能连续变化功能梯度材料(以及功能零件)激光成形制造工艺对多粉末束流成分及送粉量需实时变化的难点,研制开发粉末输送量连续可变的四路联动送粉系统;阐述了该系
针对强噪声干扰下轴承复合故障信号难于提取分离的问题,提出基于匹配追踪的快速独立分析方法.首先,通过基于Gabor原子的匹配追踪方法对单通道故障信号进行降噪处理;然后,根据
为了解调谐质量型防屈曲支撑(TB)风振控制效果,以某拟建高层办公楼为案例工程,对其做TB调谐质量阻尼器设计.基于有限元模型的附加阻尼法和风速度时程法分析结果表明:TB结构较
活性污泥胞外聚合物(extracellular polymeric substances,EPS)是污水生物处理过程中污泥结构、脱水性能、絮凝性能以及沉降性能的重要决定因素,而提取方法不同EPS的剥离程度存在