基于文本密度的藏文网页正文提取方法

来源 :计算机时代 | 被引量 : 0次 | 上传用户:tanmh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展带动了另一种形式的信息传播,人们越来越多地依赖于电子产品,Web网页也随之变为了最大的信息源,利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息,文章提出了基于文本密度的藏文网页正文提取方法,利用半结构化的HTML网页中正文内容的连续性特点,结合正则表达式过滤HTML标签。此方法针对主题型网页,类似新闻类网页中的正文提取具有较高的准确率。
其他文献
为了加深对于矢量拉普拉斯算符的理解,本文选择直角坐标系,从矢量的双旋度出发,详细推导了矢量拉普拉斯算符的解析表达式,即等于矢量梯度的散度减去双旋度,然后分析了其在矢量磁位
当前共享单车在社会上广泛使用,但单车骑行的短距离仍旧不能完全满足广大用户的需求。共享电动车租赁系统可以为用户提供扫码用车、手机智能借还、锁车等功能,拥有较好的用户
本项目把产品防伪和故障报修与微信公众号相结合,消费者可以通过公众号查询产品的真伪,也可以在公众号中直接与商家反馈产品出现的故障情况,商家根据消费者提供的报修信息,提供上门维修服务。通过此功能消费者可以享受到优质、快捷、安全的维修服务。商家可以通过公众号的功能,增强与消费者的联系,及时地发现产品问题。
10月26日,移动跨境电商波罗蜜全球购(以下简称"波罗蜜")宣布完成3000万美元B轮融资。本轮由战略投资方百度、LB Investment、分享投资以及成为资本、欧德等上一轮投资者共同投资