基于文本密度的藏文网页正文提取方法

来源 :计算机时代 | 被引量 : 0次 | 上传用户：tanmh

【摘要】

：

互联网的发展带动了另一种形式的信息传播,人们越来越多地依赖于电子产品,Web网页也随之变为了最大的信息源,利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信

【作者】

：

洛松求培安见才让

【机构】

：

青海民族大学计算机学院

【出处】

：

计算机时代

【发表日期】

：

2017年8期

【关键词】

：

藏文信息藏文网页正文提取 HTML WEB网页 Tibetan information Tibetan Web content extraction HT

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的发展带动了另一种形式的信息传播,人们越来越多地依赖于电子产品,Web网页也随之变为了最大的信息源,利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息,文章提出了基于文本密度的藏文网页正文提取方法,利用半结构化的HTML网页中正文内容的连续性特点,结合正则表达式过滤HTML标签。此方法针对主题型网页,类似新闻类网页中的正文提取具有较高的准确率。

其他文献

矢量拉普拉斯算符简析

为了加深对于矢量拉普拉斯算符的理解，本文选择直角坐标系，从矢量的双旋度出发，详细推导了矢量拉普拉斯算符的解析表达式，即等于矢量梯度的散度减去双旋度，然后分析了其在矢量磁位

期刊

矢量拉普拉斯算符双旋度标量矢量拉普拉算符vector Laplace operatordouble curlscalar Laplace operat

共享电动车租赁系统的设计与实施

当前共享单车在社会上广泛使用,但单车骑行的短距离仍旧不能完全满足广大用户的需求。共享电动车租赁系统可以为用户提供扫码用车、手机智能借还、锁车等功能,拥有较好的用户

期刊

电动车租赁系统智能扫码共享

基于微信公众号的产品防伪和故障报修的研发

本项目把产品防伪和故障报修与微信公众号相结合,消费者可以通过公众号查询产品的真伪,也可以在公众号中直接与商家反馈产品出现的故障情况,商家根据消费者提供的报修信息,提供上门维修服务。通过此功能消费者可以享受到优质、快捷、安全的维修服务。商家可以通过公众号的功能,增强与消费者的联系,及时地发现产品问题。

期刊

微信公众号防伪报修售后服务We Chat public numberanti-counterfeitingthe repairing reque

海淘电商“波罗蜜”获3000万美元B轮融资

10月26日,移动跨境电商波罗蜜全球购（以下简称＂波罗蜜＂）宣布完成3000万美元B轮融资。本轮由战略投资方百度、LB Investment、分享投资以及成为资本、欧德等上一轮投资者共同投资

期刊

波罗蜜融资战略投资投资者

基于文本密度的藏文网页正文提取方法

其他学术论文