一种基于改进向量空间模型的藏文主题网页采集方法

来源 :图书馆学研究 | 被引量 : 0次 | 上传用户：lmmak

【摘要】

：

鉴于目前通用搜索引擎对藏文网页主题信息判断不够理想的现状,设计了一种基于改进向量空间模型的藏文主题网页采集算法。相比传统方法,该算法考虑了网页页面的不同标记内容对

【作者】

：

刘伟光郭小丹孔繁秀

【机构】

：

西藏民族学院图书馆,西藏民族学院信息工程学院,

【出处】

：

图书馆学研究

【发表日期】

：

2014年16期

【关键词】

：

网页藏文搜索引擎向量空间模型导向词库 Heritrix 关键模块运算结果算法网络爬虫

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

鉴于目前通用搜索引擎对藏文网页主题信息判断不够理想的现状,设计了一种基于改进向量空间模型的藏文主题网页采集算法。相比传统方法,该算法考虑了网页页面的不同标记内容对主题的影响,利用页面各个标记对藏文导向词进行分类,并通过实验确定了算法“导向词个数”和“主题相关度”的合理阈值,最后,通过运算结果判断网页主题的相关度。通过对Heritrix爬虫关键模块的改进,以中国西藏网(藏文版)为例对该算法进行测试,共采集藏文网页550个,主题相关准确度为62%。 In view of the current situation that the general search engine does not judge the topic information of the Tibetan web page well enough, a Tibetan web page collection algorithm based on the improved vector space model is designed. Compared with the traditional method, the algorithm considers the influence of different markup content of the webpage on the subject, classifies the Tibetan wordguide by using each mark of the webpage, and determines the number of “” and “ Relevance ”reasonable threshold, and finally, through the operation to determine the relevance of the subject page. Through the improvement of the key modules of Heritrix crawler, this algorithm is tested with the Tibet of China (Tibetan version) as an example. A total of 550 Tibetan web pages are collected, and the accuracy of the related topics is 62%.

其他文献

练就自己的绝活

前几天和朋友聚会,一个朋友聊到股票的事,气不打一处来。尚处于初级股民的他,听从所谓权威股评人的话,买入的股票被深深套牢。“这些假权威一忽悠,我的几万元就没了。”就此,

期刊

你说我是你我家注意事项拨人使人人说人能马未都玉器

英国主要报刊汇集

 

期刊

主要报刊每日快报汉译名《卫报》《每日电讯报》每日镜报《泰晤士报》《每日邮报》MirrorDaily

永远的败兔

恋权　　龟兔赛后,败兔不甘心,决定再赛一场。比赛开始,兔子当先,眼看快到终点,胜利在望了,却见路边有块石头,石头上刻着一行文字:“谁搬走这块石头,谁当动物王国国王。”兔子便停下脚步去搬石头,累得喘气如牛,汗下如雨,才搬几尺远,乌龟爬过去了它也不管。乌龟背着金牌回来时它仍在搬石头,乌龟凑到它耳朵边说:“这是我放的石头,你搬它干吗呢?”兔子一听,气得昏倒在地。　　嫉妒　　龟兔赛后,败兔不甘心,决定再赛

期刊

比赛开始搬石头汗下动物王国如雨兔子对我说谁当水上芭蕾金币

“完形填空”题的解题思路和技巧

完形填空是一种综合性很强的题型。它全面考查学生英语基础知识和综合运用语言的能力,其中包括识词能力、阅读能力、理解能力和通过分析进行逻辑推理和判断的能力。特别是20

期刊

完形填空解题思路迷惑性综合理解选项设置asked固定搭配切合点文章大意科普文章

高级教师郑宁生简介

郑宁生,男,广东梅县人,1938年7月生,1958年毕业于武汉华中师范大学化学系。毕业后分配到大别山下的新洲县新集中学任教,六十年代起任教导主任,他在这偏避的乡村辛勤耕耘了二

期刊

郑宁教导主任初中化学新洲县仓埠广东梅县教学工作中学化学新集三年

古诗词遣“比”设“喻”抒愁写恨例谈

在灿若星河的古诗词中,保留着大量抒愁写恨的文字,或国愁家恨,或情愁离恨,其中有一些至今仍流传不衰,成为后人耳熟能详的名篇佳句。这些文字之所以能在时间的淘洗中熠熠生辉

期刊

古诗词表达技巧秦观一江春水向东流念奴娇青玉案冯延巳杨炎正夕阳楼情感共鸣

8元钱的钻戒

出于职业习惯,林沂从不佩戴任何首饰,尤其是戒指、手镯之类。作为一名外科医生,她必须随时应对突如其来的外科手术。事实上,那些首饰对于她来说,是一个额外的负担,做手术的时候,她得花时间与精力去考虑如何稳妥地存放它们。　　离婚的时候,儿子才3岁,很多人劝林沂:“把孩子给男方吧,你还年轻,以后还可以找一个好人嫁了,孩子会成为你的拖累。”但她割舍不下,孩子是她在这个世界上仅有的寄托,她需要他。尤其在这个时候

期刊

外科医生外科手术元钱职业习惯把钱凄寥你喜欢这个世界就这样手心

《歌汝州温泉》赏析

《歌汝州温泉》是著名诗人贺敬之的新作,刊于2001年6月14日《人民日报》,分序言和正文两部分。序言介绍了汝州温泉的地点、水质、疗效、历史、新貌和名声。正文可分为三部分

期刊

温泉镇贺敬之去污深人人心使人一韵到底诗言志神泉广成苑封建帝王

新年三愿

新年试笔,向来是文人的雅事。今年的情形有所不同,全球金融危机逐渐向实体经济蔓延,股市萎缩、房市低迷,不少清高的文人也成了地道的“套中人”。套牢的不仅是两市中那几个钱

期刊

新年全球金融危机市中试笔鼓足勇气新年快乐无暇他顾不如意人到中年投到

吟诗诵词追古思今

一天忙碌,一日劳累,华灯初上的夜晚,下班归家的人才暂时能够休憩。快捷的都市生活节奏,压得这个城市中每一个人都喘不过气来,久而久之,身疲心乏,失去了最初的梦想,只为生计奔

期刊

华灯初上论词气来谈诗夜晚一个人诗词李商隐上大学教人

一种基于改进向量空间模型的藏文主题网页采集方法

其他学术论文