基于用户标签和时间维度的信息检索方法

来源 :农业工程技术·农业信息化 | 被引量 : 0次 | 上传用户:tianyi03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:为帮助用户在海量数据中发现自己希望寻找的内容,设计了基于用户标签和时间维度的信息检索方法。利用维基百科知识库,结合用户注册信息和历史浏览记录,自动生成用户标签。在用户进行检索时,利用维基百科的同义词对检索词进行扩展,结合时间维度,并利用用户标签对检索结果进行优化排序,为用户提供时效、精准的信息检索。通过实验对比,检索的覆盖率和准确率均有一定程度的提高。
  关键词:维基百科:社会化搜索:用户标签:信息检索
  引言
  随着网络技术的发展,互联网已融人人们的日常生活。互联网在各个应用领域所积累的信息资源飞速增加,彻底改变了人们获取信息的方式。海量的网络资源为满足用户的信息需求提供了保证,但是如何从浩瀚的海量资源中快速、准确地找到用户所需要的信息,成为学术界和产业界广泛重视及研究的热门课题。
  传统的搜索引擎一般依据关键词进行检索,得到的结果不能凸显用户的信息需求,而且会包含广告信息,甚至会有欺诈性信息。
  随着社会化网络的逐步发展,在微博、论坛、圈子等社会化网络服务中产生了很多的优质内容,更能针对用户的特定需求给出相关的、可信赖的信息资源。
  本文在中原农村信息港搜索引擎建设中,以用户标签自动生成技术为切入点,基于维基百科中的类别词,结合用户注册信息及历史浏览记录,设计了针对用户特征的信息检索方法,注重历史行为的时间维度,搭建搜索引擎系统,结合自建数据库内容,为用户提供高时效、精准的信息资源。
  1 基于维基百科的用户标签自动生成
  根据用户的注册信息和历史浏览记录,基于维基百科类别结构生成用户标签。
  1.1 维基百科
  维基百科是目前全球最大的网络百科全书,强调自由内容、协同编辑以及多语言版本。维基百科的内容几乎涵盖了人类知识领域,并能够迅速整理出与最近发生事件相关的信息。维基百科中的每个词条都是一个知识的抽象概括,对应文章为词条的解释说明。每个词条下都有该词条所对应的类别词。维基百科通过页面分类组织知识库的类别结构,每个词条都至少属于一个类别。如词条“信息检索”属于类别“图书资讯科学”、“计算机科学”以及“信息检索”。向上拓展类别“计算机科学”,可以找到其父类“电脑”和“应用科学”,而向下回溯类别“计算机科学”则可以发现其子类“神经网络”、“人工智能”等。需要注意的是,维基百科的类别结构不是树状的,是一个有向无环图,一个子类可以属于多个父类。
  1.2 用户注册信息
  用户在注册时,需要填写常规的如用户名、密码、联系邮箱等信息。在此之外,针对三农用户增加一些项目,例如经营项目列表、感兴趣项目列表等内容让用户选择,初步了解用户的信息需求。特别要注意的是,在设置这些项目列表时,项目名称要对应维基百科中的类别词,以便于后面类别子树的建立。用户的选择有助于系统针对用户的兴趣模型建立,解决冷启动的问题。
  1.3 历史浏览记录
  虽然要求用户在注册时对自己感兴趣的内容进行选择,但不能保证用户在注册时对相关项目进行了选择。比如,兴趣项目数的限制使得用户不能选择全部感兴趣的内容,或者用户感兴趣的内容没有在列表中出现等。用户的历史浏览记录在很大程度上能体现出用户的兴趣爱好,可以通过用户的历史浏览记录来动态修改用户兴趣模型。将用户历史浏览记录中的标题、摘要部分提取出来,为自动生成用户标签做准备。
  1.4 用户标签生成
  利用前面获取的一些信息,为用户自动生成标签。步骤如下:
  步骤1:利用分词技术对提取的标题、摘要内容进行分词处理,得到词袋(Bagwords)模型 ,在这里W(D)是一个多重集合,因为标题和摘要中会包含相同的词。
  步骤2:依照常用的中英文停用词表去除词袋中的停用词。
  步骤3:对处理后的词袋模型,建立一个记录每个词出现次数的词典,避免之后在同一语境中对屡次出现的同一个词进行重复计算。
  步骤4:遍历词频词典,对于词w∈W(D),看其是否为维基百科中的词条,如不是则说明其在维基百科中语义不明显,将其从词袋模型中剔除。处理后得到词集合E(D)=[e1,e2,…,em],m≤n
  步骤5:对词集合E(D)中的每一个词,查找其所对应的类别,此为第一层类别,标记为L1(D);再从L1(D)里所有类别成员的页面中找到分别所属的类别,此为第二层类别集合,标记为L2(D),依次类推,直至延伸类别层次至max层(这里max为设定的类别子树最大层数)。
  步骤6:创建标签词典T。设定层次类别的权重系数为wc(wc>1),针对前面得到的max个类别集L1,L2,…Lmax进行遍历,设当前层次为,l=1,如果类别名称cn存在于标签词典中,修正原有权重值T[cn] =T[cn] 1/Wci;如果标签词典中不存在类别名称cn,将其加入标签词典中,权重值为T[cn]=1/Wci
  步骤7:如果l  步骤8:取标签词典中的前6个作为用户标签。
  需要说明的是,开始时生成的用户标签不一定完全准确,随着用户历史浏览的增加,标签会越来越准确。
  2 索引数据库建设
  搜索引擎在接收到用户的查询后,要在自己的索引数据库中进行检索,为给用户提供时效、精准的检索结果。构建索引数据库是非常重要的工作。
  2.1 常规索引数据库建设
  利用爬虫工具自动访问互联网,收集相关网页,并沿着种子网页中的所有URL爬到其他网页,不断重复该过程,把所有网页搜集到本地网页库中。对网页库中的网页进行分析处理,得出每个网页和关键词的相关性信息,建立网页索引数据库。   2.2 特色数据库建设
  除了常规的索引数据库,还根据中原农村信息港用户对象,构建有特色的索引数据库。
  例如,针对小麦病虫害建立的数据库,包含病虫害名称、常见症状、高发区域、防治措施等内容。针对小麦品种的数据库,包含了小麦品种名称、品种介绍、适宜种植区域、播期、播量等。
  通过特色数据库的建设,既丰富了数据库的内容,又会在用户检索时提供有针对性的资料。
  3 基于用户标签和时间维度的信息检索方法
  用户使用搜索引擎,目的是为了快速得到自己需要的信息。中原农村信息港搭建的搜索引擎,依据用户标签,对用户输入的关键词进行扩展,并结合时间维度,为用户提供时效、精准的信息检索功能。
  3.1 检索词扩展
  利用维基百科中的同义词,可以处理大小写、简繁体、缩写、俚语等不同情况,例如,“凤梨”是“菠萝”的同义词,“AI”是“人工智能”的英译词,也是缩写。当用户在输入框中输入检索词后,先进行分词处理,然后根据同义词词库来进行检索词的扩展,从而获得更好的检索召回率。
  3.2 时间维度
  所谓的时间维度,包含两方面的内容。一是时效性,用户在检索时,返回的结果要考虑时效性。如检索小麦价格,则需返回当前的价格,而不是含有小麦价格的几年前的信息。二是时间性,针对用户在不同时期输入的相同的关键词,返回的结果也有不同。如在4、5月份的时候检索“小麦病虫害”,则有可能需要针对小麦发生的病虫害进行治疗,要给出在这个时期病虫害的防治措施;如果是在8、9月份的时候检索“小麦病虫害”,则有可能是在小麦播种前对麦种如何处理,和前面的检索结果要有所不同。
  2.3 检索结果排序
  通过检索词的扩展,结合时间维度,返回相关检索结果。针对检索结果,结合用户标签内容,对检索结果进行排序优化。
  4 检索结果评价
  针对搜索引擎的评价分为覆盖率、准确率、响应时间及输出格式等。由于网络资源的急剧增加,查全率很难计算,而响应时间和输出格式,不同的搜索引擎几乎相同,所以用户更关心的是准确率,即能否找到满足自己需求的信息。
  如在中原农村信息港的搜索引擎中,输入“小麦病虫害”关键词,返回的结果如图l所示。
  图2为同样以“小麦病虫害”为关键词的检索结果。
  从返回的检索结果可以看出,中原农村信息港的搜索引擎的检索结果准确性更高一些,不仅提供了相关视频,还提供了相关防治技术,时效性更强。
  5 结论
  本文结合中原农村信息港搜索引擎建设要求,提出了基于用户标签和时间维度的信息检索方法。首先,基于维基百科知识库,利用用户注册信息和历史浏览记录,自动生成用户标签;然后,利用维基百科的同义词库,在用户检索时扩展检索词,考虑时间维度,结合用户标签对检索结果进行优化排序,提高了检索结果的时效性和准确率。利用搭建的搜索引擎系统,为用户提供精准的信息检索功能。在构建用户特征模型方面主要包括根据用户注册信息和浏览历史生成用户标签,在用户检索时依据历史行为的时间维度,结合自建数据库内容,为用户提供高时效、精准的信息资源。下一步的工作是构建农业领域本体,针对用户标签和检索结果进行消歧处理,为用户提供时效性更强、更准确的信息检索结果。
其他文献
总部位于苏格兰安格斯的精准农业解决方案先驱Soil Essentials宣布推出一个令人兴奋的新人工智能平台,旨在保护食品生产和环境。  SKAi(Soil Essentials Kore)人工智能项目,正在开发可再培训的智能摄像机视觉,以便识别、绘制地图并精确地将农用化学品应用于农作物。  Soil Essentials总经理Jim Wilson说:“我们对可行性项目“Grass Vision”
遂昌县是浙江省一个典型的山区县,23万人口,分布在20个乡镇203个行政村,人居集聚点非常分散,直接带来的是农民进城办事成本高。受村级集体经济整体较差、村干部待遇普遍较低等因素制约,加之原有乡村级便民服务中心主要是以简单行政审批服务类为主,内容较单一,“便民”设计初衷未能有效体现。随着农村生活水平提高、城乡互动加快、信息化趋势到来,农民对生产性、生活性的商业服务需求越来越大,对信息化普及的意愿越来
摘 要:该研究的目的是分析种植距离和深度对小型骑行插秧机的动力输出(PTO)载荷谱的影响,以便对插秧机进行最佳设计。为了在实际种植过程中测量载荷数据,使用扭矩传感器、数据采集系统和逆变器开发了载荷测量系统。 在土壤条件相似的田地里,选择了四种植距离(26 cm、35 cm、43 cm和 80 cm)和三种种植深度(85 mm、105 mm和 136 mm)进行了实地试验。 使用雨量计数和Smith
“啪!”轻轻一扭开关,蓝色的火焰直往上蹿。“用沼气好,火力强,做饭再也不烟熏火燎了。”这是来自大足县棠香街道水峰村一位村民的感慨,而在38岁的水峰村村委主任陈虎心中,这句话就是对他工作最大的肯定了。在沼气池的建设中,他功不可没。  沼气建设对于农村的大多数干部来说是一项不大轻松的工作,没有一种认真负责、甘愿奉献、吃苦耐劳的精神,是难以胜任这项艰巨而技术性强的工作任务。2006年大足县水峰村在村干部
自2015年吉林省政府办公厅发布《关于支持“快递下乡”的意见》以来,不断推出新的政策和措施以促进农村电子商务的发展和快递网络的布局,目前已取得了一定的成果。但同时也面临一系列的困难和问题,要想破解困局,取得快速的进展,必须厘清以下几个问题。  选择合适的农特产品作为“互联网 农特产品”商务模式的销售对象。一般来说,可以通过互联网进行销售的农特产品要具有明显的地区特色,就吉林省来说,梅河口、蛟河等地
由国家发展改革委、北京市政府共同主办的2012中国北京国际节能环保展览会于6月10日上午在北京展览馆盛大举行。这是自2005年以来举办的第七届国家级专业展览会,已成为宣传节能环保政策、培育发展节能环保产业、展示推广节能环保新技术新产品的重要窗口和平台,也是着力推进《北京市“十二五”节能减排全民行动计划》,倡导全社会共同参与节能减排的一次重要活动。  主办方针对PM2.5的热点问题,首次开设清洁空气
河北省是农业大省,农业和农村节能减排是全省节能减排的重要组成部分,潜力巨大,前景广阔。2011年,我省印发了《河北省人民政府关于印发河北省“十二五”节能减排综合性实施方案的通知》,明确提出“到2015年,农业万元增加值能耗比2010年下降12%,实现节能90万t标煤,削减化学需氧量、氨氮排放15万t、5万t”的农业农村节能减排目标任务,为我省农业农村节能减排工作指明了方向。“十二五”以来,我省新能
美国已经建立了完善的农业统计体系,形成了以美国农业部(USDA)及其所属的国家农业统计局(NASS)、经济研究局(ERS)、海外农业局(FAS)、农业市场服务局(AMS)、世界农业展望委员会(WAOB)、农场服务局(FSA)、首席信息办公室等机构为主体的信息收集、分析、发布工作体系。美国农业部与全国44个州的农业部门合作,设立了100多个信息收集办事处并配备专职的市场报告员,负责收集、审核和发布全
央广网北京1月2日消息,2016—2017年农特微商年会暨首届全国“互联网 农业”创业大赛颁奖典礼在北京隆重举行,这是2016—2017年“互联网 农业”领域最具影响力的跨年盛典,来自互联网千万影响力大咖、自媒体意见领袖、国家相关部门领导、行业专家、县域领导、全国优秀农特创业团队、大学生村官创业代表、全国渠道老总以及多家媒体齐聚大会,共同见证了农特行业盛典。  本次大会是由农特微商主办发起的行业大
2016年12月2日,本刊编辑记者(林广毅)跟随农业部农业农村信息化示范基地现场评估考核组,听取了河南省鹤壁市农业局的农业农村信息化工作情况汇报,并实地参观中国(鹤壁)农业硅谷产业园、河南谊发牧业有限责任公司、浚县白寺乡左洼村益农信息社、浚县30万亩高标准粮田示范方、中鹤集团实地,现将此行的所见所闻记述如下。  鹤壁市地处豫北部,辖两县三区,面积仅为2182平方公里,一产占比也仅为8.7%,但人均