论文部分内容阅读
摘要:为帮助用户在海量数据中发现自己希望寻找的内容,设计了基于用户标签和时间维度的信息检索方法。利用维基百科知识库,结合用户注册信息和历史浏览记录,自动生成用户标签。在用户进行检索时,利用维基百科的同义词对检索词进行扩展,结合时间维度,并利用用户标签对检索结果进行优化排序,为用户提供时效、精准的信息检索。通过实验对比,检索的覆盖率和准确率均有一定程度的提高。
关键词:维基百科:社会化搜索:用户标签:信息检索
引言
随着网络技术的发展,互联网已融人人们的日常生活。互联网在各个应用领域所积累的信息资源飞速增加,彻底改变了人们获取信息的方式。海量的网络资源为满足用户的信息需求提供了保证,但是如何从浩瀚的海量资源中快速、准确地找到用户所需要的信息,成为学术界和产业界广泛重视及研究的热门课题。
传统的搜索引擎一般依据关键词进行检索,得到的结果不能凸显用户的信息需求,而且会包含广告信息,甚至会有欺诈性信息。
随着社会化网络的逐步发展,在微博、论坛、圈子等社会化网络服务中产生了很多的优质内容,更能针对用户的特定需求给出相关的、可信赖的信息资源。
本文在中原农村信息港搜索引擎建设中,以用户标签自动生成技术为切入点,基于维基百科中的类别词,结合用户注册信息及历史浏览记录,设计了针对用户特征的信息检索方法,注重历史行为的时间维度,搭建搜索引擎系统,结合自建数据库内容,为用户提供高时效、精准的信息资源。
1 基于维基百科的用户标签自动生成
根据用户的注册信息和历史浏览记录,基于维基百科类别结构生成用户标签。
1.1 维基百科
维基百科是目前全球最大的网络百科全书,强调自由内容、协同编辑以及多语言版本。维基百科的内容几乎涵盖了人类知识领域,并能够迅速整理出与最近发生事件相关的信息。维基百科中的每个词条都是一个知识的抽象概括,对应文章为词条的解释说明。每个词条下都有该词条所对应的类别词。维基百科通过页面分类组织知识库的类别结构,每个词条都至少属于一个类别。如词条“信息检索”属于类别“图书资讯科学”、“计算机科学”以及“信息检索”。向上拓展类别“计算机科学”,可以找到其父类“电脑”和“应用科学”,而向下回溯类别“计算机科学”则可以发现其子类“神经网络”、“人工智能”等。需要注意的是,维基百科的类别结构不是树状的,是一个有向无环图,一个子类可以属于多个父类。
1.2 用户注册信息
用户在注册时,需要填写常规的如用户名、密码、联系邮箱等信息。在此之外,针对三农用户增加一些项目,例如经营项目列表、感兴趣项目列表等内容让用户选择,初步了解用户的信息需求。特别要注意的是,在设置这些项目列表时,项目名称要对应维基百科中的类别词,以便于后面类别子树的建立。用户的选择有助于系统针对用户的兴趣模型建立,解决冷启动的问题。
1.3 历史浏览记录
虽然要求用户在注册时对自己感兴趣的内容进行选择,但不能保证用户在注册时对相关项目进行了选择。比如,兴趣项目数的限制使得用户不能选择全部感兴趣的内容,或者用户感兴趣的内容没有在列表中出现等。用户的历史浏览记录在很大程度上能体现出用户的兴趣爱好,可以通过用户的历史浏览记录来动态修改用户兴趣模型。将用户历史浏览记录中的标题、摘要部分提取出来,为自动生成用户标签做准备。
1.4 用户标签生成
利用前面获取的一些信息,为用户自动生成标签。步骤如下:
步骤1:利用分词技术对提取的标题、摘要内容进行分词处理,得到词袋(Bagwords)模型 ,在这里W(D)是一个多重集合,因为标题和摘要中会包含相同的词。
步骤2:依照常用的中英文停用词表去除词袋中的停用词。
步骤3:对处理后的词袋模型,建立一个记录每个词出现次数的词典,避免之后在同一语境中对屡次出现的同一个词进行重复计算。
步骤4:遍历词频词典,对于词w∈W(D),看其是否为维基百科中的词条,如不是则说明其在维基百科中语义不明显,将其从词袋模型中剔除。处理后得到词集合E(D)=[e1,e2,…,em],m≤n
步骤5:对词集合E(D)中的每一个词,查找其所对应的类别,此为第一层类别,标记为L1(D);再从L1(D)里所有类别成员的页面中找到分别所属的类别,此为第二层类别集合,标记为L2(D),依次类推,直至延伸类别层次至max层(这里max为设定的类别子树最大层数)。
步骤6:创建标签词典T。设定层次类别的权重系数为wc(wc>1),针对前面得到的max个类别集L1,L2,…Lmax进行遍历,设当前层次为,l=1,如果类别名称cn存在于标签词典中,修正原有权重值T[cn] =T[cn] 1/Wci;如果标签词典中不存在类别名称cn,将其加入标签词典中,权重值为T[cn]=1/Wci。
步骤7:如果l 步骤8:取标签词典中的前6个作为用户标签。
需要说明的是,开始时生成的用户标签不一定完全准确,随着用户历史浏览的增加,标签会越来越准确。
2 索引数据库建设
搜索引擎在接收到用户的查询后,要在自己的索引数据库中进行检索,为给用户提供时效、精准的检索结果。构建索引数据库是非常重要的工作。
2.1 常规索引数据库建设
利用爬虫工具自动访问互联网,收集相关网页,并沿着种子网页中的所有URL爬到其他网页,不断重复该过程,把所有网页搜集到本地网页库中。对网页库中的网页进行分析处理,得出每个网页和关键词的相关性信息,建立网页索引数据库。 2.2 特色数据库建设
除了常规的索引数据库,还根据中原农村信息港用户对象,构建有特色的索引数据库。
例如,针对小麦病虫害建立的数据库,包含病虫害名称、常见症状、高发区域、防治措施等内容。针对小麦品种的数据库,包含了小麦品种名称、品种介绍、适宜种植区域、播期、播量等。
通过特色数据库的建设,既丰富了数据库的内容,又会在用户检索时提供有针对性的资料。
3 基于用户标签和时间维度的信息检索方法
用户使用搜索引擎,目的是为了快速得到自己需要的信息。中原农村信息港搭建的搜索引擎,依据用户标签,对用户输入的关键词进行扩展,并结合时间维度,为用户提供时效、精准的信息检索功能。
3.1 检索词扩展
利用维基百科中的同义词,可以处理大小写、简繁体、缩写、俚语等不同情况,例如,“凤梨”是“菠萝”的同义词,“AI”是“人工智能”的英译词,也是缩写。当用户在输入框中输入检索词后,先进行分词处理,然后根据同义词词库来进行检索词的扩展,从而获得更好的检索召回率。
3.2 时间维度
所谓的时间维度,包含两方面的内容。一是时效性,用户在检索时,返回的结果要考虑时效性。如检索小麦价格,则需返回当前的价格,而不是含有小麦价格的几年前的信息。二是时间性,针对用户在不同时期输入的相同的关键词,返回的结果也有不同。如在4、5月份的时候检索“小麦病虫害”,则有可能需要针对小麦发生的病虫害进行治疗,要给出在这个时期病虫害的防治措施;如果是在8、9月份的时候检索“小麦病虫害”,则有可能是在小麦播种前对麦种如何处理,和前面的检索结果要有所不同。
2.3 检索结果排序
通过检索词的扩展,结合时间维度,返回相关检索结果。针对检索结果,结合用户标签内容,对检索结果进行排序优化。
4 检索结果评价
针对搜索引擎的评价分为覆盖率、准确率、响应时间及输出格式等。由于网络资源的急剧增加,查全率很难计算,而响应时间和输出格式,不同的搜索引擎几乎相同,所以用户更关心的是准确率,即能否找到满足自己需求的信息。
如在中原农村信息港的搜索引擎中,输入“小麦病虫害”关键词,返回的结果如图l所示。
图2为同样以“小麦病虫害”为关键词的检索结果。
从返回的检索结果可以看出,中原农村信息港的搜索引擎的检索结果准确性更高一些,不仅提供了相关视频,还提供了相关防治技术,时效性更强。
5 结论
本文结合中原农村信息港搜索引擎建设要求,提出了基于用户标签和时间维度的信息检索方法。首先,基于维基百科知识库,利用用户注册信息和历史浏览记录,自动生成用户标签;然后,利用维基百科的同义词库,在用户检索时扩展检索词,考虑时间维度,结合用户标签对检索结果进行优化排序,提高了检索结果的时效性和准确率。利用搭建的搜索引擎系统,为用户提供精准的信息检索功能。在构建用户特征模型方面主要包括根据用户注册信息和浏览历史生成用户标签,在用户检索时依据历史行为的时间维度,结合自建数据库内容,为用户提供高时效、精准的信息资源。下一步的工作是构建农业领域本体,针对用户标签和检索结果进行消歧处理,为用户提供时效性更强、更准确的信息检索结果。
关键词:维基百科:社会化搜索:用户标签:信息检索
引言
随着网络技术的发展,互联网已融人人们的日常生活。互联网在各个应用领域所积累的信息资源飞速增加,彻底改变了人们获取信息的方式。海量的网络资源为满足用户的信息需求提供了保证,但是如何从浩瀚的海量资源中快速、准确地找到用户所需要的信息,成为学术界和产业界广泛重视及研究的热门课题。
传统的搜索引擎一般依据关键词进行检索,得到的结果不能凸显用户的信息需求,而且会包含广告信息,甚至会有欺诈性信息。
随着社会化网络的逐步发展,在微博、论坛、圈子等社会化网络服务中产生了很多的优质内容,更能针对用户的特定需求给出相关的、可信赖的信息资源。
本文在中原农村信息港搜索引擎建设中,以用户标签自动生成技术为切入点,基于维基百科中的类别词,结合用户注册信息及历史浏览记录,设计了针对用户特征的信息检索方法,注重历史行为的时间维度,搭建搜索引擎系统,结合自建数据库内容,为用户提供高时效、精准的信息资源。
1 基于维基百科的用户标签自动生成
根据用户的注册信息和历史浏览记录,基于维基百科类别结构生成用户标签。
1.1 维基百科
维基百科是目前全球最大的网络百科全书,强调自由内容、协同编辑以及多语言版本。维基百科的内容几乎涵盖了人类知识领域,并能够迅速整理出与最近发生事件相关的信息。维基百科中的每个词条都是一个知识的抽象概括,对应文章为词条的解释说明。每个词条下都有该词条所对应的类别词。维基百科通过页面分类组织知识库的类别结构,每个词条都至少属于一个类别。如词条“信息检索”属于类别“图书资讯科学”、“计算机科学”以及“信息检索”。向上拓展类别“计算机科学”,可以找到其父类“电脑”和“应用科学”,而向下回溯类别“计算机科学”则可以发现其子类“神经网络”、“人工智能”等。需要注意的是,维基百科的类别结构不是树状的,是一个有向无环图,一个子类可以属于多个父类。
1.2 用户注册信息
用户在注册时,需要填写常规的如用户名、密码、联系邮箱等信息。在此之外,针对三农用户增加一些项目,例如经营项目列表、感兴趣项目列表等内容让用户选择,初步了解用户的信息需求。特别要注意的是,在设置这些项目列表时,项目名称要对应维基百科中的类别词,以便于后面类别子树的建立。用户的选择有助于系统针对用户的兴趣模型建立,解决冷启动的问题。
1.3 历史浏览记录
虽然要求用户在注册时对自己感兴趣的内容进行选择,但不能保证用户在注册时对相关项目进行了选择。比如,兴趣项目数的限制使得用户不能选择全部感兴趣的内容,或者用户感兴趣的内容没有在列表中出现等。用户的历史浏览记录在很大程度上能体现出用户的兴趣爱好,可以通过用户的历史浏览记录来动态修改用户兴趣模型。将用户历史浏览记录中的标题、摘要部分提取出来,为自动生成用户标签做准备。
1.4 用户标签生成
利用前面获取的一些信息,为用户自动生成标签。步骤如下:
步骤1:利用分词技术对提取的标题、摘要内容进行分词处理,得到词袋(Bagwords)模型 ,在这里W(D)是一个多重集合,因为标题和摘要中会包含相同的词。
步骤2:依照常用的中英文停用词表去除词袋中的停用词。
步骤3:对处理后的词袋模型,建立一个记录每个词出现次数的词典,避免之后在同一语境中对屡次出现的同一个词进行重复计算。
步骤4:遍历词频词典,对于词w∈W(D),看其是否为维基百科中的词条,如不是则说明其在维基百科中语义不明显,将其从词袋模型中剔除。处理后得到词集合E(D)=[e1,e2,…,em],m≤n
步骤5:对词集合E(D)中的每一个词,查找其所对应的类别,此为第一层类别,标记为L1(D);再从L1(D)里所有类别成员的页面中找到分别所属的类别,此为第二层类别集合,标记为L2(D),依次类推,直至延伸类别层次至max层(这里max为设定的类别子树最大层数)。
步骤6:创建标签词典T。设定层次类别的权重系数为wc(wc>1),针对前面得到的max个类别集L1,L2,…Lmax进行遍历,设当前层次为,l=1,如果类别名称cn存在于标签词典中,修正原有权重值T[cn] =T[cn] 1/Wci;如果标签词典中不存在类别名称cn,将其加入标签词典中,权重值为T[cn]=1/Wci。
步骤7:如果l
需要说明的是,开始时生成的用户标签不一定完全准确,随着用户历史浏览的增加,标签会越来越准确。
2 索引数据库建设
搜索引擎在接收到用户的查询后,要在自己的索引数据库中进行检索,为给用户提供时效、精准的检索结果。构建索引数据库是非常重要的工作。
2.1 常规索引数据库建设
利用爬虫工具自动访问互联网,收集相关网页,并沿着种子网页中的所有URL爬到其他网页,不断重复该过程,把所有网页搜集到本地网页库中。对网页库中的网页进行分析处理,得出每个网页和关键词的相关性信息,建立网页索引数据库。 2.2 特色数据库建设
除了常规的索引数据库,还根据中原农村信息港用户对象,构建有特色的索引数据库。
例如,针对小麦病虫害建立的数据库,包含病虫害名称、常见症状、高发区域、防治措施等内容。针对小麦品种的数据库,包含了小麦品种名称、品种介绍、适宜种植区域、播期、播量等。
通过特色数据库的建设,既丰富了数据库的内容,又会在用户检索时提供有针对性的资料。
3 基于用户标签和时间维度的信息检索方法
用户使用搜索引擎,目的是为了快速得到自己需要的信息。中原农村信息港搭建的搜索引擎,依据用户标签,对用户输入的关键词进行扩展,并结合时间维度,为用户提供时效、精准的信息检索功能。
3.1 检索词扩展
利用维基百科中的同义词,可以处理大小写、简繁体、缩写、俚语等不同情况,例如,“凤梨”是“菠萝”的同义词,“AI”是“人工智能”的英译词,也是缩写。当用户在输入框中输入检索词后,先进行分词处理,然后根据同义词词库来进行检索词的扩展,从而获得更好的检索召回率。
3.2 时间维度
所谓的时间维度,包含两方面的内容。一是时效性,用户在检索时,返回的结果要考虑时效性。如检索小麦价格,则需返回当前的价格,而不是含有小麦价格的几年前的信息。二是时间性,针对用户在不同时期输入的相同的关键词,返回的结果也有不同。如在4、5月份的时候检索“小麦病虫害”,则有可能需要针对小麦发生的病虫害进行治疗,要给出在这个时期病虫害的防治措施;如果是在8、9月份的时候检索“小麦病虫害”,则有可能是在小麦播种前对麦种如何处理,和前面的检索结果要有所不同。
2.3 检索结果排序
通过检索词的扩展,结合时间维度,返回相关检索结果。针对检索结果,结合用户标签内容,对检索结果进行排序优化。
4 检索结果评价
针对搜索引擎的评价分为覆盖率、准确率、响应时间及输出格式等。由于网络资源的急剧增加,查全率很难计算,而响应时间和输出格式,不同的搜索引擎几乎相同,所以用户更关心的是准确率,即能否找到满足自己需求的信息。
如在中原农村信息港的搜索引擎中,输入“小麦病虫害”关键词,返回的结果如图l所示。
图2为同样以“小麦病虫害”为关键词的检索结果。
从返回的检索结果可以看出,中原农村信息港的搜索引擎的检索结果准确性更高一些,不仅提供了相关视频,还提供了相关防治技术,时效性更强。
5 结论
本文结合中原农村信息港搜索引擎建设要求,提出了基于用户标签和时间维度的信息检索方法。首先,基于维基百科知识库,利用用户注册信息和历史浏览记录,自动生成用户标签;然后,利用维基百科的同义词库,在用户检索时扩展检索词,考虑时间维度,结合用户标签对检索结果进行优化排序,提高了检索结果的时效性和准确率。利用搭建的搜索引擎系统,为用户提供精准的信息检索功能。在构建用户特征模型方面主要包括根据用户注册信息和浏览历史生成用户标签,在用户检索时依据历史行为的时间维度,结合自建数据库内容,为用户提供高时效、精准的信息资源。下一步的工作是构建农业领域本体,针对用户标签和检索结果进行消歧处理,为用户提供时效性更强、更准确的信息检索结果。