论文部分内容阅读
互联网时代,信息量飞速增加,网络用户数量也不断增长,人类正在通过信息技术将历史上曾经生产的种种媒介内容融入比特之海,同时以史无前例的速度继续生产内容。信息量的急速增加,一方面为人们提供了丰富的信息资源,另一方面也对高效的信息获取技术提出了更高的要求。以前信息生产和流通,主要遵循“先过滤后发布”的原则,大众媒体、学校、专家权威等扮演了把关人和过滤器的角色,用户做为受众群体,虽然方便了信息的获取,但是接触信息受限;随着Web2.0技术的发展,互联网信息平台越来越开放,信息的发展则趋向于“先发布后过滤”,用户能够接触到的信息量激增,但是需要自己主动去过滤并发现信息。如何在海量动态信息环境下更加快速的查找有效信息吸引了越来越多的研究人员和企业的关注,同时信息获取的方式和效率也影响互联网用户的使用感受。如果能够了解用户的想法或者说是用户当下的意图目的,那么利用信息技术和方法则可以更好的解决这个问题。目前的信息服务可以分为两类:一类是用户主动型,例如搜索引擎,基于搜索引擎的优化注重结果之间的排序和关系;另一类是用户被动型,例如推荐系统、邮件过滤系统等。然而,这两类技术针对用户意图的预测主要是基于少量用户输入的关键词或者用户的profile信息,对用户使用互联网时的当前意图的预测不够精确。
本文提出利用机器学习方法,在用户浏览上下文中捕捉并抽取行为动作,并以此来预测用户短期内意图。系统借助于预测出的用户意图或目标描述,改进内容过滤算法,为用户推荐网页以帮助用户更快更好地过滤信息。本文的主要工作是构建一个跨语言的中英文意图预测与推荐模型,该模型是在开源浏览器MyIE平台上实现的新的WebMind浏览器。模型针对用户个体的需求,在客户端实时记录并分析用户网络浏览的历史数据,在用户请求推荐时驱动模型预测短期内用户的信息需求并生成网页推荐。本文通过文献调研与分析,结合心理学的相关专业知识与浏览行为的特点,构建了一个系统化的网络浏览指标体系来指导行为特征的选择,模型通过对web网页的预处理、中文分词等操作生成一个网络浏览序列,针对每个词项建立行为特征向量。通过实验对比,发现决策树算法可以更好的应用于该数据集,因此本文选择利用决策树C45算法来预测意图关键词。在得到用户的意图关键词之后驱动Google搜索引擎匹配用户想要的网页内容,并抽取网页推送给用户。从用户实验结果可以看出,推荐结果评分较高,用户对大部分的推荐结果评价为“满意”。