【摘 要】
:
随着信息技术的普及,各大新闻网站每天的新闻资源骤增,为了改善“信息过载”问题,学者们对新闻推荐一课题展开了广泛研究。现有的技术手段多为先提取新闻的特征,然后分析用户的兴趣偏好,从而根据两者的匹配程度进行推荐。值得注意的是,实际生活中的新闻包含的信息形式多种多样,除了文本外还夹杂着图片、视频、链接等内容,这些信息的异构性导致难以在统一的框架中利用这些信息,提取新闻特征的推荐系统变得过于复杂,而单是提
论文部分内容阅读
随着信息技术的普及,各大新闻网站每天的新闻资源骤增,为了改善“信息过载”问题,学者们对新闻推荐一课题展开了广泛研究。现有的技术手段多为先提取新闻的特征,然后分析用户的兴趣偏好,从而根据两者的匹配程度进行推荐。值得注意的是,实际生活中的新闻包含的信息形式多种多样,除了文本外还夹杂着图片、视频、链接等内容,这些信息的异构性导致难以在统一的框架中利用这些信息,提取新闻特征的推荐系统变得过于复杂,而单是提取文本特征又不足以全面的刻画新闻。针对上述问题,本文从实际应用角度出发,对新闻推荐进行了研究,主要研究内容如下:不同领域新闻的受众群体呈现不同特性。与其他领域新闻不同的是,关注体育新闻的用户群体会密切关注正在进行的赛事或相关体育新闻,在新闻报导刚刚出现或更新的时候积极提交反馈表达自己观点。针对这类用户反馈行为的时间特征本文使用基于用户的协同过滤推荐算法完成此类新闻推荐。同时使用Scrapy根据应用场景需求编写爬虫采集了虎扑网站上的新闻数据,基于真实新闻数据集进行了仿真,评测了精确率、召回率和F1值。通过在真实新闻数据集上的仿真发现,常用的几种相似度计算方法存在一定弊端,本文提出了结合用户活跃度的相似度计算方法,通过三种方式来计算用户活跃度,并使用基于用户活跃度的协同过滤推荐算法在真实新闻数据集上对新闻推荐的精确率、召回率和F1值进行了计算,并用基于用户的协同过滤推荐作为基线算法进行了对比,结果表明基于用户活跃度的协同过滤推荐算法大幅优于基线算法,具有一定实用价值。基于用户的协同过滤推荐适用于用户兴趣偏好相对稳定的应用场景,而如果考虑到用户兴趣偏好随时间不断偏移的情况时,该方法就存在一定局限性,为此本文提出了基于多层感知机的用户行为多分类的新闻推荐算法,新算法通过对积极反馈的用户行为分类而不是通过计算相似度来挖掘用户潜在关联,将新闻推送给同一类别中的活跃用户进而实现新闻推荐。同样在真实新闻数据集上进行了仿真,分析了新闻推荐的精确率、召回率和F1值,结果表明各项指标与前述算法性能相当,但所用时间与存储空间大幅减少。针对小规模新闻数据集训练多层感知机时可以采用人工标注的方式生成训练集和测试集,但在真实应用场景下,新闻数据集体量大,导致人工标注耗时耗力,为此本文探索实现了机器标注方式来提高效率。分别使用均匀流型近似与投影算法和t分布的随机邻域嵌入算法对数据进行降维再分别使用K均值聚类算法和标签传播算法进行标注来生成训练集和测试集。使用上述两种标注方式训练得到的多层感知机实现新闻推荐,并在真实新闻数据集上对精确率、召回率和F1值进行了评测,结果表明推荐效果略低于人工标注,但标注效率大幅提高。
其他文献
近年来,随着互联网经济的发展和全球信息科技的飞跃,媒体在内容和渠道层面都出现了许多变化,多种媒体形式互相融合的态势不断体现出来。“全媒体”逐渐进入大众视野,并引起学
本文综合运用多语种文献资料和文献分析法,还原20世纪法国社会历史背景,多重视角地分析法国藏学萌芽的原因。梳理了20世纪上、下半叶法国藏学的萌芽、发展、停滞和探索各阶段概况。列举了具有代表性的法国学者大卫·妮尔、雅克·巴科、列维以及石泰安等人的藏学研究内容,阐述了法国学者对藏族文化、敦煌藏文文献、藏族语言文字及英雄史诗《格萨尔》的研究情况,力求以小见大,归纳出20世纪法国藏学发展的基本情况。法国是欧
N-S方程是流体力学中的核心的基本方程,是一个非线性偏微分方程,其高难度从以下问题中可见一斑:即使仅讨论其通解的存在性,也成为著名的"千禧年7大数学难题之一"。流体力学家
由于环境因素的影响,预应力锚索易产生腐蚀,降低结构的工作寿命,产生严重的安全隐患,造成巨大的经济损失。同时,预应力锚索深埋在混凝土结构中,导致锚索腐蚀具有时间随机性、空间随机性、隐蔽性等特征。此外,工程常用监测方法存在缺陷,对锚索的腐蚀难以实现长期有效的实时监测。因此,研究实际工程环境中的预应力锚索的腐蚀规律是有挑战性的。本文针对预应力锚索的腐蚀问题,进行基于螺旋分布式光纤的预应力锚索腐蚀规律的研
绩效评价管理体系是我国各级政府组织实施预算和目标资源治理的重要绩效评价手段。虽然目前我国的财政支出绩效评价制改革已经开始取得初步成效,但我国财政支出的绩效评价体系建设中的突出问题依然普遍存在。这主要是由于目前我国的财政预算资金支出的绩效评价管理体系的基本建设尚处于初期起步的阶段,财政预算的支出使用率和绩效评价管理水平不高,财政资金的绩效评价不能在实践中得到有效评价。本文通过研究预算支出绩效评价过程
当今世界经济环境风云变化莫测。经济危机,黑天鹅事件的发生,各国经济相互影响更加紧密,科学技术迭代加速等使企业所面临的环境更加复杂,也更加的严峻。时代在变化,时代要求也需要更加有能力的企业家为企业的发展引领方向、保驾护航。而与此同时,企业该如何发展,企业又该如何能做到基业长青,又该如何在竞争不断加剧,愈发激烈的环境中不被打败。本文认为企业应该,也没有选择的需要进行其战略变革。本文的出发点是每一位企业
针对某型相控阵雷达波束内跟踪目标数量较少的问题,为了实现对编队飞行卫星等空间多目标的连续跟踪和实时轨道测量,采用多目标航迹关联技术,利用波束内多目标的探测方式,设计
油茶果是植物油茶的果实,油茶果最主要的用途是用来榨油,榨出来的油脂含有较高的不饱和脂肪酸,营养价值极高,不亚于橄榄,被誉为“东方橄榄油”。由于油茶果具有如此高的营养价值和生产价值,国家一直在努力推广油茶果的生产及开采,将其作为天然木本食用植物油,但由于油茶果成熟后需要尽快采摘干燥炼油,所以我国乃至全世界现在采用的生产方式仍为先采摘油茶果,然后自然堆砌干燥,再经过人工剥壳及筛分,这种生产对天气的要求
在2017年1月9日出台《中共中央国务院关于加强耕地保护和改进占补平衡的意见》提出耕地数量、质量、生态“三位一体”保护的新要求以及提出“建立健全耕地质量和耕地产能评价制度,完善评价指标体系和评价方法”的背景下,其核心目标是保障耕地总生产能力在未来不降低,粮食安全有保障。因此,进行耕地产能评价调查精确掌握耕地生产力必不可少。同时现有的耕地产能评价制度为2012年发布的《农用地定级规程》以及2018年
当今的商业模式正在被全民推崇的大数据、人工智能等新一代的信息技术所改变,在这个动态、混沌的商业背景下,2019年我国汽车产销量再次蝉联全球第一,分别是2572.1万辆和2576.9万辆,而实现巨大汽车产销最后环节的汽车销售人员则发挥着重要的作用。因此,如何有效地利用绩效考核来提高汽车销售人员的实际工作绩效能力,成为众多汽车销售企业经营管理者关注的重点。但在实践中,一些汽车销售企业把绩效考核仅仅表现