论文部分内容阅读
随着互联网的兴起,网络广告成为各大门户网站、搜索引擎、社交网络的主要赢利方式。网络广告就是在网站上使用广告横幅、文本链接、多媒体的方式,在网络上刊登或发布广告,通过互联网传递到网络终端用户的一种高科技广告运作方式。目前互联网广告的市场正在以惊人的速度增长,互联网广告发挥的效用越来越显得重要。以致广告界甚至认为互联网将成为继电视、广播、报刊传统三大媒体之后的第四大媒体。
2008年,第十九届ACM-SIAM学术讨论会上,雅虎研究院资深研究员Andrei Broder首次提出了计算广告学的概念,他认为,计算广告学是一门由信息科学、统计学、计算机科学以及微观经济学等学科交叉融合的新兴分支学科。美国斯坦福大学也开设了计算广告学这门课程。在此课程里认为计算广告学足一个正在兴起的交叉学科,涉及到大规模搜索、文本分析、信息检索、统计建模、机器学习、分类、优化、微观经济学。计算广告学的中心议题是找到特定情景下的用户和适合的广告间的最佳匹配。这里的情景可能是用户发起一次搜索、用户访问一个网页、用户观看一部电影等等。
本文将以提高广告系统投放效果即CTR为目的,结合业界在数据挖掘和分布式计算领域研究的经验和知识积累,给出基于CTR预测的CPM广告投放策略。在数学建模和数据挖掘方面,积极借鉴采用了业界知名公司如雅虎、谷歌、微软等的先进成熟经验,同时与本系统的个性需求相结合;在工程实现方面,广泛利用了业界成熟的开源技术,如hadoop、NOSQL数据库、zookeeper等,为系统数据计算和实时计算提供稳定高效的技术支持。本文给出了从数学模型、存储方案、计算框架、整体设计等多方面的策略和设计,并实现了一套完整的分布式解决方案。本系统的特色在于使用海量的用户行为习惯,对用户行为进行分析,精准预测不同用户对不同广告的CTR,结合稳定高效的工程实现,保障服务的性能和效果。