论文部分内容阅读
随着互联网技术的发展和普及,潜藏在使用率最高的互联网应用-搜索引擎背后的无限商机正吸引着无数的电商和企业业主,搜索引擎营销应用而生。竞价排名是通过向搜索引擎购买关键词而获得搜索引擎高排名的营销模式,由于成本低、见效快而深受喜爱。竞价排名的历史日志背后隐藏着很多信息,运用数据挖掘技术有用知识能为将来的竞价行为提供很好的指导作用。本文的研究方向就是基于竞价日志的数据挖掘,并为搜索引擎营销服务。
目前数据挖掘理论研究和技术应用已经非常成熟,数据聚类和时序数据分析是常见的技术之一。短期时间序列预测模型ARMA的简洁有效性使得它的应用非常普遍,用它分析互联网中的时序数据是很好的选择。
本文在查阅国内外相关文献,学习理论知识的基础上提出了系统全局模块的设计,并根据历史数据特征采取合适的算法和模型,以提升竞价排名效益。文章首先概述了搜索引擎营销的背景和基本概念,然后着重介绍其重要手段之一的竞价排名。通过对竞价排名模式的分析,提出详细研究目标和待解决问题,并分析对日志进行挖掘提取有用知识的可行性。进一步详细分析日志数据结构及其特征,讨论数据预处理的基本流程和其中涉及的关键技术。重点研究了数据聚类的算法,并在初始聚类簇选择和最佳聚类簇确定两方面优化传统的FCM算法。在数据预处理的基础上用时间序列(ARMA)模型去描述本文日志数据中的时序序列。在介绍ARMA模型及其建模过程的同时,针对本文的数据和系统设计需求,对算法做了适当改进并通过实验予以验证。
最后总结目前的研究工作,简述基于历史日志挖掘的竞价选词平台的设计构想。分析各模块的当前设计目标和详细功能,并提出进一步的改进方向。同时以某电子商务网站使用测试系统的实际情况,分析系统缺陷及导致原因。