论文部分内容阅读
在中国互联网最初兴起的时代,百度用搜索引擎技术帮助亿万网民平等便捷的获取信息并找到所求,随着互联网不断的发展,从PC互联网到移动互联网,人与设备的交互场景更加丰富。Feed流是一种资料格式,网站通过Feed流的载体方式来将最新的图文以及短视频信息传播给用户。优质内容将在移动互联网和社交网络时代的广告中扮演更加重要的角色。用户对于内容的要求变得越来越高,甚至不满足于主动搜索,而是希望产品能理解自己的需求,这时候百度Feed业务的兴起也就变成了一种必然。本次研究的Feed流短视频内容生态建设系统专注于短视频内容的质量把控工作,即通过对短视频本身质量以及其所承载的内容质量的控制来保障整个Feed流短视频内容生态的稳定状态。本系统按数据流向排序主要包括:机器审核及机器辅助审核模块、人工审核模块、基础服务及数据服务模块。其中机器审核及机器辅助审核模块包括如下功能:短视频物理与内容的分析功能,短视频质量识别或标注功能。人工审核模块包括功能有:审核平台的用户管理系统、全库视频的干预功能、视频的快速审核和精准审核功能、高播放量和负面反馈视频的二次审核功能等。基础服务及数据服务模块主要功能为:视频数据流流日志功能、视频库数据迭代数据功能、高播放量及负面反馈数据统计功能、审核人员审核数据监控功能、基于Elasticsearch的全视频库干预搜索功能等。本人的主要工作成就为完成了系统的部分需求分析,以及相关的系统设计、系统逻辑以及代码开发和代码部署上线的整个过程,主要包括机器审核及机器辅助审核模块、人工审核模块、基础服务及数据服务模块部分功能的调研、研讨、设计和开发等工作。实现了对短视频内容生态质量的控制与性能保障。该系统主要使用以PHP语言为开发场景的Yaf框架为主体研发框架,以Linux操作系统为基础运行在Nginx服务器上。数据交互功能技术选型主要为:MySQL数据库技术、Redis存储技术、MongoDB存储技术、Tera存储技术。为提升Web层面的搜索效率、机器间的通信性能及数据处理方面的性能,除上述LNMP(Linux、Nginx、MySQL、PHP)为主体通过HTTP协议、FTP协议交互的研发环境外,本系统分别应用Elasticsearch搜索引擎技术和Python语言、Shell脚本命令进行相应功能研发。经设计与开发最终达到了预期目标,但仍有待改进的模块功能逻辑和技术实现方式,希望读者可以以批评的态度给予本人相应意见。