论文部分内容阅读
在媒体行业中,新闻采编是一件费时费力的工作。通过信息化的手段实现新闻采编的自动化,帮助新闻记者提高工作效率,是一项具有实用价值的研究课题。争议性新闻是新闻报道领域的一个重要主题,往往能引起较高的社会关注,具有潜在的新闻报道价值。随着Web2.0时代的到来,越来越多的用户通过社交网络发布消息,使得争议性新闻的自动发现成为可能。 本文主要进行争议性新闻在线发现与采编方法的研究,通过社交媒体自动发现争议性新闻线索并推送到新闻智能采编系统,帮助新闻记者进行新闻调查和报道。主要研究工作有: 1.提出基于语义模式的争议性新闻在线发现方法。针对争议性新闻的语义特点,通过标注数据集进行争议性新闻语义模式挖掘;使用语义模式匹配的方式从社交媒体实时数据流中自动发现争议性新闻线索。此方法每天从社交媒体网站自动发现40多条争议性新闻线索,准确率达到63.6%。 2.设计实现新闻背景资料的实时采集方法。针对新闻背景资料采集的时效性需求,设计实现在线分布式数据采集架构;针对社交媒体网站的数据访问限制,设计相应的反封堵策略,使得系统具有较高的采集效率和稳定性。 3.设计实现新闻智能采编系统。基于争议性新闻线索,为新闻记者提供一个智能采编平台,帮助其进行争议性新闻报道的选题、新闻背景资料的搜集和新闻报道的编辑,改善了新闻记者的工作方式。