面向对话语料的标签推荐

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:Tianjun9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的迅猛增长,人们希望海量文本能被标记上合适的词标签,即用一个或几个词对文本内容进行描述,这样可以极大地加快人们的浏览速度。而且,好的标签对于提高文本分类、信息检索等自然语言处理任务的性能也具有极大的帮助。因此,出现了不少自动生成文本标签(标签推荐)的研究。与此同时,即时聊天、twitter、微博等各种方式的社会化网络迅猛增长,人们基于这些工具表达和交流他们的观点,这类数据与已有的网页文本有很大的差异,比如都具有一定的对话的特点、通常文本较短、结构松散(经常会有多人参与从而成为多方对话)。这些特点使得其标签的遴选存在更多的困难。目前直接针对这类文本的标签推荐研究还很少见,针对一般网页文本的标签推荐方法能否在这类数据上具有良好的性能仍然未知。本文关注于这类具有多方对话特性的短文本,就标签推荐、关联词挖掘及对话特点做了深入的研究,并提出了一种自动标签推荐方法。该方法首先在基于多项加权的框架下进行关键词抽取;再根据预先定义的POS模板序列进行过滤得到高频二元关键词;然后使用Apriori算法从大规模文本语料中挖掘出关联规则进行社会化标签拓展。最终,在同一度量标准下,从关键词、二元关键词和社会化标签中推荐top-n的标签。为此,本文的主要研究内容如下:1)对本文要处理的对话数据对象的关键特点进行了详细的分析。主要从对话格式、话语方式、话语风格、话语范围和话轮转换五个方面进行了阐述;2)针对对话数据的特点,在关键词抽取的研究中考虑对话者特征,并结合频率权重、句子权重以及位置权重,提出了基于多项加权的关键词抽取方法。进而根据预定义的POS模板序列进行过滤得到了二元关键词,在两类不同数据的比较评测实验中都表明了其有效性;3)将典型的关联规则挖掘算法-Apriori算法用于社会化标签拓展中,实验结果表明了其有效性;
其他文献
随着互联网的不断发展和革新,传统互联网本身的系统结构局限性产生了越来越多的问题,网络规模指数级增长、多宿主、流量工程、服务提供商的独立性等需求导致了路由可扩展问题
随着民用航空业的迅速发展,这对机场管理的各个方面都提出了新的要求,如不同航站楼生产管理系统信息的交互,不同的体系结构的融合,信息更新频率的设定等。互异分布式系统消息
目前,我国的电信行业已经进入了全业务运营的实施阶段。各电信企业在完成业务的重组,建立新的竞争优势的同时,更把目光投向未来,瞄准了一些发展潜力巨大的战略性新兴市场。在
RTEMS是支持多处理器的开源的商业级嵌入式实时操作系统,目前广泛应用于航空航天、通信、军工、医疗、科学计算等领域。RTEMS支持多种API,如POSIX、ITRON以及RTEMS Classic PI,
随着多媒体技术和网络技术的迅速发展,以及大量视频应用的广泛普及,视频内容呈现快速增长趋势。面对海量的视频,如何对之进行有效的管理,使用户能够迅速检索到想要的信息,成
随着数字出版市场的快速发展,以电子图书为代表的电子文档数量呈现爆炸式的增长。为了保证电子文档的安全发行与传播,数字版权保护技术作为数字内容网络发布的关键技术成为当
无线感知反应网络已成为计算机领域的最受关注的前沿课题之一。本文以无线感知反应网络在依托,提出一种智能楼宇系统的解决方案。   为了实现智能楼宇系统所应有的功能和性
计算机数控技术是装备制造业的重要支撑技术。高档数控系统在可靠性、精度、速度、安全性等方面提出了更高的要求。任务同步是影响操作系统性能和实时性的重要方面。非阻塞同
随着当今世界逐渐从信息化转型为数据化,模式识别和数据挖掘等领域面临越来越大的挑战。爆炸式增长的数据量使得特征选择过程成为大数据模式识别等领域必不可少的环节。特征也
城市生活产生了很多轨迹数据,这些数据能够帮助认识身边的城市,了解人们的活动模式,为居民和政府提供准确的参考信息。群体行为涉及社会活动,交通规划,军事监督等领域,在很多的应用