基于word2vec的维吾尔文文本过滤研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:hainian3166
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大规模存储技术、互联网及数字通信业务的迅速发展,电子出版、数字图书馆、互联网网站以及移动通信正在引发着不断膨胀的文本海啸。这种快速、无序的信息增长对于信息的使用者来说却意味着混乱,是一种文本灾难。此外,污染互联网环境的无用、有害、非法信息到处散发,垃圾邮件和手机短信的侵扰,严重干扰了人们的学习、工作和生活,甚至对社会秩序、人们的切身利益构成严重威胁。因此,拨开海量信息的重重迷雾,以一种高效的方式汲取真正需要的养分,从而有效抵制无用、有害、垃圾信息的需求显得尤为重要和迫切。在这种背景下,文本过滤成为一个亟待解决的科学问题,引起了自然语言处理领域相关专家学者们的极大重视和关注,并已成为当今信息技术领域研究热点。  本文将多模式匹配算法、词向量以及维、汉词典结合在一起,研究了一种基于模式匹配的维吾尔文文本过滤方法。为了提高过滤召回率,利用 word2vec对选定的维吾尔文模式进行扩充,但是在扩充过程中,由于 word2vec目前不能直接处理维吾尔文数据,所以利用维、汉词典处理维吾尔文与中文之间的模式双向转换。此外,为了提高过滤准确率,结合维吾尔文的词法特性对于 wu-manber算法的匹配策略做了改进,不仅匹配词干还对词缀进行匹配,从而弥补了目前词干切分工具的不足和缺陷,提出了一种更适合于维吾尔文的多模式匹配算法—WSMM-ug算法。  最后,我们将以上技术和方法集成到一起,实现了一种维吾尔文过滤系统,并对不同类别的维吾尔文文本数据进行过滤。实验结果表明,该系统的准确率和召回率相较于未对模式进行扩充并且直接使用 wu-manber算法进行文本过滤都有不同程度的提高,过滤系统总体性能方面也有了进一步的提升。
其他文献
计算机系统的能量消耗在全球的所有耗能设备中占据着举足轻重的地位,功耗成为企业和用户选购计算机的一个重要参考因素。龙芯计算机采用我国自主研制的龙芯处理器生产而成,其
软件测试在软件开发过程中是一个极其重要的环节,但是软件测试本身却是一个过程复杂、耗时耗力且具有较高重复性的工作。为了提高软件测试的效率人们开发了多种适用于软件生
随着信息技术的发展,新型的数据流模型出现在数据挖掘领域中,这使得该领域的发展出现了新的挑战。由于数据流的动态性,使得已有的针对静态数据的成熟挖掘技术无法对这种连续
随着社会对信息化的要求越来越高,嵌入式技术获得了更广阔的发展空间。嵌入式技术的发展促使各种智能移动设备广泛的应用到社会的各个方面,而PDA(Personal Digital Assistant
多网接入平台支持GSM/TD-SCDMA/TD-LTE等多网络信号覆盖,同时提供宽带接入到桌面RRU(Remote Radio Unit:射频拉远单元)模式接入,其硬件结构不同于传统的直放站,因此现有直放
人脸识别技术因具有重要的科学意义和实用价值,在近几年得到了研究者的高度重视,成为当前模式识别和人工智能领域的一个研究热点。它可以广泛地应用到安全部门、身份鉴别、电
网格是一种新型的分布式计算技术,网格充分利用互连网络中现有的软硬件资源,支持广域环境上的计算、数据、存储、信息和资源共享,消除信息孤岛,协同解决大型应用问题,以较低
无线传感器网络是一种由数量庞大的微型传感器节点构成的网络系统,这项技术逐渐成为各个国家科研机构的重点研究对象。该技术具有十分广阔的应用前景,有权威杂志和媒体就评价
测试用例是软件测试技术中的核心角色,测试用例的人工生成不能满足现代软件开发的需要,使得测试用例自动生成成为研究热点。在测试用例自动生成方法中,有基于规格说明和基于
互联网技术的飞速发展,使得网络上可交互的资源及信息量,在呈指数级的增长,信息量的膨胀却给人们带来了资源的匮乏感。原因便是信息量虽然在增长,但是,在庞大的信息量中,如何找到对