【摘 要】
:
随着互联网技术的发展,网络逐渐成为人们获取消息的重要途径,互联网上的各类文本数据呈爆炸性增长,其中中文影视剧本的增长也尤为明显。对于文本分类的相关研究已经取得突破性进展,然而对于中文影视剧本的分类仍然需要借助人工经验,使得剧本分类工作具有成本高、效率低等特点。当前,鲜有针对中文影视剧本主题自动分类的相关研究,因此,本文将对剧本主题分类进行进一步的研究。本文在主题生成模型的基础上,借助自然语言处理技
论文部分内容阅读
随着互联网技术的发展,网络逐渐成为人们获取消息的重要途径,互联网上的各类文本数据呈爆炸性增长,其中中文影视剧本的增长也尤为明显。对于文本分类的相关研究已经取得突破性进展,然而对于中文影视剧本的分类仍然需要借助人工经验,使得剧本分类工作具有成本高、效率低等特点。当前,鲜有针对中文影视剧本主题自动分类的相关研究,因此,本文将对剧本主题分类进行进一步的研究。本文在主题生成模型的基础上,借助自然语言处理技术,运用机器学习算法,提出一种新的混合模型:LDA结合SVM的混合模型。由于剧本的数据量大、稀疏等特点,首先利用TF-IDF算法建立带权重的剧本词语权重矩阵,同时,采用ISOMAP方法降低样本集的向量空间维度,降低处理复杂度,然后,将TF-IDF矩阵作为分类的输入参数;其次,对于LDA主题数确定方法,存在不准确、丢失可能隐含主题缺点,提出交叉熵结合困惑度的算法模型,进而确定LDA需要提取的最优主题数目,得到可能的主题数作为LDA输入参数;再次,传统主题生成模型借助于文档和段落、段落和语句、语句和词的相似性,而忽略了文本语句与语句之间的相似性,而LDA算法通过分析语句与语句之间、词与词之间的相似性可以弥补这一缺憾,因此,利用LDA算法挖掘剧本的隐含主题词,将LDA提取出的主题词作为最终分类的另一个输入参数;最后,由于单一核的SVM具有泛化能力弱和学习能力差等问题,因此针对剧本数据离散程度大等特点,使用提出的融合核(多项式核、条件正定核和高斯核)函数的SVM进行主题分类,得到最终剧本主题,该核函数有助于提高SVNM泛化能力以及主题抽取的精度。本文将经典的317篇剧本作为实验数据,并与KNN,贝叶斯,SVM的不同核函数的文本分类算法进行实验对比,结果表明本文提出的LDA-SVM算法能高效实现影视剧本的分类,剧本主题的最终分类准确率可以达到95%以上,其分类性能优于KNN,贝叶斯和普通SVM分类器。
其他文献
噪音污染是世界四大污染之一,环境中的噪音对人类的生理和心理都会造成伤害。随着全球汽车保有量的上升,汽车的排气噪音成为了环境中的主要噪音源。如何在有限的安装空间内设
城镇化水平的不断提升促使城市交通网络规模在不断地扩张,与此同时交通网络面临的灾害风险也不断加大。在各种灾害面前,交通网络脆弱的抵御能力不断显现,“级联失效、瘫痪崩溃”现象时常发生,造成城市不可估量的损失。因此,人们对于交通管理者如何在现有资源条件下实现城市道路交通网络高效可控及强应变能力提出了巨大的挑战。移动通信技术的发展带来了手机信令大数据应用时代,产生了海量、高精度的居民位置信息和活动时空轨迹
目的应用3.0T磁共振T1ρ及T2 mapping定量成像检查技术对颈椎椎间盘退变参照Pfirrmann分级标准进行比较、评估,分析T1ρ及T2 mapping值与受试者年龄、性别、位置以及颈椎椎间
随着社会的发展,不可再生能源,如石油和煤炭,正在日趋枯竭。浅层地热能资源以其可持续开发、无污染、经济节能、效率高等优点为人们所关注。目前,由于我国关于地热能开发利用
近年来中国出境游市场持续活跃,中英两国旅游业也随之不断发展。因此,中英旅游文本的翻译也显得十分重要。笔者受酒泉国际旅行社委托,承接其“欧洲深度游”项目相关材料的翻
近年来,水污染问题已经成为世界面临的主要污染问题。染料在给人们带来巨大经济效益的同时,也产生大量对环境有害的染料废水,如果这些废水未经有效处理排放到环境水域中,将导
目的对临床疑诊冠心病(CAD)的患者在静息状态下行首过CT心肌灌注显像(CTP),获得冠状动脉CT血管成像(CCTA)图像和心肌灌注图像,分析并评估冠状动脉狭窄及心肌血流灌注情况。定
随着经济的发展,机动车的保有量迅猛增加,城市拥堵问题日益严重。公共交通作为解决城市拥堵的最有效途径,近几年得到了快速的发展。为了提高公交车吸引力,减少机动车出行,我国主要采用公交优先策略,降低公交线路的延误,从而提高服务水平。但我国公交车具有发车频率高、车次多、流量大等特点,交叉口极易出现多辆公交同时请求优先的情况,目前国内解决交叉口多公交请求优先的冲突主要采用“先到先服务”和基于延误最小的优先策
导水裂隙带是矿井涌(突)水的主要导水通道之一,其发育高度对矿井防治水工作意义重大。陕西彬长矿区洛河组砂岩含水层是矿井安全回采的主要威胁之一,确定导水裂隙带高度以及判
矿井突水是影响我国煤矿安全高效开采的主要因素之一,其发生机理复杂,影响因素较多。桑树坪煤矿主采煤层1 1煤因其距下部奥陶系岩溶裂隙含水层较近,且隔水层厚度和组成在空间