基于web的中文文本挖掘研究

来源 :大庆石油学院 东北石油大学 | 被引量 : 0次 | 上传用户:baimn1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息挖掘是目前人工智能领域和计算机应用领域研究的重要课题之一,基于Web的中文文本信息挖掘是信息挖掘的一个重要方面。互联网现在已成为一个巨大的信息源,如何让互联网信息更好地为人类服务,是我们面临的一个重要课题。一方面是人们对快速、准确获取所需信息的渴望,另一方面是Internet上信息的纷繁芜杂,如何在这两者之间架设一座桥梁是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术,基于Web的信息挖掘正悄然兴起,倍受人们的关注。目前Web挖掘的研究正处于发展阶段,需要在理论、实现方法与技术上进行更多的研究。 论文针对Web环境下中文文本信息挖掘的具体问题,主要研究中文文本信息挖掘的方法与实现技术。讨论了文本分类中的中文词切分、特征提取、特征表示、特征匹配方法,建立了基于神经网络的中文文本分类、聚类算法,在Web中文文本信息挖掘的设计中,对网页信息的表示、结构特点、网页控制符、HTML控制符号处理进行了详细分析与研究,构建了网页信息提取流程,并结合实际问题,给出了Web环境下中文文本信息挖掘的两个具体应用。
其他文献
本文在分析和研究当前计算机辅助教学(CAI)状况的基础上,采用积件化的设计思想,研究和开发了基于Authorware的多媒体课件自动生成系统。该系统将课件的内容和结构分离开,为教师
该文主要研究由重力加速度变化(如在飞机上)而引起的应力变异,在对应力变异语音有效分析的基础上,分别从基于特征和基于模型角度提出可以抑制应力变异影响的有效方法.从基于
数字指纹图像识别是人类生物特征识别技术中最早应用、技术最为成熟、价格最低廉的分支,被广泛地应用在刑侦破案、住宅安全,银行、证券、保险等金融机构的身份确认,重要区域的门
随着科学技术的飞速发展,信息高速公路的普及,人们已经被包围在信息的汪洋大海之中。Internet是海量信息源,而且其信息的组织是异构的、多元的和分布的。由于信息不断地更新和增
本文从SNP标记数据和基因表达谱数据的分析着手,以挖掘复杂疾病基因和研究基因功能为主要目标,发展创新的模式识别方法、数据挖掘技术和生物信息学领域知识匹配技术,提供SNP
自动语音识别技术(Automated Speech Recognition,简称ASR),它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论
对智能家居系统的研究虽然只有短短20年的历史,但其发展速度却是惊人的。现在很多家庭、小区都在某种程度上实现了“智能家居”。智能家居系统的一个重要设计部分是家庭网关的
本文提出了结合两种分形维数作为纹理特征的概念,考虑到分形维数的适用范围,又引入广义维数作为纹理特征的方法,以上述两种不同方法提出的纹理特征为基础,以基于内容的图像检索为
随着电子文本的普及和广泛应用,电子文本逐渐成为人们传递信息,记载重要文件的主要手段之一,针对电子文本的保密传输的研究应运而生.该文在充分调研国内外的相关研究后,结合
本论文对CAN总线技术在激光加工设备控制系统中的应用作了研究,并结合公司H04351项目在国内首次将其成功应用于激光焊接设备控制系统。目前国内的加工设备基本无法做到对激光