中英文自动文摘系统及其若干相关技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xiaohan521325
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文摘是有关文章主题等内容尽可能简要的描述,自动文摘就是计算机自动编制文摘. 该文以中英文自动文摘系统为研究核心,深入分析了自动文摘系统和与其相产的若干理论和技术.该文的主要内容包括:1)从目标文摘组织方式的角度对文摘系统进行了分类;对自动文摘系统和摘录型自动文摘系统进行了数学上的抽象,归纳出了数学模型,对主题的表示和语义距离/语义重合度的计算方法进行了讨论.2)对文章结构进行了细致、深入地分析.总 结了常见的文章体系结构,分析了它地文摘生成的指导意义;提出了一种采用联想和信息增量技术进行新词识别的方法;对文章结构元素的识别进行了细致地分析,重点构造了多级小标题的识别方法.3)研究了基于语料库的自然语方处理的发展过程和语料库的建设、规模、标注、知识获取等问题;设计了一种大型汉语词库的树型、分层高效存储方法,并以此为基础构造了一种携带分词信息文本的压缩算法.4)对汉语语法时行了研究,作者首次分析出英语语方理论模式无法很好地应用到汉语中的根本原因为:汉语是面向语段的语言,而英语为面向句子的语言.提出了汉语话题的概念,总结了它和汉语主语的区别,对汉语话题和主语的关系、话题和主语的识别方法以及话题在自然语言处理中的应用进行了深入研究.5)对文摘和文摘系统质量的评价进行了探讨.定义了5个文摘质量评测的指标:覆盖率、压缩率、 流畅度、冗余度、平衡度;作者率先提出了衡量文章句子重要性分布的S映射和S曲线的概念,并根据S曲线设计一种文摘系统质量的自动评测方法.6)设计和实现了一个实用的、适用 于非受限领域的中英文自动文摘系统(AAS-CE).作为系统的主要设计者和英文部分的设计和实现者,作者重点介绍了文本预处理技术、英文词频统计和中英文词、句子的加权函数和文摘长度的控制方法;最后设计并实施了AAS-CE系统的Turing测试,测试结量表明:该系统已经具有了较高的智能水平.
其他文献
该文以上海石化股份有限公司委托化东理工大学建立1冷冻机组在线监测与诊断系统任务为背景,根据国内外状态监测与故障诊断系统发展趋势,结合冷冻机组的工况,设计开发了一套分
该文以有源磁轴承的轴向单自由度的控制系统为研究对象,主要对基于神经网络的非线性控制作了深入的研究.简要介绍了磁轴承以及神经网络在国内外的发展概况.讨论了磁轴承的机
首先,建立了RM501机械手的机构模型,详细分析了RM501机械手的运动学正问题和逆问题,获得了一组正解公式和逆解公式,并且对RM501机械手的运动学进行了仿真.其次,RM501机械手的
该文采用近年来飞速发展的INTERNET/INTRANET技术(网络数据库,POWERBUILDER/ASP/ADO数据库开发技术)以中小型企业为系统环境,提出了基于内联网/互联网的物料管理和控制的概念
该文内容包括以下几个方面:作为研究H控制思想应用于非线性控制的新结果,我们在一种工程应用背景之下,考虑了 类具有中立型不确定性的非线性生系统的鲁棒H控制问题,基于JJI不
图像的特征表示是计算机视觉和图像处理的一个基本问题,例如,在图像识别与分类问题中,同一个物体,由于受到拍摄环境、角度、距离、时期等的影响,在图像中会呈现出不同的变化;同理,
利用故障诊断技术,能保障生产系统的安全性,提高生产效率和减少维护费用.基于神经网络的故障诊断技术,在面对复杂系统时,与传统的诊断技术相比,体现了它明显的优越性,同时也
该文针对分散型控制系统扫展需求,在分析系统数据构架及任务调度的基础上,深入研究了上位机软件平台开几个关键技术,在Windows32位操作系统下用VisualC++设计并实现了软件平
该文首先回顾了数字水印的研究概况、重要性、水印特性、水印方案设计、研究方法及应用、攻击方法,基于小波的数字图像水印嵌入与提取方案,水印技术的存在问题及研究和发展方
CAN总线是一个多主站总线,网络上任意节点均可主动向其它节点送信息.笔者在充 分了解ADAM-5000/CAN的系统结构与功能特点的基础之上,深入地研究了CAN总线的通信协议DeviceNET