论文部分内容阅读
文摘是有关文章主题等内容尽可能简要的描述,自动文摘就是计算机自动编制文摘. 该文以中英文自动文摘系统为研究核心,深入分析了自动文摘系统和与其相产的若干理论和技术.该文的主要内容包括:1)从目标文摘组织方式的角度对文摘系统进行了分类;对自动文摘系统和摘录型自动文摘系统进行了数学上的抽象,归纳出了数学模型,对主题的表示和语义距离/语义重合度的计算方法进行了讨论.2)对文章结构进行了细致、深入地分析.总 结了常见的文章体系结构,分析了它地文摘生成的指导意义;提出了一种采用联想和信息增量技术进行新词识别的方法;对文章结构元素的识别进行了细致地分析,重点构造了多级小标题的识别方法.3)研究了基于语料库的自然语方处理的发展过程和语料库的建设、规模、标注、知识获取等问题;设计了一种大型汉语词库的树型、分层高效存储方法,并以此为基础构造了一种携带分词信息文本的压缩算法.4)对汉语语法时行了研究,作者首次分析出英语语方理论模式无法很好地应用到汉语中的根本原因为:汉语是面向语段的语言,而英语为面向句子的语言.提出了汉语话题的概念,总结了它和汉语主语的区别,对汉语话题和主语的关系、话题和主语的识别方法以及话题在自然语言处理中的应用进行了深入研究.5)对文摘和文摘系统质量的评价进行了探讨.定义了5个文摘质量评测的指标:覆盖率、压缩率、 流畅度、冗余度、平衡度;作者率先提出了衡量文章句子重要性分布的S映射和S曲线的概念,并根据S曲线设计一种文摘系统质量的自动评测方法.6)设计和实现了一个实用的、适用 于非受限领域的中英文自动文摘系统(AAS-CE).作为系统的主要设计者和英文部分的设计和实现者,作者重点介绍了文本预处理技术、英文词频统计和中英文词、句子的加权函数和文摘长度的控制方法;最后设计并实施了AAS-CE系统的Turing测试,测试结量表明:该系统已经具有了较高的智能水平.