论文部分内容阅读
随着信息技术的不断发展,爆炸式增长的数据量为数据处理带来了新的挑战。在地铁系统中,每条线路包含数千个设备,设备在运行时会产生地铁日志数据,这些数据具有数据量大、数据类型多、消息格式多、变化多等特点。如何快速高效地解析地铁日志数据成为了运营地铁系统时需要解决的重要问题。地铁日志数据需要大量代码支持解析工作,而手工编写代码的方法已不能高效应对不断变化的多格式海量数据,成为存储和分析地铁日志数据等后续工作的瓶颈。针对上述问题,本文研究与设计了一套针对地铁日志数据的数据描述语言,在此基础上设计与开发了一个解析引擎,引擎通过对基于数据描述语言所编写的数据描述文件的解析,可自动化地生成用于解析和处理地铁日志数据的代码,并支持将生成的代码部署到实际应用环境中。本文首先介绍了数据描述语言的概念和数据解析技术,对比分析了几种自动化生成代码的方案;接着在需求分析章节,详细分析了地铁日志数据的特点和解析过程,提出数据描述与解析引擎的需求;在概要设计章节,将以数据描述文件为基础的解析引擎作为一个代码生成与部署系统进行了系统结构设计、模块化设计、架构设计和可视化界面设计,按照功能将系统划分为了代码生成模块、代码合并模块、代码应用支持模块和代码部署模块这四个功能模块;在系统详细设计与实现章节,首先介绍了针对地铁日志数据设计的数据描述语言,给出该语言词法、语法和语义的设计,通过举例展示了如何使用该语言描述地铁日志数据。接着借助流程图和核心代码对解析引擎各模块的设计与实现做了详细阐述;在测试章节对各模块功能实现和性能表现进行了测试和结果分析;最后,对本文的主要工作成果进行了总结,并对不足之处进行分析,对未来相关工作进行了展望。