论文部分内容阅读
室内空间,作为核心的活动场所,占据了人类日常生活近90%的时间。另一方面,室内传感基础设施和移动智能终端近年来也取得了长足的进步和发展。在两方面因素的共同作用下,由室内用户产生的移动数据正前所未有的速度持续地增长着。对规模庞大的室内移动数据进行适当和有效的分析挖掘,将揭示和发现许多过去难以获知的有价值信息,有力地支持包括顾客行为分析和精准营销、安防及紧急救护、仓储和物流管理、资源规划及优化、环境污染及疾病预防在内的室内智能位置服务。然而,室内移动数据受到室内定位条件和复杂动态的室内环境的影响,存在以下固有的问题:i)因采样稀疏和观测不充分引起的时空不确定性;ii)因脱离上下文引起的语义不确定性。这些不确定性给分析应用带来了巨大挑战。为应对这些挑战,本文充分考虑了室内空间拓扑、室内对象移动和室内定位机制的一般性特点,对室内移动数据普遍具有的不确定性进行了通用的建模和分析,以解决重要的移动知识挖掘问题。本文提出的不确定数据分析挖掘的方法和解决方案,具有通用性和可扩展性,能广泛用于普适环境下获得的室内移动数据,有效降低当前室内数据智能服务的开展条件。本文主要贡献及创新点如下: (1)本文提出并研究了面向时空不确定性的室内区域密度分析计算模型以及相应的密集区域挖掘方法。其中,用于分析的在线室内定位数据仅包含每个移动对象的最新室内位置报告信息。对室内密度的定义和计算模型进行了设计,以适应由离散的、老旧的室内定位结果引起的对象位置不确定性。对密集区域挖掘计算中涉及的时空不确定性进行了系统的分析,以推导得出室内区域密度的有效上下界。利用推导的密度上下界,设计了高效的室内密集区域挖掘算法。通过在合成数据集和真实数据集上的实验评估,充分验证了提出的密度分析计算模型的有效性和密集区域挖掘方法的高效性、可扩展性。 (2)本文提出并研究了面向时空不确定性的室内语义位置流量分析计算模型以及相应的热点语义位置挖掘方法。其中,用于分析的历史室内定位数据将移动对象在过去某时刻的位置描述为一组概率样本。对室内流量的定义和计算模型进行了设计,充分考虑了移动数据的时空不确定性和室内拓扑限制的特点。为提升流量计算的效率,设计了加速相关数据访问的数据结构、减少中间处理数据量的数据规约方法,以及总体的室内流量计算算法。利用流量计算技术和空间剪枝技术,设计了基于最佳优先搜索的室内热点语义位置挖掘算法。通过在真实数据集和合成数据集上的实验评估,充分验证了提出的流量分析计算模型的有效性、流量计算算法的高效性以及热点语义位置挖掘方法的高效性和可扩展性。 (3)本文提出并研究了面向时空和语义不确定性的室内用户移动语义挖掘方法。其中,用于分析的原始室内定位序列存在定位错误、采样稀疏及缺乏语义信息等问题。提出了三层结构的挖掘模型及对应的数据处理方法来抽取合理有效的移动语义元组。在清洗层设计了基于室内移动性约束的数据清洗方法,以消减原始序列中的数据错误。在标注层设计了基于时空密度的序列分割方法将清洗后的序列划分为多个片段,同时设计了语义匹配方法对分割片段进行标注以构建对应的语义元组。在补全层设计了基于概率推断的数据补全方法,利用从历史数据中获得的移动知识来恢复序列中缺失的移动语义。通过在真实数据集和合成数据集上的实验评估发现,设计的挖掘模型可高效地对原始定位数据进行处理,得到与真实情况相符的准确语义元组;挖掘的移动语义也能对典型的数据查询进行有效和高效的应答。