基于独立性验证和因果推理的贝叶斯网络结构学习

来源 :吉林大学 | 被引量 : 0次 | 上传用户:dave463
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
贝叶斯网络(Bayesian network,BN)是一种基于概率论和图论的数学模型,为不确定性条件下的知识表示和推理提供了一种明确清晰、图形化和可解释的表达形式。然而学习最优的BN是一个NP难问题,因此研究人员从概率推理、信息论、结构学习、参数估计、特征选择以及集成学习等角度结合启发式等学习策略提出了许多方法来进行BN的研究。但就目前已经发表的成果来看,BN还存在以下几个问题需要解决:1)目前大部分有关BN的研究都属于急切式学习(或积极学习),试图基于训练数据构建一个对所有测试实例都有效的分类器。然而学得这样“完美”的分类器是极其困难的,而且分类器无法针对不同的分类问题采取不同措施,只能根据训练数据学得的知识进行分类,忽略了隐藏在测试实例中可能有利于分类的信息;2)在BN的拓扑结构中,属性间依赖关系在信息论与概率论角度上的度量差异可能导致度量函数对条件独立性的描述不一致。例如研究人员普遍采用诸如条件互信息的度量函数来度量BN拓扑结构中属性间的依赖关系,然而受限于其信息化表达形式而无法度量特定属性值之间的概率依赖(或独立)性,即属性间信息论意义上的依赖(或独立)关系并不意味着对应属性值间概率论意义上的依赖(或独立)关系始终成立。这种差异性的忽略可能会影响BN的知识表示能力;3)虽然BN又被称为信念网络或者因果网络,但目前人工智能领域中有关贝叶斯网络因果关系的研究是一个很有争议性的课题。属性间因果性的定义远比相关性的定义复杂微妙得多。如条件互信息表达式的对称性决定了其只能描述无向相关性,而非有向因果性。基于BN的有向无环特性,现有BN的研究通常使用了人为定义的弧定向策略,然而该策略并不能体现真正的因果关系。针对上述几个问题,本文的主要贡献如下:1)通过假设同一类标签下的所有实例都是条件独立的,并且都源于同一概率分布,将条件独立同分布(Conditionally independently and identically distributed,c.i.i.d.)假设引入到BN中,并对BN结构学习中广泛使用的基于信息论的度量函数进行推广,旨在更细粒度化地度量隐藏在训练数据(或测试实例)中的属性(或属性值)之间的依赖关系。在此基础上提出半惰性式贝叶斯网络分类器(Semi-lazy Bayesian network classifier,SLB),通过构建一系列基于类标签和测试实例的局部贝叶斯网络分类器来挖掘未标记实例中属性值之间的隐式依赖关系。实验证明SLB与其它主流最新的算法相比分类性能更优、分类效率更高。2)证明了信息论和概率论在度量条件独立性方面的差异会导致条件独立性描述的不一致性,重新定义了信息与概率条件独立(或依赖)的标准,并提出一种新的BN学习框架——分层独立阈值法(Hierarchical independence thresholding,HIT),用于识别BN中属性间的信息独立性和概率独立性,并基于识别结果提出使用一种自适应阈值方法滤除冗余依赖关系。该算法的目的在于构建一个能够描述信息论与概率论意义上条件依赖之间映射关系、区分对应关系依赖性与独立性的BN学习框架。实验证明HIT可以同时改善具有高阶依赖表达能力的贝叶斯网络分类器的0-1损失函数、均方根误差、偏差和方差结果。3)从信息熵的角度对贝叶斯网络中的因果关系进行了探索性的研究,首先基于对似然函数定义了联合熵函数与BN拓扑结构中联合概率分布的映射关系,然后在此基础上提出了类条件熵和局部条件熵函数来识别拓扑结构中属性间的因果关系。最后提出了一种基于类标签驱动的启发式结构学习方法来构建可以兼顾有标签数据拟合和无标签数据泛化的贝叶斯网络分类器。实验证明,在0-1损失函数、偏差和方差方面,新算法与其它主流最新的算法相比具有显著优势。
其他文献
本文选择华北克拉通北东部吉南–辽东地区早白垩世火山岩作为研究对象,通过野外观察,并结合室内岩相学、锆石U-Pb年代学、全岩地球化学和Sr-Nd-Pb同位素的研究,厘清了华北克拉通北东部吉南–辽东地区早白垩火山岩的岩石类型和分布规律,查明了早白垩世火山岩的岩浆源区性质和岩浆演化过程,探讨其形成的构造背景,揭示了华北克拉通北东部早白垩世岩浆作用的深部过程,进一步结合地质及地球物理等方面已有的研究成果,
本文以松嫩地块上东风山群红林组和佳木斯地块上麻山群西麻山组和马家街群以及两地块上新元古代变质变形的火成岩组合为研究对象,通过变沉积岩和侵入其中的花岗岩中的锆石进行LA-ICP-MS U-Pb年代学研究,确定了松嫩地块上东风山群红林组和佳木斯地块上麻山群西麻山组和马家街群的形成时代,并讨论了其沉积环境、物源及构造背景;通过对松嫩地块东缘和佳木斯地块西缘变质变形的火成岩组合进行锆石LA-ICP-MS
本文主要研究了几类整数值自回归模型的统计推断问题.首先,基于经验似然方法,研究了一阶整数值泊松自回归模型的统计推断.给出了参数的极大经验似然估计和置信域,同时给出了检验稀疏参数是否随机的方法.通过数值模拟,验证了提出方法的可行性.并利用上述方法分析了一组因烧伤索赔次数的实际数据.其次,提出了马尔可夫转换的一阶整数值自回归过程.讨论了过程的基本性质,给出了未知参数的条件极大似然估计,并通过数值模拟研
同核双原子分子及离子借助高对称性的阿贝尔点群D∞h下的D2h子群来精确的描述基态和激发态的电子结构。这类分子及离子的电子态波函数具有明确的奇偶性,使得电子态之间的跃迁及自旋-轨道耦合效应(SOC)具有较为严格的选择定则。碳族和氧族的双原子分子及离子的激发态具有较高的电子态密度,密集分布的电子态之间的自旋-轨道耦合作用可以导致一些束缚态的预解离,造成谱带的断裂或者弥散,增加了光谱分析和标识的难度。另
生命系统在应对自然环境变化时,通过借助自身的传感反馈机制和驱动功能来调整其复杂结构以适应新的环境。科学界试图通过参考自然的方式开发新材料和应用。然而,摆在研究者面前的难题是如何模仿自然中的活跃微环境以创造出具有动态和可调节特性的响应材料。刺激响应性聚合物,也称为“智能材料”在科学界引起了极大的兴趣。智能材料在受到外界环境条件的微小变化,如温度、光、压力、电等改变时,材料内部会做出响应的微观结构或构
本文以中亚造山带东段额尔古纳地块和兴安地块为研究区,选取了区内不同时代和不同出露位置的代表性花岗岩作为研究对象,并对其中不同单矿物进行了元素和多重同位素分析测试工作,包括长石原位Sr-Pb同位素、磷灰石原位Nd同位素和锆石原位Hf同位素。依据单矿物Sr-Pb-Nd-Hf同位素组成的时空变异,并结合花岗岩全岩地球化学特征,明确了额尔古纳地块和兴安地块的地壳属性;通过锆石Hf同位素数据,建立了额尔古纳
格子Boltzmann方法自20世纪80年代末诞生以来,迅速成为一种处理计算流体力学、计算传热学乃至偏微分方程数值求解领域的一种新型方法。由于格子Boltzmann方法相较于传统的数值求解方法具有算法并行性好、程序易于实现、边界适应性强等优势。它受到了来自各领域科技工作者的持续关注,并在进入21世纪后得到了长足的发展。本文使用格子Boltzmann方法,在非线性Schr(?)dinger方程的体系
时间序列分析在保险精算、环境污染控制、企业经营管理、流行病学等领域都有着广泛的应用.它所研究的实际数据,往往反映着某一现象的统计指标,因而,时间序列背后是某一现象的变化规律.这是一门关心动态数据的学科,比如可以应用于监控医保卡的违规使用情况、理解金融产品的动态发展机制、或是预测某一地区未来各月的降雨量.这也是一门擅长解释自然与社会现象的学科,比如令地球物理学家困惑的问题,随着陆地和海洋温度的升高,
气候变化、环境演变等重大环境问题与人类活动密切相关,是近几十年来科学家们一直研究的热点。尽管对流层的数据可以作为季节性天气预测的数据来源,但中层大气的气象数据在气候变化预测中也变得愈发重要。从21世纪以来,越来越多的数据模型增加了对平流层甚至是中间层的大气动力学研究。与对流层相比,中层大气演化速度更慢,来自中层大气的向下传输影响可能导致地表的持续且可预测性的变化。所以对中层大气特性进行观测并分析其
天然离子通道在生命体的正常生理活动中扮演着非常重要的角色,参与了许多基本的生理活动。高度专一的选择性是天然离子通道的一个吸引人的特点。天然通道由于存在不易提纯、体外容易变性等问题给直接研究蛋白离子通道的选择性带来了很多困难。然而仿生离子通道则具有稳定、结构相对简单等优点,对仿生离子通道的研究有助于我们理解天然蛋白离子通道。仿生离子通道主要分为仿生阳离子通道和仿生阴离子通道。仿生阴离子通道中大多数为