AI造图新境界!OpenAI提出的可逆生成模型,比GAN更具潜力

来源 :海外星云 | 被引量 : 0次 | 上传用户:kumufengchun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  最近,著名人工智能研究组织OpenAI发布了其最新工作:《Glow:更好的可逆生成模型》(《Glow:BetterReversible Generative Models》)。
  据文章介绍,Glow是一个可逆的生成模型,它使用了可逆的1×1卷积。它基于以前关于可逆生成模型的研究,并简化了体系结构。该模型能够生成逼真的高分辨率图像,支持有效的采样,并能发现可用于数据处理的特征。研究人员公开了模型代码和一个在线可视化工具,以便人们能够使用这个模型并继续开展研究。
  生成模型是基于观察数据,然后学习出如何生成这些数据的模型。学习数据生成过程需要学习数据中存在的结构,成功的模型应该能够生成与数据相似的输出。精确生成模型具有广泛的应用,包括语音合成、文本分析与合成、半监督学习和基于模型的控制。研究人员提出的技术也可以应用于这些问题。
  Glow是一种可逆的生成模型,也称为基于流的生成模型,是NICE和RealNVP技术的延伸。相比于GAN和VAES,基于流的生成模型在研究领域中关注较少。

而基于流的生成模型的优点包括:


  精确的潜变量推断和最大似然估计。在VAE中,只能近似推断对应于数据点的潜变量的值。GAN根本没有编码器来推断潜在的情况。在可逆的生成模型中,推断潜在情况可以在没有近似的情况下精确完成。这不仅可以导致精确的推断,而且还可以优化最大似然估计。
  有效推理和有效生成。自回归模型,例如PixelCNN,也是可逆的,但是从这些模型很难并行化,而且通常在并行时效率很低。基于流的生成模型,如Glow和RealNVP,对于推理和生成来说都是高效的并行化模型。
Glow对两名研究人员脸部图像的属性操作。训
练过程中,模型没有提供眼睛、年龄等属性标签等情
况下,自己学习潜在空间,部分特定方向对应胡须密
度,年龄,头发颜色等属性的变化

  下游任务可用的潜在空间。自回归模型的隐藏层具有未知的边缘分布,使得对数据的有效处理变得更加困难。在GANs中,数据点通常不能在潜在空间中直接表示。对于可逆的生成模型和VAE则不是这样,它们允许各种操作,例如数据插值和数据修改。
  节省内存。在可逆神经网络中计算梯度需要一定数量的内存,在RevNet文章中有所解释。

结果


  RealNVP是以前基于流的生成模型最好的结果,研究人员的方法与RealNVP相比取得了显著的改进。对于RealNVP模型和Glow模型,在不同数据集的测试集上进行了量化性能评估。Glow模型可以高效生成逼真的高分辨率图像。这个模型在NVIDIA 1080 Ti GPU上产生一个256×256的样品需要130毫秒。

潜空间内插


  研究人员还可以在任意人脸之間进行插值,使用编码器对两幅图像进行编码,并从中间点进行采样。请注意,输入是任意的人脸,而不是来自模型的样本,从而证明了模型支持整个目标分布。

潜空间操作


  研究人员可以在没有标签的情况下训练一个基于流的模型,然后将学习到的模型用于后续任务,比如处理输入的属性。这些语义属性可以是面部或头发的颜色、图像的风格、声音的音高,或者文本句子的情感。由于基于流的模型有一个非常好的编码器,因此可以对输入进行编码,并计算有和不带属性的输入的平均潜在向量。然后,可以使用两者之间的向量方向来操作对该属性的任意输入。

贡献


  研究人员的主要贡献同时也是与RealNVP模型的不同之处在于增加了一个可逆的1×1卷积,以及删除了一些组件,从而简化了整个体系结构。
  RealNVP体系结构由两种类型的层组成:具有棋盘掩码的层和具有通道掩码的层。研究人员移除了棋盘掩码的层,简化了体系结构。具有通道掩码的层重复执行以下步骤可以等效:
  通过在通道维度上逆转输入的顺序来改变输入。
  按照特征维数将输入对分成A和B两个部分。
  将A输入浅层卷积神经网络。根据神经网络的输出线性变换B。
  连接A和B。
  通过连接这些层,A更新B,B更新A,然后A更新B。这种信息的双向流动显然是相当僵化的。研究人员发现,通过将步骤(1)的反向排列改变为随机全排列,模型的性能得到了改善。
  更进一步,研究人员还可以学习最优排列。学习置换矩阵是一种离散优化,不能适用到梯度上升。但由于置换操作只是具有平方矩阵的线性变换的特例,所以可以用卷积神经网络来实现,因为置换通道等价于输入和输出通道数相等的1x1卷积运算。因此,研究人员用学习的1x1卷积运算代替固定置换。将lxl卷积的权值初始化为随机旋转矩阵。此操作带来了显著的模型改进。研究人员还证明了通过对权值进行LU分解,可以有效地完成目标函数优化所涉及的计算。
  另外,研究者还删除了批归一化,并将其替换为激活归一化层。这一层只是简单地转移和缩放激活函数,给定数据的初始minibatch,该层具备依靠数据的初始化技术可对激活函数进行归一化操作。这允许将minibatch的大小缩小到1(对于大型图像),并扩大模型的大小。

规模


  研究人员的体系结构结合了各种优化,例如梯度检查点,使其能够更大的规模地训练基于流的生成模型。研究人员使用Horovod在集群上轻松地训练研究人员的模型;研究人员演示中使用的模型在五台机器上进行了训练,每台机器有八个GPU。使用这个配置,研究人员可以训练超过一亿个参数的模型。

研究方向


  研究人员的工作表明,可以训练基于流的模型来生成逼真的高分辨率图像,并可以很容易地学习到隐藏表征。研究人员为今后的工作提出了几个方向:
  在似然函数上与其他模型比较。在对数似然方面,自回归模型和VAE模型的性能优于基于流的模型,但它们分别存在采样效率低和推理不精确的缺点。研究人员可以将基于流的模型、VAE模型和自回归模型结合起来,以权衡它们的优势,这将是未来工作的一个有趣的方向。
  改进体系结构,提高计算效率和参数效率。为了生成逼真的高分辨率图像,人脸生成模型使用了200亿参数和600层卷积层,这使得训练的成本很高。深度较小的模型在学习长期依存关系方面表现较差。使用自注意架构,或者进行渐进式的训练来扩展到高分辨率,可以使训练Glow模型的成本降低。(摘自美《深科技》)(编辑/华生)
其他文献
他,只有初中学历,19岁前是流氓小子,当过赌场保安、被黑道追杀。  如今47岁的吴俊男,却已经是台湾一家兴柜公司的董事长,他是如何在困境奋斗成功?  19岁前的他,几乎是一个被放弃的孩子,出生不过满月,父母就因外出创业把他托给外婆带,小小年纪就寄人篱下的他,没有得到充分的父爱、母爱,初中就文身、殴打老师,毕业后不再升学,做赌场保安、被黑道追杀,逞凶斗狠地过日子……  现在,他从一个流氓小子,翻身成
佛州枪击案致17人死亡,学生游行向议员施压:严格控枪  据英国广播公司2月22日报道,在白宫一场讨论枪支暴力的“倾听会议”中,美国总统特朗普公开表态支持教师持枪,并认为应该改变学校无枪支的现状,“一名持枪教师将能够很快平息一场袭击”。  2月14日下午,美国佛罗里达州的玛乔丽·斯通曼·道格拉斯高中发生枪击案件,19岁枪手尼古拉斯·克鲁兹向学生扫射,导致17人死亡,多人受伤,克鲁兹被控犯有17项谋杀
2月12日,以色列的一架F-16战机被击落  在2月12日以色列声称击落一架从叙利亚起飞后进入以色列领空的伊朗无人机后,叙利亚防空部队击落了一架以色列戰机。这件事就像是一道警醒世人的闪电,表明从叙利亚内战的漩涡中可能引发出一场新的地区战争。  以色列和伊朗以及它们各自的盟友不会马上就开战。但所有点燃战争所需的要素都已齐备,按照目前的趋势发展下去,打起来似乎是必然的。  以色列空军长久称霸中东的天空
英国要扩大制裁  英国首相特雷莎·梅9月5日在议会讲话时说:“英国政府得出结论,两名参与袭击斯克里帕利父女的嫌疑人是情报部门人员,是俄军总参情报总局的军官。”梅还表示,英国政府认为,两名嫌疑人的姓名——亚历山大·彼得罗夫和鲁斯兰·博希罗夫——很可能是化名。此外梅称,英国否认参与生产神经毒剂“诺维乔克”,并指出,只有俄罗斯拥有这一能力。首相梅表示,英国因此将扩大对俄制裁。这是英国公布的鲁斯兰·博希罗
书籍简介:《突厥人、粟特人与娜娜女神》是马尔夏克在2003年夏到2006年夏带领联合国中亚考古队分别在撒马尔罕和片治肯特场地进行挖掘的考察结果,全书分为三卷——《壁画与娜娜女神》《突厥人与粟特人》和《粟特与北朝》,阐释了中亚粟特古国文明的异彩纷呈以及粟特商旅在丝路历史上的重要角色。作者以“开启粟特艺术的钥匙”一文开篇,将其多年的中亚文化研究与现场考古结合,高屋建瓴地论述了粟特古国的文明和艺术传统,
“我们今天庆祝的成功,是过去18年来国家六合彩提供的专项投资,它使得我们能够提早八年,而不是像多数国家那样,提早二到四年,在有登上奥运奖台潜力的运动员身上投资”    400万英镑,英国在里约取得的每一枚奥运奖牌的平均“造价”,不低。但光靠拼钱,是不会让中国屈居“老三”的。  Team GB,英国奥运军团,在巴西里约创造了现代奥运会百余年历史上的一个第一:  没有任何一个国家在主办奥运会后的下一届
变化经济学  拉姆奎斯特在形容他参加的一个全国性任务时,反复用到“惊险”一词。那个任务让所有瑞典司机和骑行者改变了一生的习惯,第一次开始靠右行驶。  “大家对此议论纷纷,但我们真的不知道要怎么来实现。”77岁的拉姆奎斯特说。那场可能引发灾难的转变发生在1967年9月3日,当时他只有26岁,是马尔默市的一名新晋交通工程师。  这天的正式名称是Hogertrafikomlaggningen(靠右行驶转
美国斯坦福大学的心理学教授凯利·麦格尼格尔作过一个演讲,短短15分钟,彻底颠覆很多人对压力的认知:“最幸福的人并不是没有压力的人。相反,他们是那些压力很大,但把压力看作朋友的人。这样的压力,是生活的动力,也让我们的生活更有意义。”  我们为大家整理了凯利教授的演讲和相关心理研究。带着这层对压力的全新认知,你不仅不会害怕也不会逃避压力,反而会害怕:“要是我的生活中没有压力,那会是多么可怕的一件事情!
亚马逊的Alexa是一个几乎无所不能的智能助手,可以操控小到闹钟大到冰箱的许多设备。现如今,“外骨骼”也可以被Alexa操控了。  机器人技术公司Bionik Laboratories表示,他们是首个把Alexa安装在这类设备上面的公司。这款名为Arke的下半身外骨骼目前已经可以使用语音指令进行简单的控制,例如 “Alexa,快站起来吧!” 或 “Alexa,向前走一步” 等。  目前还在临床研究
编号1到8   为了区别周末来家中聚餐的八个孙子女,施振荣把孙子女们,从小到大编号1到8。   施振荣平常就是常被媒体包围的“最没架子企业家”。他从不紧迫盯人,颇得孩子们的心。他和他们玩“跳舞机”,也和孩子们打棒球游戏。 祖孙隔代,沟通没距离。   施振荣的八个孙子女,为了除夕时的表演,秘密筹备。小孩子们每天偷偷跑到阿公家排练,还用阿公的电脑制作节目单,为了防止施振荣不小心打开电脑看到,还设了密