写点什么

如何设计局部的、计算效率高的、可证明的图神经网络?

  • 2020-07-15
  • 本文字数:4332 字

    阅读完需:约 14 分钟

如何设计局部的、计算效率高的、可证明的图神经网络?

在本文中,作者将讨论如何设计局部的、计算效率高的、可证明的图神经网络,这种网络不是基于 Weisfeiler-Lehman 测试层次结构。本文是图神经网络表达能力系列文章的第二部分。


前文回顾


《图深度学习:成果、挑战与未来》


《图神经网络的表达能力与 Weisfeiler-Lehman 测试》


本文最初发表在 TowardsDataScience 博客,经原作者 Michael Bronstein 授权,InfoQ 中文站翻译并分享。


最近的开创性论文【1】【2】建立了图神经网络和图同构测试之间的联系,并观察了消息传递机制与 Weisfeiler-Lehman(WL)测试之间的相似性【3】。Weisfeiler-Lehman 测试是图论多项式时间迭代算法的层次结构的总称,用于确定图的同构性。k-WL 测试在每一步根据邻域聚集规则对图的顶点的 k 元组进行重新着色,并在着色达到稳定后停止。如果两个图的颜色直方图不同,则认为这两个图不是同构的;否则,这两个图(但不一定)是同构的。


消息传递神经网络最多只能和 1-WL 测试(也称为节点颜色细化)一样强大,因此,即使是非常简单的不同构图实例也无法区分。例如,消息传递神经网络不能计算三角形【4】,这是已知在社交网络中扮演重要角色的模式,它与表示用户“紧密结合”程度的聚类系数有关【5】。设计出表达力更强的图神经网络来复制越来越强大的 k-WL 测试是可以实现的【2】【6】。然而,这样的架构会导致很高的复杂性,并带来大量的参数,但最重要的是,通常需要非局部操作,这使得它们不切实际。


不可由 1-WL 区分但可由 3-WL 区分的非同构图的例子,因为 3-WL 具有计算三角形的能力。


因此,基于 Weisfeiler-Lehman 层次结构的可证明功能强大的图神经网络,要么功能不强但实用,要么功能强大但不切实际【7】。我们在与 Giorgos Bouritsas 和 Fabrizio Frasca【8】的合作的一篇新论文中提出,我认为有一种不同的简单方法可以设计出高效且可证明功能强大的图神经网络。


图子结构网络(Graph Substructure Networks)。这个想法实际上非常简单,在概念上类似于位置编码或图元描述符(graphlet descriptors)【9】:我们使消息传递机制了解局部图结构,允许根据端点节点之间的拓扑关系以不同方式计算消息。这是通过向消息传递函数传递与每个节点【10】相关联的附加结构描述符来实现的,这些描述符是通过子图同构计数构造的。通过这种方式,我们可以将图中的节点划分成不同的等价类,这些等价类反映了每个图中的节点之间以及不同图之间共享的拓扑特征。


我们将这种架构成为图子结构网络(Graph Substructure Network,GSN)。它具有与标准消息传递神经网络相同的算法设计、存储和计算复杂度,并增加了构造结构描述符的预计算步骤。计数子结构的选择对于 GSN 的表达能力和预计算步骤的计算复杂度都是至关重要的。


在具有 n 个节点的图中,对大小为 k 的子结构进行计数的最坏情况复杂度为 𝒪(nᵏ)。因此,它类似于高阶图神经网络模型或 Morris【2】和 Maron【6】。然而,与这些方法相比,GSN 有几个优点。首先,对于某些类型的子结构,例如道路和环,计数的复杂度可以大大降低。其次,计算成本高的步骤作为预处理只做一次,因此不影响保持线性的网络训练和推理,这与消息传递神经网络中的方式相同。训练和推理的记忆复杂度也是线性的。第三,也是最重要的一点,GSN 的表达能力不同于 k-WL 测试,在某些情况下更强。


GSN 有多强大? 与标准的消息传递网络相比,子结构计数赋予了 GSN 更强的表达能力。首先,必须澄清的是,GSN 的表达能力取决于所使用的图子结构。正如我们有一个 k-WL 测试的层次结构一样,我们可能会有基于对一个或多个结构的技术来获得不同的 GSN 变体。使用比星图更复杂的结构,GSN 可以严格地比 1-WL(或等效的 2-WL)更强大,因此也比标准消息传递架构更强大。对于 4-clique,GSN 的能力至少不低于 3-WL,如下面的强正则图示例所示,其中,GSN 成功,而 3-WL 失败:



具有 16 个顶点和 6 个节点度的非同构强正则图的示例,其中,每两个相邻顶点有两个相邻的邻居,并且每两个不相邻的顶点也有两个相邻的邻居。在本例中,3-WL 测试失败,而 4-clique 结构的 GSN 可以区分它们。在左侧图(称为 Rook 图)中,每个节点恰好参与一个 4-clique。右侧图(Shrikhande 图)具有大小为 3 的最大团(三角形)。图源【8】。


更一般地说,对于 𝒪(1) 大小的各种子结构,只要它们不能被 3-WL 计数,就存在 GSN 成功切 3-WL 失败的图【11】。虽然我们找不到相反的例子,但原则上他们可能是存在的:这就是为什么我们关于 GSN 的力量的说法是弱形式的,“至少力量不弱”。


这也适用于较大的 k;上图中强正则图的一般化,称为 k-等正则图,是 (k+1)-WL 测试失败的实例【12】。这些示例也可以通过具有适当结构的 GSN 来区分。因此,GSN 的表达能力可以通过下图来体现:


GSN 不在 Weisfeiler-Lehman 的层次中。如果有适当的结构(例如,一定规模的团或环),它的强度至少可能不会低于 k-WL。


原则上来说,GNS 能有多强大?这仍然是一个悬而未决的问题。图重构猜想【13】假设了从所有节点删除的子结构中恢复图的可能性。因此,如果重构猜想是正确的,那么具有大小为 n-1 的子结构的 GSN 将能够正确地测试任何图的同构。n-1 将能够正确的测试任何图的同构。然而,重构猜想目前只能证明大小为 n≤11 的图,其次,如此大的结构是不切实际的。


更有趣的问题是,对于“小”结构(𝒪(1) 大小与节点数 n 无关)是否存在类似的结果。我们的经验结果表明,具有小子结构(如道路)的 GSN 对强正则图有效,而强正则图是 Weisfeiler-Lehman 测试的一个难题。


最重要的是,GSN 构建在标准消息传递架构之上,因此继承了其局部性和线性复杂性。该方法的超参数包括为构造结构描述符而计数的结构。实际应用很可能会以所需的表达力、能保证表达力的结构大小和计算的复杂性之间的权衡为指导。


使用环长度为 K≥6 的 GSN 显著提高了 ZINC 数据库中分子图的化学性质的预测,ZINC 数据库被制药公司用于候选药物的虚拟筛选。这种环状结构在有机分子中非常丰富。图源【8】。


在我们的实验中,我们观察到不同的问题和数据集受益于不同的子结构,因此,这种选择很可能是特定于问题的。幸运的是,我们经常知道那些子结构在某些应用程序中很重要。例如,在社交网络中,三角形和高阶的团很常见,并且有一个明确的“社会学”解释。在化学中,环是一种非常常见的模式,例如,在大量有机分子中出现的五元芳环和六元芳环。下图显示了一个我们大多数人都熟悉的例子:咖啡因分子,它在我们血液中的含量低得惊人。现在听起来是写完这篇文章,给自己沏一杯咖啡的好时机。


1,3,7-三甲基黄嘌呤,更广为人知的名称是咖啡因,是一种还有 5 环和 6 环(用红色和黄色表示)的环装化合物的一个例子。

参考文献

【1】 《图神经网络有多强大?》(How powerful are graph neural networks?),K. Xu 等人,2019 年,Proc.ICLR。


【2】 《Weisfeiler 和 Leman Go 神经网络:高阶图神经网络》(Weisfeiler and Leman go neural: Higher-order graph neural networks),C. Morris 等人,2019 年,Proc. AAAI。


【3】 《图的标准型化简及其代数》(The reduction of a graph to canonical form and the algebra which appears therein),B. Weisfeiler、A. Lehman,1968 年,英译本。


【4】 因此,两个三角形数量不同的图,将被 1-WL 测试认为可能是同构的,或者等价于一个消息传递神经网络所构造的相同嵌入。已经有实质性的新结果扩展了我们对什么结构在 Weisfeiler-Lehman 测试下是不变的理解,例如,《关于 Weisfeiler-Lehman 不变性:子图计数及相关图性质》(On Weisfeiler-Leman invariance: subgraph counts and related graph properties),V. Arvind 等人,2018 年,arXiv:1811.04801。以及《图神经网络能对子结构进行计数吗?》(Can graph neural networks count substructures?),Z. Chen 等人,2020 年,arXiv:2002.04025。


【5】图子结构在复杂网络中的应用已有十几年的历史。在生物信息学方面的开创性论文有:《网络模式:复杂网络的简单构建构建块》(Network motifs: simple building blocks of complex networks),R. Milo 等人,2002 年,Science 298 (5594):824–827。以及《交互式建模:无尺度还是几何?》(Modeling Interactome: Scale-free or geometric?),N. Pržulj 等人,2004 年,Bioinformatics 20(18):3508–3515,该论文介绍了用于生物相互作用网络分析的图模式和图元。在这叫网络中,对三角形模式的研究至少可以追溯到《社交网络中的局部结构》(Local structure in social networks),P. W. Holladn 和 S. Leinhardt,1976 年, Sociol. Methodol. 1–45。


【6】《可证明功能强大的图神经网络》(Provably powerful graph neural networks),H. Maron 等人,2019 年,Proc. NeurIPS。


【7】 Morris 的 3-WL 等价图神经网络结构具有 𝒪(n³) 空间复杂度和 𝒪(n⁴) 时间复杂度。Maron 的架构具有稍微好一些的 𝒪(n²) 空间复杂度和 𝒪(n³) 时间复杂度。对于一个只有 1M 节点的中等大小的图来说,这仍然可以转化为巨大的 1TB 内存和百万万亿次计算。


【8】 《利用子图同构计数提高图神经网络的表达能力》(Improving graph neural network expressivity via subgraph isomorphism counting),G. Bouritsas 等人,2020 年,arXiv:2006.09252。


【9】 基于子结构计数的图分析方法显然遭遇最近关于图深度学习的研究工作。值得注意的例子包括 T. Milenkoviæ 和 N. Pržulj 于 2008 年在 Cancer Inform. 6:257–273 发表的论文《利用图元度签名揭示生物网络功能》(Uncovering biological network function via graphlet degree signatures)中提出的生物信息学中的图元签名。或图元核(graphlet kernels),《用于大型图比较的高效图元核》(Efficient graphlet kernels for large graph comparison),N. Shervashidze 等人,2009 年,Proc. AISTATS。


【10】 我们也展示了用于边的相同机制,为简洁起见,我省略了这些。


【11】 3-WL 的子结构计数方面似乎相当薄弱。例如,它可以计算多大 7 个节点的模式环,但不能计算有道的 4 个环或长度为 4 的道路。目前尚不清楚通过在 WL 层次结构中向上可获得什么样的子结构计数能力。


【12】 《Weisfeiler-Lehman 方法和图同构测试》(The Weisfeiler-Lehman method and graph isomorphism testing),B. L. Douglas,2011 年,arXiv:1101.5211。请注意,在不同的参考文献所称的“k-WL”之间存有一定程度的混淆。Douglas 使用 k-WL 这一术语来报时其他人所说的 (k-1)-FWL(“民间”WL)。在我们的术语中,k-WL 在(k-1)等正则图上失败。强正则图是 2-等正则图。


【13】 《树的同余定理》(A congruence theorem for trees),P. J. Kelly,1957 年, Pacific J. Math. 7:961–968。


【14】 《小图是可重构的》(Small graphs are reconstructible),B. D. McKay,1997 年,Australasian J. Combinatorics 15:123–126。


作者介绍:


Michael Bronstein,伦敦帝国理工学院教授,Twitter 图机器学习研究负责人,CETI 项目机器学习领导、Twitter 图机器学习负责人、研究员、教师、企业家和投资者。


原文链接:


https://towardsdatascience.com/beyond-weisfeiler-lehman-using-substructures-for-provably-expressive-graph-neural-networks-d476ad665fa3


2020-07-15 15:442638
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 306.0 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

混沌演练实践(二)-支付加挂链路演练 | 京东云技术团队

京东科技开发者

微服务 混沌工程 混沌工程实践 企业号 5 月 PK 榜

Ableton Live Suite 11破解版下载 音乐制作软件

Rose

音乐制作 Ableton Live 11中文版 Live Suite 11破解 Ableton Live Suite下载

基于 Log 的通用增量 Checkpoint 在美团的进展

Apache Flink

大数据 flink 实时计算

全新一代小度智能屏X9焕新上市 正式开启预售

极客天地

PoseiSwap IDO在Bounce上启动在即,如何参与?

西柚子

Scrum的三个工件(产品Backlog、Sprint Backlog、产品增量 )

顿顿顿

Scrum 敏捷 敏捷开发管理 敏捷开发管理工具

以敏捷性为目标,构建良好企业生态

智达方通

数据驱动 数据孤岛 智达方通 全面预算管理 数据分析系统

PoseiSwap IDO在Bounce上启动在即,如何参与?

鳄鱼视界

深度学习进阶篇-预训练模型[1]:预训练分词Subword、ELMo、Transformer模型原理;结构;技巧以及应用详解

汀丶人工智能

人工智能 深度学习 预训练模型 Transformer ELMo

龙博机电:90后“厂二代”,靠伙伴云零代码让中小制造业实现数字化“逆袭”

联营汇聚

耕升 GeForce RTX 4060 Ti 系列,为玩家带来DLSS3+1080P光追游戏体验!

极客天地

1.5万字+30张图盘点程序员面试必会MySQL索引常见的11个知识点

Java你猿哥

Java MySQL 数据 ssm 索引

内部开发者平台|自建还是购买,企业应如何选择?

SEAL安全

平台工程 企业号 5 月 PK 榜 内部开发平台

有哪些好用的企业即时通讯软件值得推荐?

BeeWorks

SpringBoot + Docker 实现一次构建到处运行

Java你猿哥

Java Docker Spring Boot ssm 容器化部署

深度学习基础入门篇-序列模型:[11]:循环神经网络 RNN、长短时记忆网络LSTM、门控循环单元GRU原理和应用详解

汀丶人工智能

人工智能 深度学习 RNN LSTM GRU

3天速成!阿里人私用的Netty速成实战手册,3天Github星标11.5k

Java你猿哥

Java 源码 Netty ssm netty内存管理

Flutter三棵树系列之详解各种Key | 京东云技术团队

京东科技开发者

flutter key 企业号 5 月 PK 榜 localkey

什么是 Final Cut Pro? fcpx视频剪辑下载安装

Rose

Final Cut Pro下载 Final Cut Pro破解版 FCPX软件 fcpx Mac视频剪辑软件

升级正当时,高性价比的影驰 GeForce RTX™ 4060 Ti 8G开箱评测

极客天地

Elasticsearch与Clickhouse数据存储对比 | 京东云技术团队

京东科技开发者

数据库 elasticsearch Clickhouse 企业号 5 月 PK 榜

最高奖金100万!第二届广州·琶洲算法大赛火热报名中

飞桨PaddlePaddle

百度飞桨 算法大赛

视频后期特效处理软件:Motion 5 最新中文激活版

真大的脸盆

Mac Mac 软件 视频特效合成 视频特效工具 特效合成

常用的表格检测识别方法——表格结构识别方法(上)

合合技术团队

人工智能 深度学习 算法 人工智能文字识别 表格检测

WorkPlus AI助理 | 将企业业务场景与ChatGPT结合

BeeWorks

直击灵魂!美团大牛手撸并发原理笔记,由浅入深剖析JDK源码

Java 并发编程 多线程 jdk源码

2023年,Flutter3.10版本的变化有哪些?

没有用户名丶

小程序容器

CloudQuery v2.0.0 发布 新增数据保护、数据变更、连接管理等功能

BinTools图尔兹

数据库 国产数据库 版本发布

企业研发效能度量利器,华为云发布CodeArts Board看板服务

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

如何设计局部的、计算效率高的、可证明的图神经网络?_AI&大模型_Michael Bronstein_InfoQ精选文章