目录

1.Anytime Neural Architecture Search On TabuLar Data(6663)

2.Archlock: Locking DNN Transferability At The Architecture Level With A Zero-Cost Bi-Nary Predictor(683)

3.Composing Recurrent Spiking Neural Networks Using Locally-Recurrent Motifs And Risk-Mitigating Architectural Optimization(6555)

4.Curriculum Reinforcement Learning For Quantum Architecture Search Under Hard-Ware Errors(665)

5.Defying Multi-Model Forgetting: Orthogo-Nal Gradient Learning To One-Shot Neural Architecture Search (555)

6.Differentiable Tree Search In Latent State Space(566)

7.Differential Model Scaling Using Differential Topk(6653) LLM

8.DiffusionNAG: Predictor-Guided Neural Archi-Tecture Generation With Diffusion Models(566) VLM

9.Encodings For Prediction-Based Neural Architecture Search(863)

10.Fast Neural Architecture Search With Random Neural Tangent Kernel (636)

11.Gradient-Free Proxy For Efficient Language Model Search (8553) NLP

12.Graph Is All You Need? Lightweight Data-Agnostic Neural Architecture Search Without Training(536)

13.Interleaving Multi-Task Neural Architecture Search(336)

14.LayerNAS: Neural Architecture Search In Polynomial Complexity(585)

15.Lightweight Graph Neural Network Search With Graph Sparsification(583)

16. LLM Performance Predictors Are Good Initializers For Architecture Search (6653) LLM

17. Masked Distillation Advances Self-Supervised Transformer Architecture Search(668)

18.Mixture-Of-Supernets: Improving Weight-Sharing Supernet Training With Architecture-Routed Mixture-Of-Experts(5553)

19. Neural Architecture Retrieval(688)

20.Neural Fine-Tuning Search For Few-Shot Learning(886)

21.Neural Neighborhood Search For Multi-Agent Path Finding(663)

22.Quantum Architecture Search With Unsupervised Representation Learning(555)

23. Robust NAS Benchmark Under Adversarial Training: Assessment, Theory, And Beyond(666)

24.Robustifying And Boosting Training-Free Neural Architecture Search(583)

25.Search: A Self-Evolving Framework For Network Architecture Optimization(535)

26.Structural Pruning Of Pre-Trained Language Models Via Neural Architecture Search(653)

27.Swap-NAS: Sample-Wise Activation Patterns For Ultra-Fast NAS(686)

28.Tafs: Task-Aware Activation Function Search For Graph Neural Networks(555)

29.Towards Neural Architecture Search Through Hierarchical Generative Modeling(6553)


1.Anytime Neural Architecture Search On TabuLar Data(6663)

Aim:

本论文的目的是解决表格数据分析中的一个增长需求,即从手动架构设计过渡到神经架构搜索(NAS)。这种过渡需要一种高效且灵活的即时NAS方法,能够在任何给定的时间预算内返回当前最优架构,并随着预算增加逐渐提高架构质量。然而,针对表格数据的即时NAS研究领域尚未被探索。为此,我们引入了ATLAS,这是第一个专门为表格数据量身定制的即时NAS方法。

Abstract:

随着对表格数据分析需求的增长,从手动架构设计转向神经架构搜索(NAS)变得越来越重要。这种转变要求一种高效且灵活的即时NAS方法,能够在任何给定时间预算内返回当前最优架构,并随着预算增加逐步提高架构质量。然而,针对表格数据的即时NAS研究领域仍然是一个未被探索的领域。为此,我们引入了ATLAS,这是第一个专门为表格数据设计的即时NAS方法。ATLAS采用了一种新颖的两阶段过滤和精化优化方案,结合了无训练和基于训练的架构评估方法。具体来说,在过滤阶段,ATLAS采用了一种专门为表格数据设计的无训练架构评估指标,以高效估算候选架构的性能,从而获得一组有前景的架构。随后,在精化阶段,ATLAS利用固定预算搜索算法来安排有前景候选的训练,以准确识别最佳架构。为了共同优化这两个阶段以实现即时NAS,我们还设计了一个预算意识协调器,以在约束条件下实现高NAS性能。实验评估表明,我们的ATLAS可以在任何预定的时间预算内获得良好的架构,并在有新的时间预算时返回更好的架构。总体而言,与现有NAS方法相比,ATLAS在表格数据上的搜索时间减少了高达82.75倍。

Conclusion:

ATLAS作为第一个针对表格数据的即时NAS方法,通过其创新的两阶段过滤和精化优化方案,成功地解决了表格数据NAS的挑战。该方法能够在任意的时间预算内提供高效能的架构,并随着时间预算的增加返回更优的架构。ATLAS的这一成果在减少搜索时间和提高架构质量方面具有重要意义,为表格数据分析和NAS应用领域提供了一种新的高效工具。

Methods:

  • 两阶段过滤和精化优化方案: ATLAS引入了一个新颖的两阶段优化方案,结合了无训练和基于训练的架构评估的优势。
  • 过滤阶段: 使用专门为表格数据设计的新型无训练架构评估指标,高效估算候选架构的性能,从而获得一组有前景的架构。
  • 精化阶段: 利用固定预算搜索算法来安排有前景候选的训练,以准确识别最佳架构。
  • 预算意识协调器: 开发了一个预算意识协调器,用于在约束条件下实现高NAS性能

Keyresults:

  • ATLAS能够在任何预定义的时间预算内获得性能良好的架构,并随着新的时间预算的提供返回更好的架构。
  • 与现有NAS方法相比,在表格数据上的搜索时间减少了高达82.75倍。

Code:

Paper under double-blind review

2.Archlock: Locking DNN Transferability At The Architecture Level With A Zero-Cost Bi-Nary Predictor(683)

Aim:

本论文旨在解决深度神经网络(DNN)模型在架构层面上的安全性问题,尤其是针对攻击者可能利用这些模型进行其他任务的风险。现有的防御策略主要关注模型参数级别的安全性,而架构级别的防御潜力还未被充分探索。论文的目标是通过减少架构层面上的可转移性来保护模型。

Abstract:

尽管深度神经网络(DNN)模型表现出色,但它们容易被攻击者利用来适应其他任务,以谋取自身利益。当前的防御策略主要在模型参数级别解决这一脆弱性,而架构级别的防御潜力大多未被探索。本文首次通过减少架构级别的可转移性来解决模型保护问题。具体来说,我们提出了一种新颖的神经架构搜索(NAS)启用算法,该算法采用零成本代理和进化搜索来设计具有低可转移性的模型架构。我们的方法,即ArchLock,旨在在源任务上实现高性能,同时降低目标任务的性能,即锁定DNN模型的可转移性。为了在没有访问攻击者训练数据的情况下实现高效的跨任务搜索,我们利用零成本代理加速架构评估,并模拟潜在目标任务嵌入以协助跨任务搜索,并使用二元性能预测器。在NAS-Bench-201和TransNAS-Bench-101的广泛实验表明,ArchLock分别将可转移性降低了高达30%和50%,同时在源任务上的性能损失可以忽略不计(<2%)。

Conclusion:

ArchLock方法成功地通过减少架构层面上的可转移性来保护DNN模型,防止其被攻击者用于其他任务。通过使用零成本代理和进化搜索,该方法能够在不访问攻击者训练数据的情况下有效地进行跨任务搜索。实验结果证明了ArchLock在减少模型可转移性方面的有效性,同时保持了源任务上的良好性能,为DNN模型的安全性和防御策略提供了新的视角。

Methods:

  • NAS启用算法: 引入一种新颖的神经架构搜索(NAS)算法,使用零成本代理和进化搜索,设计低可转移性的模型架构。
  • ArchLock方法: 旨在在源任务上实现高性能,同时降低目标任务的性能,即锁定DNN模型的可转移性。
  • 跨任务搜索: 利用零成本代理加速架构评估,并模拟潜在目标任务嵌入,以协助跨任务搜索,并使用二元性能预测器。

Keyresults:

  • 在NAS-Bench-201和TransNAS-Bench-101上的广泛实验表明,ArchLock分别将可转移性降低了高达30%和50%。
  • 在源任务上的性能损失可以忽略不计(<2%)。

Code:

Paper under double-blind review

3.Composing Recurrent Spiking Neural Networks Using Locally-Recurrent Motifs And Risk-Mitigating Architectural Optimization(6555)

Aim:

研究旨在解决现有递归脉冲神经网络(RSNNs)系统架构优化的挑战。该研究的目标是通过可扩展的架构和自动化优化,实现大型RSNNs的系统化设计。这一目标集中于改善网络功能和稳定性,这些在现有RSNNs中常因随机构建的连接而受限。

Abstract:

神经电路中,递归连接在网络功能和稳定性中起着关键作用。然而,现有的递归脉冲神经网络(RSNN)通常通过随机连接构建,没有进行优化。尽管RSNN能产生对记忆形成和学习至关重要的丰富动态,但系统性地优化RSNN架构仍是一个开放的挑战。我们旨在通过一种新的可扩展RSNN架构和自动化架构优化来实现大型RSNN的系统设计。我们基于一个名为稀疏连接的递归基元层(SC-ML)的层架构来组成RSNN,该架构由多个小型递归基元通过稀疏侧向连接组成。这些小型基元的小尺寸和稀疏的基元间连接使得RSNN架构能够扩展到大型网络规模。我们进一步提出了一种名为混合风险缓解架构搜索(HRMAS)的方法,用于系统地优化所提出的递归基元和SC-ML层架构的拓扑结构。HRMAS是一个交替的两步优化过程,通过引入一种新颖的生物启发式“自修复”机制来减轻架构变化引起的网络不稳定性和性能退化风险,该机制通过内在可塑性实现。内在可塑性被引入到HRMAS迭代的第二步中,作为对结构和突触权重修改的快速自适应的无监督形式,这些修改是在RSNN架构“进化”期间的第一步引入的。据作者所知,这是首次对RSNN进行系统性架构优化。我们在一个语音和三个神经形态数据集上的实验表明,我们提出的自动化架构优化方法比现有手工设计的RSNN带来了显著的性能改善。

Conclusion:

据作者所知,该研究首次进行了RSNNs的系统架构优化。通过引入SC-ML和HRMAS,研究成功地证明了可扩展RSNN架构和自动化架构优化的可行性和有效性,实现了显著的性能提升。这种方法为设计和实现更先进的神经网络开辟了新的途径。

Methods:

  • 稀疏连接的递归基元层(SC-ML): 该研究引入了一种由多个小型递归基元通过稀疏侧向连接组成的RSNN架构。这种方法旨在扩展RSNNs到更大的网络规模。
  • 混合风险缓解架构搜索(HRMAS): 提出了一种新颖的双步骤优化过程,用于系统化地优化RSNN架构。这包括通过内在可塑性引入了一种生物启发式的“自修复”机制,以缓解由于架构变化导致的网络不稳定性和性能下降的风险。

Keyresults:

  • 相比现有手工设计的网络,展示了在RSNNs上的显著性能提升。
  • 将提出的架构和优化方法应用于一个语音和三个神经形态数据集,展示了性能的显著增强。

Code:

Paper under double-blind review

4.Curriculum Reinforcement Learning For Quantum Architecture Search Under Hard-Ware Errors(665)

Aim:

  • 在噪音中等规模量子时代的关键挑战是找到与当前设备限制相兼容的有用电路。
  • 本研究旨在解决噪声对量子体系结构搜索(QAS)的影响,这是一个至关重要但目前理解不足的问题。

Abstract:

在噪音中等规模量子时代的主要挑战是寻找与当前设备限制兼容的有效电路。变分量子算法(VQAs)提供了一种解决方案,即首先固定电路架构,然后在外部循环中优化各个门的参数以解决任务。然而,性能优化可能是棘手的,整体性能以及优化高度依赖于最初固定的电路架构。为此,已经开发了几种量子体系结构搜索(QAS)算法,用于自动选择最佳电路架构。在参数优化方面,已经观察到噪声效应显著影响优化器的性能和最终结果,这是研究的关键方向。然而,对架构搜索的噪声影响,可能同样关键,目前却理解不足。在这项工作中,我们解决了这个问题。为此,我们首先通过在Pauli-Liouville基础上使用Pauli-传输矩阵形式,并将门与其相应的噪声模型和值融合在一起,显著提高了模拟真实量子电路的计算时间。然后,我们设计了一个基于课程的强化学习QAS (CRLQAS) 算法,优化以应对真实VQA部署的挑战,引入(i)三维架构编码和对环境动态的限制,以高效地探索可能电路的搜索空间,(ii)一个终止方案,引导代理找到更短的电路,以及(iii)一种用于更快收敛的同时扰动

Conclusion:

  • 通过使用基于Pauli-传输矩阵形式的方法和在Pauli-Liouville基础上融合门及其噪声模型和值,显著提高了模拟实际量子电路的计算时间。
  • 课程化基于强化学习的量子体系结构搜索(CRLQAS)算法在实际变分量子算法(VQA)部署的挑战中表现优异。

Methods:

  • 开发了一个新的量子体系结构搜索(QAS)算法,用于自动选择最佳电路体系结构。
  • 使用Pauli-传输矩阵形式在Pauli-Liouville基础上进行模拟,并引入了课程化的强化学习QAS (CRLQAS) 算法。
  • CRLQAS算法包括三维体系结构编码、对环境动态的限制、一个终止方案来寻找更短的电路,以及一种用于更快收敛的同时扰动随机逼近算法的新变体。

Keyresults:

数值实验集中在量子化学任务上,显示CRLQAS在无噪声和有噪声环境中均优于现有的QAS算法。

Code:

Paper under double-blind review

5.Defying Multi-Model Forgetting: Orthogo-Nal Gradient Learning To One-Shot Neural Architecture Search (555)

Aim:

  • 解决一次性神经架构搜索(NAS)中的多模型遗忘问题,这是一个由于超参数网络(超网)通过权重共享组合所有架构而导致的问题。
  • 提出一种解决方案,防止新采样的架构(与旧架构结构重叠)覆盖之前训练良好的架构权重。

Abstract:

一次性神经架构搜索(NAS)通过使用权重共享训练一个超参数网络(称为超网),该网络将所有架构作为其子网集成,从而大大减少了计算预算。然而,在一次性NAS中存在一个关于超网训练的多模型遗忘问题,即之前训练良好的架构的某些权重会被具有重叠结构的新采样架构的权重覆盖。为了克服这个问题,我们提出了一种正交梯度学习(OGL)指导的超网训练范式用于一次性NAS,其新颖之处在于,当前架构的重叠结构的权重是沿着正交于这些重叠结构在所有之前训练架构的梯度空间的方向更新的。此外,我们设计了一种新的投影计算方法,有效地找到梯度空间的基向量以获得正交方向。我们已经从理论上和实验上证明了所提出范式在克服多模型遗忘方面的有效性。此外,我们将该范式应用于两个一次性NAS基线,实验结果表明,我们的方法能够减轻多模型遗忘,提高一次性NAS中超网的预测能力,并在流行的测试数据集上显示出显著的效率。

Conclusion:

  • 提出的正交梯度学习(OGL)指导的超网训练范式有效地克服了一次性NAS中的多模型遗忘问题。
  • 该方法增强了超网的预测能力,并在流行测试数据集上展现出显著的效率。

Methods:

  • OGL方法的新颖之处在于更新当前架构的重叠结构权重,使其沿着与这些结构在所有先前训练架构中的梯度空间正交的方向。
  • 设计了一种新的投影计算方法,有效找到梯度空间的基向量,以获得正交方向。
  • 将范式应用于两个一次性NAS基线

Keyresults:

  • 理论和实验均证明了所提出范式在克服多模型遗忘方面的有效性。
  • 该方法减轻了多模型遗忘,并在一次性NAS中增强了超网的预测能力,同时在流行的测试数据集上表现出显著的效率提升。

Code:

Paper under double-blind review

6.Differentiable Tree Search In Latent State Space(566)

Aim:

  • 解决在训练数据有限的决策问题中,使用深度神经网络近似策略函数常常表现出次优性能的问题。
  • 提出一种替代方法,该方法从有限数据中学习一个世界模型,并通过在线搜索来决定行动。

Abstract:

在训练数据有限的决策问题中,使用深度神经网络近似的策略函数往往表现出次优性能。一种替代方法涉及从有限数据中学习一个世界模型,并通过在线搜索来决定行动。然而,由于学习到的世界模型中的不准确性引起的累积误差,性能会受到负面影响。虽然像TreeQN这样的方法试图通过将算法结构偏差纳入其架构来解决这些不准确性,但它们引入的偏差通常是微弱的,不足以处理复杂的决策任务。在这项工作中,我们介绍了可微分树搜索(DTS),这是一种新型的神经网络架构,它通过嵌入最优先在线搜索算法的算法结构,显著加强了归纳偏差。DTS采用学习到的世界模型在潜在状态空间中进行完全可微分的在线搜索。世界模型与搜索算法共同优化,使得学习到的世界模型更加鲁棒,并减轻模型不准确性的影响。我们解决了由于简单引入最优先搜索而可能出现的Q函数不连续性问题,采用了一种随机树扩展策略,将搜索树扩展形式化为一个决策任务,并引入了一种有效的梯度计算的方差减少技术。我们在有限训练数据的离线强化学

Conclusion:

  • 介绍了一种名为可微分树搜索(DTS)的新型神经网络架构,它通过嵌入最优先在线搜索算法的算法结构,显著增强了归纳偏差。
  • DTS在潜在状态空间中使用学习到的世界模型进行完全可微分的在线搜索,减少了模型不准确性的影响,并提升了模型性能。

Methods:

  • DTS采用了学习到的世界模型来进行潜在状态空间中的完全可微分在线搜索。
  • 同时优化世界模型和搜索算法,从而学习到一个鲁棒的世界模型,并减轻模型不准确性的影响。
  • 为了解决由于简单引入最优先搜索可能导致的Q函数不连续性问题,DTS采用了一种随机树扩展策略,将搜索树扩展形式化为一个决策任务,并引入了一种有效的梯度计算方差减少技术。

Keyresults:

在有限训练数据情况下的离线强化学习环境中,针对Procgen博弈和网格导航任务评估了DTS,并证明DTS优于流行的无模型和有模型基准。

Code:

Paper under double-blind review

7.Differential Model Scaling Using Differential Topk(6653) LLM

Aim:

增加在网络中寻找最优宽度和深度的效率。这是针对当前许多手动设计的网络架构经常导致次优配置的问题,以及神经架构搜索(NAS)方法搜索效率低下的问题。

Abstract:

在过去几年中,随着大型语言模型开启智能出现的时代,对网络规模的关注日益加剧。目前,许多网络架构是手动设计的,这常常导致次优配置。尽管提出了神经架构搜索(NAS)方法来自动化这个过程,但它们的搜索效率很低。本研究引入了差分模型缩放(DMS),提高了在网络中寻找最优宽度和深度的效率。DMS可以直接且完全可微分地模拟宽度和深度,使其易于优化。我们已经在不同的任务上评估了我们的DMS,范围从视觉任务到自然语言处理任务,以及包括卷积神经网络和变换器在内的各种网络架构。结果一致表明,我们的DMS能够找到改进的结构,并且性能超越了现有最先进的NAS方法。具体来说,对于ImageNet上的图像分类,我们的DMS分别将EfficientNet-B0和Deit-Tiny的top-1准确率提高了1.4%和0.6%,并且在仅需0.4 GPU天的搜索时间内就超过了最先进的零次NAS方法ZiCo 0.7%。在COCO上进行对象检测时,DMS将Yolo-v8-n的mAP提高了2.0%。在语言建模方面,我们修剪后的Llama-7B在低困惑度和更高的零次分类准确率方面超过了之前的方法。

Conclusion:

  • Differential Model Scaling (DMS)方法能够找到改进的结构,并且在性能上超越了现有最先进的NAS方法。
  • 在不同任务上的评估结果表明,DMS在寻找优化的网络结构方面具有显著优势。

Methods:

  • 引入了一种名为Differential Model Scaling (DMS)的新方法,用于直接且完全可微分地模拟网络的宽度和深度,从而易于优化。
  • DMS已在不同的任务(包括视觉任务和自然语言处理任务)和不同的网络架构(包括卷积神经网络和变换器模型)上进行评估。

Keyresults:

  • 在ImageNet上的图像分类任务中,DMS将EfficientNet-B0和Deit-Tiny的top-1准确率分别提高了1.4%和0.6%,并在仅需0.4 GPU天的搜索时间内就超过了最先进的零次NAS方法ZiCo 0.7%。
  • 在COCO上的对象检测任务中,DMS将Yolo-v8-n的mAP提高了2.0%。
  • 在语言建模方面,修剪后的Llama-7B在低困惑度和更高的零次分类准确率方面超过了先前的方法。

Code:

Paper under double-blind review

8.DiffusionNAG: Predictor-Guided Neural Archi-Tecture Generation With Diffusion Models(566) VLM

Aim:

  • 解决现有神经架构搜索(NAS)方法的局限性,特别是在重复采样和训练许多与任务无关的架构时所需的过多时间。
  • 从NAS转向一种新的基于扩散模型的条件神经架构生成(NAG)框架——DiffusionNAG。

Abstract:

现有的神经架构搜索(NAS)方法要么花费大量时间重复采样和训练许多与任务无关的架构。为了解决现有NAS方法的这些局限性,我们提出了从NAS到基于扩散模型的新颖条件神经架构生成(NAG)框架的范式转变,这一框架被称为DiffusionNAG。具体来说,我们将神经架构视为有向图,并提出了一种用于生成这些架构的图扩散模型。此外,在参数化预测器的指导下,DiffusionNAG可以灵活地生成具有所需属性的、适用于多种任务的最优架构,通过从更可能满足这些属性的区域中采样。这种条件NAG方案比之前通过属性预测器筛选架构的NAS方案更加高效。我们通过在两种基于预测器的NAS场景中的广泛实验验证了DiffusionNAG的有效性:可转移性NAS和基于贝叶斯优化(BO)的NAS。DiffusionNAG在可转移性NAS基准上与基线相比实现了高达20倍的加速。此外,当集成到基于BO的算法中时,DiffusionNAG优于现有的基于BO的NAS方法,特别是在ImageNet 1K数据集上的大型MobileNetV3搜索空间。

Conclusion:

  • DiffusionNAG作为一种条件NAG方案,比之前通过属性预测器筛选架构的NAS方案更高效。
  • 在转移性NAS和基于贝叶斯优化(BO)的NAS场景中的实验验证了DiffusionNAG的有效性。

Methods:

  • 将神经架构视为有向图,并提出了一种用于生成这些架构的图扩散模型。
  • DiffusionNAG通过参数化预测器的指导,能够灵活地生成具有所需属性的、适用于多种任务的最优架构,通过从更可能满足属性的区域中采样。

Keyresults:

  • DiffusionNAG在转移性NAS基准上与基线相比实现了高达20倍的加速。
  • 当集成到基于BO的算法中时,DiffusionNAG优于现有的基于BO的NAS方法,特别是在大型MobileNetV3搜索空间上的ImageNet 1K数据集。

Code:

Paper under double-blind review

9.Encodings For Prediction-Based Neural Architecture Search(863)

Aim:

  • 提升神经架构搜索(NAS)优化,特别是通过改进神经网络架构的编码方法。
  • 分类并研究三种主要的神经编码类型:结构性编码、学习型编码和基于分数的编码。
  • 引入统一编码,扩展NAS预测器至多个搜索空间。

Abstract:

基于预测器的方法显著增强了神经架构搜索(NAS)的优化,这些预测器的有效性在很大程度上受到神经网络架构编码方法的影响。虽然传统的编码使用邻接矩阵描述神经网络的图结构,但新型编码采用了多种方法,从无监督的潜在表示预训练到零成本代理的向量。在本文中,我们分类并研究了三种主要的神经编码类型:结构性编码、学习型编码和基于分数的编码。此外,我们扩展了这些编码,并引入了统一编码,将NAS预测器扩展到多个搜索空间。我们的分析基于在NASBench-101 (NB101), NB201, NB301, Network Design Spaces (NDS) 和 TransNASBench-101 等NAS空间上超过150万个神经网络架构的实验。在我们的研究基础上,我们提出了我们的预测器FLAN:Flow Attention for NAS。FLAN结合了预测器设计、迁移学习和统一编码的关键洞见,使得训练NAS准确性预测器的成本大幅降低。

Conclusion:

  • 提出了FLAN(Flow Attention for NAS),一个融合关键洞见的NAS预测器,涉及预测器设计、迁移学习和统一编码。
  • FLAN能够显著降低训练NAS准确性预测器的成本,达到数量级的减少。

Methods:

  • 分类和研究了神经网络架构编码的三种主要方法:结构性编码、学习型编码和基于分数的编码。
  • 对统一编码进行了扩展,以支持在多个搜索空间中使用NAS预测器。
  • 进行了超过150万个神经网络架构的实验分析,涵盖如NASBench-101 (NB101), NB201, NB301, Network Design Spaces (NDS), 以及TransNASBench-101等NAS空间。

Keyresults:

FLAN预测器结合了预测器设计、迁移学习和统一编码的关键洞见,使得训练NAS准确性预测器的成本大幅降低

Code:

Paper under double-blind review

https://anonymous.4open.science/r/flan_nas-433F/

10.Fast Neural Architecture Search With Random Neural Tangent Kernel (636)

Aim:

  • 提出一种基于理论导出的标准化泛化误差的偏差-方差分解的神经架构搜索(NAS)方法,称为NAS-NGE。
  • 该研究旨在克服现有训练无关的NAS方法的局限性,这些方法的性能估计代理基于训练误差而非泛化误差。

Abstract:

神经架构搜索(NAS)对于自动化设计深度神经网络(DNN)架构非常有用。近年来,已经提出了许多无需训练的NAS方法,减少搜索成本增加了对现实世界应用的期望。然而,在基于理论背景的最新无需训练NAS中,即NASI,候选架构的测试性能估计代理是基于训练误差而非泛化误差。在这项研究中,我们提出了一种基于从标准化泛化误差的偏差-方差分解理论导出的代理的NAS,称为NAS-NGE。具体来说,我们提出了神经切线核(NTK)标准化第二阶矩的替代品,并将其与标准化偏差一起用来构建NAS-NGE。我们使用NAS基准来证明所提出方法的有效性,通过将其与最新的无需训练NAS进行比较,展示了在短时间内搜索的优势。

Conclusion:

  • NAS-NGE通过使用标准化偏差和神经切线核(NTK)的标准化第二阶矩的替代品,提供了一种更有效的结构搜索方法。
  • 与现有的训练无关的NAS方法相比,在短时间内搜索,NAS-NGE显示出了更好的效果

Methods:

  • 提出了一种新的神经架构搜索方法,即NAS-NGE,它是基于标准化泛化误差的偏差-方差分解理论导出的。
  • 使用神经切线核(NTK)的标准化第二阶矩的替代品以及标准化偏差来构建NAS-NGE。

Keyresults:

使用NAS Benchmarks来证明所提出方法的有效性,并将其与现有的训练无关的SOTA NAS进行比较,显示出NAS-NGE在短时间搜索内的优势。

Code:

Paper under double-blind review

11.Gradient-Free Proxy For Efficient Language Model Search (8553) NLP

Aim:

开发一种针对轻量级语言模型的新型零次神经架构搜索(NAS)方法,称为加权PCA(W-PCA),以解决现有零次NAS方法的评估偏差和计算效率问题。

Abstract:

对高效自然语言处理(NLP)系统的需求推动了轻量级语言模型的发展。此领域之前的工作主要集中在手动设计或基于训练的神经架构搜索(NAS)方法。最近,提出了零次NAS方法,用于在无需训练的情况下评估语言模型。然而,现有的零次NAS方法常常面临如评估指标偏差和计算效率低下等挑战。在本文中,我们介绍了一种针对轻量级语言模型的新型零次NAS方法,称为加权PCA(W-PCA)。我们的方法利用两种评估代理:参数计数和前馈神经网络层的主成分分析(PCA)值。这提供了对语言模型性能的全面且无偏的评估。此外,通过消除梯度计算的需要,我们优化了评估时间,从而提高了设计和评估轻量级语言模型的效率。我们在GLUE和SQuAD数据集上进行了比较分析,以评估我们的方法。结果表明,我们的方法与一次NAS方法相比显著减少了训练时间,并在测试阶段取得了比之前最先进的基于训练的方法更高的分数。此外,我们在从FlexiBERT搜索空间抽样的数据集上进行了排名评估。我们的方法显示出优越的排名相关性,并与其他需要梯度计算的零次NAS方法相比进一步减少了解决时间。

Conclusion:

  • W-PCA通过使用两种评估代理——参数计数和前馈神经网络层的主成分分析(PCA)值——提供了全面且无偏的语言模型性能评估。
  • 该方法优化了评估时间,提高了设计和评估轻量级语言模型的效率。

Methods:

  • W-PCA利用参数计数和前馈神经(FFN)层的PCA值作为评估代理。
  • 该方法消除了梯度计算的需要,从而优化了评估时间。

Keyresults:

  • 在GLUE和SQuAD数据集上进行的比较分析表明,该方法显著减少了与一次NAS方法相比的训练时间,并在测试阶段取得了比之前最先进的基于训练的方法更高的分数。
  • 在从FlexiBERT搜索空间抽样的数据集上进行的排名评估显示,W-PCA表现出优越的排名相关性,并与其他需要梯度计算的零次NAS方法相比进一步减少了解决时间。

Code:

Paper under double-blind review

12.Graph Is All You Need” />

Aim:

通过一种新方法(称为NASGraph)减少神经架构搜索(NAS)中的计算成本。NAS的目的是自动设计神经网络模型,但传统方法中评估性能时训练候选架构需要大量计算资源。

Abstract:

神经架构搜索(NAS)使神经网络模型的自动设计成为可能。然而,为了性能评估而训练搜索算法生成的候选模型会产生相当大的计算开销。我们的方法,称为NASGraph,通过将这些神经架构转换为图形,并利用转换后图形的属性作为替代验证准确度的得分,显著减少了计算成本。我们的无需训练的NAS方法是数据不可知的且轻量级的。它可以在217 CPU秒内从NAS-Bench201中随机抽样的200个架构中找到最佳架构。我们能够在NASBench-101、NASBench-201和NDS搜索空间中的9个数据集中的7个上实现最新的性能。我们还展示了NASGraph在Micro TransNAS-Bench-101上更具挑战性的任务中的泛化能力。

Conclusion:

  • NASGraph通过将神经网络架构转换为图形,并使用转换后的图的属性作为验证准确度的替代得分,显著减少了计算成本。
  • 在9个数据集中的7个上实现了最新的性能,并在更具挑战性的任务上也展示了NASGraph的泛化能力。

Methods:

  • NASGraph将神经网络架构转换为图形,并使用这些图的属性作为性能评估的代理得分,从而避免了对模型的训练。
  • 这种方法是数据不可知的,轻量级的。

Keyresults:

  • NASGraph在NAS-Bench201中从200个随机样本的架构中找到最佳架构,仅需217 CPU秒。
  • 在NASBench-101、NASBench-201和NDS搜索空间中的7个数据集上实现了最新性能。
  • 在Micro TransNAS-Bench-101上的更具挑战性的任务中展示了NASGraph的泛化能力。

Code:

Paper under double-blind review

13.Interleaving Multi-Task Neural Architecture Search(336)

Aim:

提出一种新的多任务神经架构搜索(MTNAS)框架,称为交错MTNAS,旨在解决在多任务学习中平衡不同损失函数权重的问题,这通常需要大量的调优,既耗时又劳力密集。

Abstract:

多任务神经架构搜索(MTNAS),即搜索一个能够适用于多个任务的共享架构,已经被广泛研究。在这些方法中,通过最小化它们损失的加权和来同时学习多个任务。如何通过找到最优损失权重来平衡这些损失需要大量的调整,这既耗时又劳力密集。为了解决这个问题,我们提出了一个交错MTNAS框架,其中不需要调整损失权重。在我们的方法中,一组任务(例如A、B、C)以交错循环的方式执行(例如ABCABCABC…),每个任务将其知识传递给下一个任务。每个任务通过最小化其自身的损失函数来学习,而不干扰其他任务的损失。个别任务的损失函数被组织成一个多级优化框架,使所有任务能够端到端地执行。我们的方法在多种实验中展示了其有效性。

Conclusion:

  • 在交错MTNAS框架中,无需调整损失函数的权重。
  • 每个任务通过最小化其自身的损失函数来学习,而不干扰其他任务的损失。

Methods:

  • 在交错MTNAS框架中,一组任务(例如A, B, C)按交错循环(例如ABCABCABC…)执行,每个任务将其知识传递给下一个任务。
  • 损失函数被组织成一个多级优化框架,使得所有任务能够端到端地执行。

Keyresults:

该方法在多种实验中展示了其有效性

Code:

Paper under double-blind review

14.LayerNAS: Neural Architecture Search In Polynomial Complexity(585)

Aim:

  • 提出一种名为LayerNAS的新方法,以解决多目标神经架构搜索(NAS)的挑战,特别是在目标硬件上找到最优架构的需求。
  • 将多目标NAS转化为组合优化问题,有效地将搜索复杂性约束为多项式级别。

Abstract:

神经架构搜索(NAS)已成为发现有效模型架构的流行方法,特别是针对目标硬件。因此,能够在约束条件下找到最优架构的NAS方法至关重要。在我们的论文中,我们提出了LayerNAS,通过将多目标NAS转换为组合优化问题来应对挑战,有效地将搜索复杂性约束为多项式级别。LayerNAS严格从一个基本假设推导出其方法,即对前面层的修改不会影响后续层。在处理满足此要求的含有L层的搜索空间时,该方法对每个层进行逐层搜索,从一组搜索选项S中选择。LayerNAS根据一个目标(如模型大小或延迟)对模型候选进行分组,并根据另一个目标搜索最优模型,从而分离搜索的成本和回报元素。这种方法将搜索复杂度限制为O(H· |S| ·L),其中H是LayerNAS中设置的常数。我们的实验表明,LayerNAS能够在多种搜索空间中与强基线相比,一致地发现优越的模型,包括从NATS-Bench、MobileNetV2和MobileNetV3派生的搜索空间。

Conclusion:

  • LayerNAS基于一个基本假设——对前面层的修改不会影响后续层——严格推导出其方法。
  • 该方法通过限制搜索复杂度,能够在不同的搜索空间中一致地发现优越的模型。

Methods:

  • LayerNAS对每个层进行逐层搜索,从一组搜索选项S中选择。
  • 它根据一个目标(如模型大小或延迟)对模型候选进行分组,并根据另一个目标搜索最优模型,从而分离搜索的成本和回报元素。
  • 这种方法将搜索复杂度限制为O(H· |S| ·L),其中H是LayerNAS中设置的常数。

Keyresults:

LayerNAS在多种搜索空间中与强基线相比,能够一致地发现优越的模型,包括从NATS-Bench、MobileNetV2和MobileNetV3派生的搜索空间

Code:

Paper under double-blind review

15.Lightweight Graph Neural Network Search With Graph Sparsification(583)

Aim:

提出一种名为GASSIP(使用图稀疏化和网络剪枝的轻量级图神经架构搜索)的新方法,旨在图结构任务中设计轻量级图神经网络(GNNs)。

Abstract:

图神经架构搜索(GNAS)在各种图结构任务上取得了卓越的性能。然而,现有的GNAS研究忽视了GNAS在资源受限场景中的应用。本文提出设计一个联合图数据和架构机制,通过有价值的图数据识别重要的子架构。为了寻找最优的轻量级图神经网络(GNNs),我们提出了一种轻量级图神经架构搜索方法,包括图稀疏化和网络剪枝(GASSIP)。特别是,GASSIP包括一个操作剪枝的架构搜索模块,以实现高效的轻量级GNN搜索。同时,我们设计了一个创新的课程图数据稀疏化模块,配合架构感知的边缘移除难度度量,以帮助选择最佳子架构。利用两个可微分的掩码,我们迭代地优化这两个模块,高效地搜索最佳轻量级架构。在五个基准测试上的广泛实验表明了GASSIP的有效性。特别是,我们的方法在节点分类性能上实现了与或甚至超过更多模型参数的搜索GNNs和更稀疏图形相当的性能,同时模型参数减少一半或更少。

Conclusion:

GASSIP有效地搜索到了优化的轻量级架构,并且实现了高性能,特别是在资源受限的场景中。

Methods:

  • GASSIP包括一个操作剪枝的架构搜索模块,以实现高效的轻量级GNN搜索。
  • 设计了一个创新的课程图数据稀疏化模块,配合架构感知的边缘移除难度度量,以帮助选择最佳子架构。
  • 利用两个可微分的掩码,迭代地优化这两个模块,高效地搜索最佳轻量级架构。

Keyresults:

  • 在五个基准测试上的广泛实验表明了GASSIP的有效性。
  • 特别是,该方法在节点分类性能上实现了与或甚至超过更多模型参数的搜索GNNs和更稀疏图形相当的性能,同时模型参数减少一半或更少。

Code:

Paper under double-blind review

16. LLM Performance Predictors Are Good Initializers For Architecture Search (6653) LLM

Aim:

探索使用大型语言模型(LLMs)构建性能预测器(PP)的新用途:预测特定深度神经网络架构在下游任务上的性能。

Abstract:

大型语言模型(LLMs)已成为解决广泛NLP任务的一个重要组成部分。在这项工作中,我们探索了使用LLMs构建性能预测器(PP)的新用途:这些模型能够预测特定深度神经网络架构在下游任务上的性能。我们为LLMs设计了PP提示,包括:(i) 角色:分配给LLM的角色描述;(ii) 指令:LLM执行性能预测时应遵循的一系列指令;(iii) 超参数:每个架构特定超参数的定义;(iv) 演示:带有效率指标和“从零开始训练”的性能的样本架构。对于机器翻译(MT)任务,我们发现结合我们PP提示的GPT-4(LLM-PP)能够预测架构性能,其平均绝对误差与最新技术(SOTA)相匹配,排名相关系数略有下降。此外,我们展示了LLM-PP的预测可以被蒸馏到一个小的回归模型(LLM-Distill-PP)。LLM-Distill-PP模型在很大程度上保留了LLM-PP的性能,并可以成为性能估计重度使用场景的成本效益高的替代方案。特别地,对于神经架构搜索(NAS),我们提出了一种混合搜索算法(HS-NAS),该算法在搜索的初始部分使用LLM-Distill-PP,余下的搜索过程则使用基线预测器。我们展示了HS-NAS在跨基准测试的NAS性能与SOTA相似,减少了约50%的搜索时间,并且在某些情况下改善了延迟、GFLOPs和模型大小。

Conclusion:

  • GPT-4结合我们的性能预测器提示(LLM-PP),在机器翻译(MT)任务上能够预测架构性能,其平均绝对误差与最先进(SOTA)相匹配,排名相关系数略有降低。
  • LLM-PP的预测可以被蒸馏到一个小的回归模型(LLM-Distill-PP),大大保留了LLM-PP的性能,并为性能估计的重度使用场景提供了一个成本效益高的替代方案。

Methods:

  • 设计了包括角色描述、指令集、架构特定超参数定义和带效率指标的样本架构及“从零开始训练”的性能的LLM提示。
  • 提出了一种结合LLM-Distill-PP的混合搜索算法用于神经架构搜索(NAS),即HS-NAS。

Keyresults:

HS-NAS在跨基准测试的NAS性能与SOTA相似,搜索时间减少约50%,并且在某些情况下改善了延迟、GFLOPs和模型大小。

Code:

Paper under double-blind review

17. Masked Distillation Advances Self-Supervised Transformer Architecture Search(668)

Aim:

提出一种名为MaskTAS的视觉transformer自监督神经架构搜索方法,旨在避免监督学习中昂贵的数据标记成本。

Abstract:

Transformer架构搜索(TAS)在自动化视觉变换器的神经架构设计过程中取得了显著进展。最近的TAS进展在节省了大量人力专家劳动的同时,发现了出色的Transformer架构。然而,由于监督学习范式下昂贵的数据标记成本,这些方法仍然难以在实际应用中部署。为此,本文提出了一种基于掩码图像建模(MIM)的自监督神经架构搜索方法,专门为视觉变换器设计,称为MaskTAS,完全避免了监督学习中继承的昂贵数据标记成本。基于一次性NAS框架,MaskTAS需要训练各种共享权重的子网,在MIM基础的自监督学习中,没有强监督容易发散。针对这个问题,我们设计了MaskTAS的搜索空间,作为双生教师-学生架构,以提炼预训练网络的知识,实现高效训练变换器超网络。为了实现自监督Transformer架构搜索,我们进一步设计了一种新的无监督评估指标用于进化搜索算法,其中每个学生分支的候选者通过测量与更大的教师网络的一致性来评价。广泛的实验表明,搜索到的架构即使不使用人工标签,也能在CIFAR-10、CIFAR-100和ImageNet数据集上实现最先进的准确性。此外,所提出的MaskTAS能够通过自监督方式搜索特定于任务的Transformer架构,良好地泛化到不同的数据域和任务。

Conclusion:

  • MaskTAS基于一次性NAS框架,通过设计双生教师-学生架构来提取预训练网络的知识,有效地训练transformer超网络。
  • 该方法在自监督方式下通过一种新的无监督评估指标实现了神经架构搜索。

Methods:

  • MaskTAS基于掩码图像建模(MIM)的自监督学习。
  • 设计了一个特定于视觉Transformer的搜索空间,作为双生教师-学生架构,用于从预训练网络中提炼知识。
  • 为进化搜索算法设计了一种新的无监督评估指标,通过测量学生分支的候选者与更大的教师网络的一致性来评价。

Keyresults:

  • 在CIFAR-10、CIFAR-100和ImageNet数据集上,搜索到的架构即使不使用人工标签也能实现最先进的准确性。
  • MaskTAS能够通过自监督方式搜索特定于任务的变换器架构,良好地泛化到不同的数据域和任务。

Code:

Paper under double-blind review

18.Mixture-Of-Supernets: Improving Weight-Sharing Supernet Training With Architecture-Routed Mixture-Of-Experts(5553)

Aim:

提出一种名为MaskTAS的视觉变换器自监督神经架构搜索方法,旨在避免监督学习中昂贵的数据标记成本。

Abstract:

共享权重的超网络已成为最新神经架构搜索(NAS)框架中性能估计的关键组成部分。尽管超网络可以直接生成不同的子网络而无需重新训练,但由于权重共享,这些子网络的质量无法得到保证。在NLP任务中,如机器翻译和预训练语言模型,我们观察到,对于相同的模型架构,超网络与从零开始训练之间存在很大的性能差距。因此,超网络不能直接使用,找到最优架构后仍需要重新训练。

在这项工作中,我们提出了“混合超网络”,一种通用超网络公式化方法,其中采用了专家混合(MoE)技术来增强超网络模型的表达能力,同时保持训练开销微小。通过这种方式,不同的子网络不是直接共享模型权重,而是通过基于架构的路由机制间接共享。这样,不同子网络的模型权重针对它们的特定架构进行定制,且权重生成通过梯度下降学习。与NLP领域现有的共享权重超网络相比,我们的方法可以最小化重训练时间,显著提高训练效率。此外,所提出的方法在构建快速机器翻译模型的NAS中达到了最先进的性能,与HAT相比有更好的延迟-BLEU权衡。我们还在构建内存高效的任务不可知BERT模型的NAS中实现了最先进的性能,超过了NAS-BERT和AutoDistil的不同模型大小。

Conclusion:

  • 混合超网络采用专家混合(MoE)技术增强超网络模型的表达能力,同时保持训练开销微小。
  • 这种方法优化了重训练时间,显著提高了训练效率。

Methods:

  • 与现有的NLP领域的共享权重超网络相比,此方法可以最小化重训练时间。
  • 在构建快速机器翻译模型的NAS中达到了最先进的性能,与HAT相比有更好的延迟-BLEU权衡。
  • 在构建内存高效的任务不可知BERT模型的NAS中也实现了最先进的性能,超过了NAS-BERT和AutoDistil的不同模型大小。

Keyresults:

  • 与现有的NLP领域的共享权重超网络相比,此方法可以最小化重训练时间。
  • 在构建快速机器翻译模型的NAS中达到了最先进的性能,与HAT相比有更好的延迟-BLEU权衡。
  • 在构建内存高效的任务不可知BERT模型的NAS中也实现了最先进的性能,超过了NAS-BERT和AutoDistil的不同模型大小。

Code:

Paper under double-blind review

19. Neural Architecture Retrieval(688)

Aim:

  • 定义并解决一个新问题:神经架构检索,旨在高效、自动地发现与查询神经架构设计相似的现有神经架构。

Abstract:

随着新神经架构设计的不断增加和大量现有神经架构的存在,研究人员很难将自己的贡献与现有神经架构进行比较,或建立自己的设计与其他相关设计之间的联系。为了高效且自动地发现与查询神经架构设计相似的现有神经架构,我们定义了一个新问题——神经架构检索,它检索一组与查询神经架构设计相似的现有神经架构。由于图的大小和模体,现有的图预训练策略无法解决神经架构中的计算图问题。为了实现这一目标,我们提出将图分割成模体,并用这些模体重建宏观图来解决这些问题,并引入多级对比学习以实现精确的图表示学习。在人工设计和合成的神经架构上进行的广泛评估证明了我们算法的优越性。为神经架构检索,我们构建了一个包含12k个真实世界网络架构及其嵌入的数据集。

Conclusion:

  • 通过将神经架构的计算图分割成模体,并重建宏观图,加上多级对比学习,有效实现了精确的图表示学习。
  • 该方法在人工设计和合成的神经架构上的广泛评估证明了其优越性。

Methods:

  • 提出将神经架构的计算图分割成模体,并重建宏观图来解决图大小和模体问题。
  • 引入多级对比学习来实现精确的图表示学习。

Keyresults:

构建了一个包含12k个真实世界网络架构及其嵌入的数据集,用于神经架构检索。

Code:

Paper under double-blind review

20.Neural Fine-Tuning Search For Few-Shot Learning(886)

Aim:

探索如何设计最优的适应策略,用于少量样本识别中,让一个已经在一组类别上训练过的分类器快速适应并泛化到一个新的、不相交的类别集。

Abstract:

在少量样本识别中,已经在一组类别上训练过的分类器需要快速适应并泛化到一个新的、不相交的类别集。为此,最近的研究已经显示了通过精心设计的适应架构进行微调的有效性。然而,这引发了一个问题:如何设计最优的适应策略?在这篇论文中,我们通过神经架构搜索(NAS)的角度研究了这个问题。给定一个预训练的神经网络,我们的算法可以发现适应器的最佳配置,决定哪些层保持冻结和哪些层进行微调。我们通过将这种NAS方法应用于残差网络和视觉变换器来展示其通用性,并在Meta-Dataset和Meta-Album上报告了最新的性能。

Conclusion:

  • 通过神经架构搜索(NAS),研究了如何发现适应器的最佳配置、哪些层保持冻结以及哪些层进行微调的问题。
  • 证明了所提出的NAS方法的通用性,通过将其应用于残差网络和视觉变换器,并在Meta-Dataset和Meta-Album上报告了最新的性能。

Methods:

开发了一种算法,用于在预训练的神经网络上发现适应器的最佳配置,包括决定哪些层保持冻结和哪些层进行微调。

Keyresults:

在Meta-Dataset和Meta-Album上实现了最新的性能,展示了NAS方法在不同网络架构中的应用潜力。

Code:

Paper under double-blind review

21.Neural Neighborhood Search For Multi-Agent Path Finding(663)

Aim:

在多智能体路径规划(MAPF)领域中解决一项特定挑战,即如何利用深度学习引导的大邻域搜索(LNS)方法。

Abstract:

多智能体路径规划(MAPF)是规划多个智能体的最优无碰撞路径的组合问题,应用于机器人、物流和交通领域。虽然许多近期的基于学习的工作专注于通过将大规模组合问题分解为一系列较小子问题的方法,但MAPF的空间时间结合和时间限制特性对基于学习的迭代方法如大邻域搜索(LNS)的指导构成了特殊挑战,即使在没有学习的情况下LNS已是MAPF的最先进方法。我们通过设计一个交织卷积和注意力机制的架构来解决这个挑战,高效表示MAPF子问题,实用地指导LNS在基准设置中的应用。我们展示了我们方法相对于现有最先进的基于LNS的MAPF方法的加速效果,以及该方法对未见设置的鲁棒性。我们提出的方法拓展了有效的深度学习引导的LNS方法在多路径规划问题中的应用范围,我们提出的表示方式可能更广泛地适用于表示路径间的交互。

Conclusion:

  • 通过设计一个交织卷积和注意力机制的架构,有效地表示MAPF子问题,使得LNS在基准设置中得到实际的指导。
  • 展示了该方法相对于现有最先进的LNS-based MAPF方法的加速效果,以及该方法对未见设置的鲁棒性。

Methods:

  • 设计了一个结合了卷积和注意力机制的架构,以高效表示MAPF子问题,从而实用地指导LNS。
  • 提出的方法扩展了深度学习引导的LNS方法在多路径规划问题中的应用,并且提出的表示方式可能更广泛地适用于表示路径间交互。

Keyresults:

  • 该方法在MAPF的现有最先进的基于LNS的方法上实现了加速,并且在未见设置中表现出鲁棒性。
  • 扩展了深度学习引导的LNS方法在多路径规划问题中的应用范围。

Code:

Paper under double-blind review

22.Quantum Architecture Search With Unsupervised Representation Learning(555)

Aim:

探索无监督表示学习在量子架构搜索(QAS)中的应用,目的是在噪声中等规模量子(NISQ)设备上实现潜在的量子优势。

Abstract:

利用无监督表示学习进行量子架构搜索(QAS)代表了一种前沿方法,旨在在噪声中等规模量子(NISQ)设备上实现潜在的量子优势。QAS是一种设计变分量子算法(VQAs)中量子电路的方案。大多数QAS算法将它们的搜索空间和搜索算法结合在一起,因此通常需要在搜索过程中评估大量量子电路,导致巨大的计算需求,并限制了它们在大规模量子电路中的应用。基于预测器的QAS算法可以通过直接根据电路结构估算电路性能来减轻这个问题。然而,高性能的预测器通常需要进行非常耗时的标记工作,以获得大量标记的量子电路,因为量子电路的门参数需要优化到它们的真实性能。最近,一个经典的神经架构搜索算法Arch2vec启发了我们,显示架构搜索可以从搜索过程中解耦无监督表示学习。无监督表示学习是否可以帮助QAS而无需任何预测器仍然是一个开放的话题。在这项工作中,我们提出了一个框架,将QAS与无监督表示学习相结合,并可视化了无监督架构表示学习是如何促进具有类似连接和操作符的量子电路架构聚集在一起。具体来说,我们的框架使得QAS过程可以从无监督架构表示学习中脱钩,以便直接应用于不同的下游应用。此外,我们的框架无需预测器,省去了对大量标记量子电路的需求。在搜索过程中,我们使用了两种算法REINFORCE和贝叶斯优化直接在潜在表示上进行搜索,并与随机搜索方法进行了比较。结果显示,我们的框架能够在有限数量的搜索中更有效地获得高性能的候选电路。

Conclusion:

  • 提出了一种框架,通过无监督表示学习来促进量子电路架构搜索,使得具有类似连接和操作符的量子电路架构聚集在一起。
  • 该框架无需预测器,省去了对大量标记量子电路的需求。

Methods:

  • 开发了一个框架,该框架使得QAS过程可以从无监督架构表示学习中脱钩,以便直接应用于不同的下游应用。
  • 在搜索过程中,使用了两种算法REINFORCE和贝叶斯优化直接在潜在表示上进行搜索,并与随机搜索方法进行了比较。

Keyresults:

结果显示,该框架能够在有限数量的搜索中更有效地获得高性能的候选电路。

Code:

Paper under double-blind review

23. Robust NAS Benchmark Under Adversarial Training: Assessment, Theory, And Beyond(666)

Aim:

解决神经架构搜索(NAS)中寻找对抗恶意数据鲁棒的架构的问题,特别是在考虑对抗性训练时缺乏基准评估和理论保证的挑战。

Abstract:

神经架构搜索(NAS)的最新发展强调了考虑抵御恶意数据的鲁棒架构的重要性。然而,在搜索这些鲁棒架构时,特别是在考虑对抗性训练时,缺乏基准评估和理论保证。在这项工作中,我们旨在解决这两个挑战,做出双重贡献。首先,我们发布了一个全面的数据集,包括了来自NAS-Bench-201搜索空间的大量对抗性训练网络在图像数据集上的干净准确度和鲁棒准确度。然后,利用深度学习理论中的神经切线核(NTK)工具,我们为在多目标对抗性训练下搜索架构的干净准确度和鲁棒准确度建立了泛化理论。我们坚信,我们的基准和理论洞见将通过可靠的可复现性、高效的评估和理论基础,显著造福NAS社区,特别是在寻求鲁棒架构的追求中。

Conclusion:

通过提供一个全面的数据集,涵盖了广泛的对抗性训练网络在图像数据集上的干净准确度和鲁棒准确度,以及通过深度学习理论中的神经切线核(NTK)工具,建立了在多目标对抗性训练下寻找架构的干净准确度和鲁棒准确度的泛化理论。

Methods:

  • 发布了一个全面的数据集,包括了来自NAS-Bench-201搜索空间的大量对抗性训练网络在图像数据集上的干净准确度和鲁棒准确度。
  • 利用神经切线核(NTK)工具建立了对抗性训练下架构搜索的干净准确度和鲁棒准确度的泛化理论。

Keyresults:

为NAS社区提供了可靠的可复现性、高效的评估和理论基础,特别是在寻求鲁棒架构的追求中。

Code:

Paper under double-blind review

24.Robustifying And Boosting Training-Free Neural Architecture Search(583)

Aim:

提出一种名为鲁棒增强无需训练神经架构搜索(RoBoT)的算法,旨在解决无需训练NAS在估计真实架构性能时的挑战,特别是在不同任务间准确度变化的问题。

Abstract:

神经架构搜索(NAS)已成为AutoML的关键组成部分,并成为自动化设计深度神经网络的标准工具。近期,作为新兴范式的无需训练NAS成功地通过仅使用无需训练指标来估计真实架构性能,从而减少了标准基于训练NAS的搜索成本。然而,这些指标的估计能力通常在不同任务间变化,使得仅用单一无需训练指标在多样任务上实现鲁棒且持续良好的搜索性能变得具有挑战性。与此同时,无需训练指标与真实架构性能之间的估计差距限制了无需训练NAS实现更优性能。为了应对这些挑战,我们提出了一种名为鲁棒增强无需训练神经架构搜索(RoBoT)的算法,该算法(a)通过贝叶斯优化探索现有无需训练指标的优化组合,开发出在多样任务上更鲁棒、表现更优的指标,以及(b)在新开发的指标上应用贪婪搜索,即利用,来弥合上述差距,从而进一步提升标准无需训练NAS的搜索性能。值得注意的是,我们的RoBoT算法的预期性能在理论上得到了保证,在适度条件下比现有无需训练NAS表现更好,并带来了有趣的洞见。我们在各种NAS基准任务上进行的广泛实验为我们的理论结果提供了实证支持。

Conclusion:

  • RoBoT算法通过优化现有无需训练指标的组合,开发出在不同任务上鲁棒性和性能一致更优的指标。
  • 通过在新开发的指标上应用贪婪搜索,即利用,来弥合现有无需训练指标与真实架构性能之间的差距,从而进一步提升标准无需训练NAS的搜索性能。

Methods:

  • 利用贝叶斯优化探索现有无需训练指标的优化组合,以开发出在多样任务上更好表现的鲁棒指标。
  • 应用贪婪搜索策略在新开发的指标上进行搜索,以提高搜索性能。

Keyresults:

  • RoBoT算法的预期性能在理论上得到了保证,比现有无需训练NAS在适度条件下表现更好,并带来了有趣的洞见。
  • 在各种NAS基准任务上的广泛实验为我们的理论结果提供了实证支持。

Code:

Paper under double-blind review

25.Search: A Self-Evolving Framework For Network Architecture Optimization(535)

Aim:

探索一种新的网络优化方法,该方法旨在在给定资源预算(少量参数和/或快速推理)下找到具有最佳性能(低损失)的网络架构。

Abstract:

本文研究了一种基本的网络优化问题,即在给定资源预算(参数数量少和/或快速推理)下寻找具有最优性能(低损失)的网络架构。与现有的网络优化方法如网络剪枝、知识蒸馏(KD)和神经架构搜索(NAS)不同,我们在这项工作中引入了一种自进化管道来执行网络优化。在这个框架中,一个简单的网络通过使用来自教师网络的指导,迭代地和自适应地修改其结构,直到达到资源预算。我们引入了一个注意力模块,将知识从教师网络转移到学生网络。同时,设计了一个拆分边缘方案,帮助学生模型找到最佳的宏观架构。所提出的框架结合了剪枝、KD和NAS的优点,因此可以有效地生成具有灵活结构和理想性能的网络。在CIFAR-10、CIFAR-100和ImageNet上进行的广泛实验表明,我们的框架在网络架构优化任务中取得了出色的性能。

Conclusion:

提出的自进化管道结合了网络剪枝、知识蒸馏(KD)和神经架构搜索(NAS)的优势,能够高效生成具有灵活结构和理想性能的网络。

Methods:

  • 通过一个简单网络迭代自适应地修改其结构,使用来自教师网络的指导,直到达到资源预算。
  • 引入了一个注意力模块,以将知识从教师网络转移到学生网络。
  • 设计了一个拆分边缘方案,帮助学生模型找到最佳的宏观架构。

Keyresults:

在CIFAR-10、CIFAR-100和ImageNet上的广泛实验表明,该框架在网络架构优化任务中取得了出色的性能。

Code:

Paper under double-blind review

26.Structural Pruning Of Pre-Trained Language Models Via Neural Architecture Search(653)

Aim:

探讨基于权重共享的神经架构搜索(NAS)作为一种结构剪枝方法,旨在寻找经过微调的网络的子部分,以在效率(例如模型大小或延迟)与泛化性能之间取得最优权衡。

Abstract:

预训练语言模型(PLM)标志着自然语言理解的最新水平。然而,它们的大尺寸在实际应用中的部署中带来了挑战,由于显著的GPU内存需求和高延迟。本文探讨了基于权重共享的神经架构搜索(NAS)作为一种结构剪枝方法,目的是为了找到经过微调的网络的子部分,这些子部分在效率(例如模型大小或延迟)和泛化性能之间实现了最优的权衡。与传统具有固定阈值的剪枝方法不同,我们提出了一种多目标方法,可以识别帕累托最优的子网络集合,从而实现更灵活和自动化的压缩过程。我们的NAS方法在7个中的8个文本分类任务上,对经过微调的BERT模型实现了高达50%的压缩,同时性能下降不到5%。

Conclusion:

与传统具有固定阈值的剪枝方法不同,提出了一种多目标方法,可以识别帕累托最优的子网络集合,从而实现更灵活和自动化的压缩过程。

Methods:

采用多目标方法来识别最优的子网络集合,以实现对预训练语言模型(PLM)的高效压缩。

Keyresults:

在7个中的8个文本分类任务上,对经过微调的BERT模型进行高达50%的压缩,同时性能下降不到5%。

Code:

Paper under double-blind review

27.Swap-NAS: Sample-Wise Activation Patterns For Ultra-Fast NAS(686)

Aim:

提出一种名为SWAP-Score的新型高性能无需训练指标,基于样本级激活模式,用于解决现有无需训练指标在不同搜索空间和任务中的相关性有限和泛化性能差的问题。

Abstract:

无需训练指标(又称零成本代理)广泛用于避免资源密集型的神经网络训练,特别是在神经架构搜索(NAS)中。最近的研究表明,现有的无需训练指标存在几个限制,如在不同搜索空间和任务中相关性有限和泛化性能差。因此,我们提出了一种基于样本级激活模式的新型高性能无需训练指标,名为SWAP-Score。它通过测量网络在一批输入样本上的表达力来评估网络性能。SWAP-Score在多种搜索空间和任务中与真实性能强相关,在NAS-Bench-101/201/301和TransNAS-Bench-101上超过了15种现有的无需训练指标。通过正则化可以进一步增强SWAP-Score,提高相关性并在搜索过程中实现模型大小控制。例如,在NAS-Bench-201网络上,正则化的SWAP-Score与CIFAR-100验证精度的Spearman等级相关系数为0.90,显著高于第二好的指标NWOT的0.80。当与进化算法结合用于NAS时,我们的SWAP-NAS在CIFAR-10和ImageNet上实现了竞争性能,分别仅需约6分钟和9分钟的GPU时间。

Conclusion:

  • SWAP-Score在多种搜索空间和任务中与真实性能强相关,超过了15种现有的无需训练指标。
  • 通过正则化可以进一步增强SWAP-Score,提高相关性并在搜索过程中控制模型大小。

Methods:

  • SWAP-Score通过测量网络在一批输入样本上的表达力来评估网络性能。
  • 引入正则化来提高指标的相关性,并在基于单元的搜索空间中实现模型大小控制。

Keyresults:

  • 在NAS-Bench-101/201/301和TransNAS-Bench-101上,SWAP-Score的性能超过现有的15种无需训练指标。
  • 在NAS-Bench-201网络上,正则化的SWAP-Score与CIFAR-100验证精度的Spearman等级相关系数为0.90,显著高于第二好的指标NWOT的0.80。
  • 当与进化算法结合用于NAS时,SWAP-NAS在CIFAR-10和ImageNet上实现了竞争性能,分别仅需约6分钟和9分钟的GPU时间。

Code:

Paper under double-blind review

28.Tafs: Task-Aware Activation Function Search For Graph Neural Networks(555)

Aim:

  • 探索图神经网络(GNNs)中一个至关重要但迄今为止较少被研究的方面——激活函数的设计。
  • 开发一个名为TAFS(面向任务的激活函数搜索)的框架,专门用于为不同GNN应用量身定制激活函数。

Abstract:

自图神经网络(GNNs)问世以来,大量研究工作集中在增强图卷积、精炼池化操作、设计鲁棒的训练策略以及推进理论基础上。值得注意的是,当前GNN研究的一个关键方面仍然明显未被充分探索——激活函数的设计。激活函数作为关键组件,赋予GNNs进行非线性处理的基本能力。然而,修正线性单元(ReLU)的普遍使用仍然持续。在我们的研究中,我们着手开发面向任务的激活函数,为多样的GNN应用量身定制。我们引入了TAFS(面向任务的激活函数搜索),一个熟练且高效的激活函数设计框架。TAFS利用流线型参数化方法,并将问题框定为双层随机优化挑战。为了增强平滑激活函数的搜索,我们引入了额外的Lipschitz正则化。我们的方法自动化地发现最佳激活模式,并能够无缝地适应任何下游任务。关键的是,这整个过程在不增加显著的计算或内存开销的情况下端到端进行。全面的实验强调了我们方法的有效性。我们在包括节点分类在内的多种任务上取得了显著改进。此外,我们的方法在链接级任务中超越了最新的研究成果,特别是在生物医学应用领域。

Conclusion:

  • TAFS通过简化的参数化方法并将问题框定为双层随机优化挑战,高效地设计激活函数。
  • 通过引入Lipschitz正则化,增强了平滑激活函数的搜索。
  • 该方法自动化地发现了最佳激活模式,并能够无缝地适应任何下游任务。

Methods:

  • TAFS利用流线型参数化,将激活函数设计问题框定为双层随机优化挑战。
  • 引入了Lipschitz正则化,以增强平滑激活函数的搜索效率。

Keyresults:

  • 在包括节点分类在内的多种任务上取得了显著改进。
  • 在链接级任务,特别是生物医学应用中,超越了最新的研究成果。

Code:

Paper under double-blind review

29.Towards Neural Architecture Search Through Hierarchical Generative Modeling(6553)

Aim:

提出一种新方法,旨在通过利用最新的生成模型技术,减少神经架构搜索(NAS)对手动设计的搜索空间的依赖,以高效地探索极大的、通用的搜索空间。

Abstract:

神经架构搜索(NAS)在自动化设计各种任务的深度神经网络方面越来越受欢迎。典型的NAS流程从人工设计的搜索空间开始,在这个过程中通过有条理的探索来帮助发现高性能模型。尽管NAS在许多情况下表现出色,但其强大的性能在很大程度上依赖于对好的设计的先验知识,这是通过精心设计搜索空间隐式地纳入到流程中的。通常,这种依赖性是不希望的,因为它限制了NAS对不太研究的任务的适用性,并/或导致获得强大结果所需成本的激增。在这项工作中,我们的目标是通过依靠最近在生成模型方面的进步来解决这个限制,我们提出了一种能够通过训练两级层次的生成模型高效导航一个非常大、通用的搜索空间的方法。第一级专注于微单元设计,利用条件连续正规化流(CCNF);随后一级使用基于变压器的序列生成器来产生针对给定任务和架构限制的宏观架构。为了使过程在计算上可行,我们执行了基于图和零成本(ZC)相似性的度量空间的任务不可知预训练。我们在包括CIFAR-10、CIFAR-100和ImageNet模型在内的典型任务上评估了我们的方法,与其他低成本NAS方法相比,展示了最先进的性能。

Conclusion:

  • 通过训练两级层次的生成模型,该方法能够高效地导航一个非常大的、通用的搜索空间。
  • 与其他低成本NAS方法相比,在典型任务(包括CIFAR-10、CIFAR-100和ImageNet模型)上展示了最先进的性能。

Methods:

  • 第一级专注于微单元设计,利用条件连续正规化流(CCNF);随后一级使用基于变压器的序列生成器来产生针对给定任务和架构限制的宏观架构。
  • 为了使过程在计算上可行,执行了基于图和零成本(ZC)相似性的度量空间的任务不可知预训练。

Keyresults:

在包括CIFAR-10、CIFAR-100和ImageNet模型在内的典型任务上,与其他低成本NAS方法相比,展示了最先进的性能。

Code:

Paper under double-blind review

30.Composing Recurrent

Aim:

Abstract:

Conclusion:

据作者所知,该研究首次进行了RSNNs的系统架构

Methods:

Keyresults:

Code:

Paper under double-blind review