【读点论文】Rewrite the Stars将svm的核技巧映射到高维空间，从数理逻辑中丰富特征维度维度

Rewrite the Stars

Abstract

最近的研究已经引起了人们对网络设计中“星形运算”(逐元素乘法)的未开发潜力的关注。虽然直观的解释比比皆是，但其应用背后的基本原理在很大程度上仍未被探索。我们的研究试图揭示星形操作在不扩大网络的情况下将输入映射到高维非线性特征空间的能力——类似于内核技巧。我们进一步介绍了StarNet，一个简单而强大的原型，在紧凑的网络结构和有效的预算下展示了令人印象深刻的性能和低延迟。就像天空中的星星一样，恒星运行看似不起眼，但蕴含着巨大的潜力。我们的工作鼓励跨任务的进一步探索，代码在GitHub - ma-xu/Rewrite-the-Stars: CVPR 2024] Rewrite the Stars
论文地址：[2403.19967] Rewrite the Stars
文章的核心是 “星操作”（star operation，即元素级乘法）。作者认为星操作具有将输入映射到高维、非线性特征空间的能力，且能在低维空间中进行计算。通过堆叠多层星操作，可以指数级地增加隐式维度，从而在紧凑的网络结构下实现高效的计算。
在单层神经网络中，星操作可表示为 $W_{1}^{T} X+B_{1})*(W_{2}^{T} X+B_{2}))$ ，将权重矩阵和偏置合并后可写为 $W_{1}^{T} X)*(W_{2}^{T} X))$ 。为简化分析，考虑单输出通道变换和单元素输入，定义 $(w_{1})、(w_{2})、(x \in \mathbb{R}^{(d+1) ×1})$ （其中(d)是输入通道数），可将星操作重写为：
$w_{1}^{T} x * w_{2}^{T} x \\ = \left(\sum_{i=1}^{d+1} w_{1}^{i} x^{i}\right) *\left(\sum_{j=1}^{d+1} w_{2}^{j} x^{j}\right)\\ = \sum_{i=1}^{d+1} \sum_{j=1}^{d+1} w_{1}^{i} w_{2}^{j} x^{i} x^{j} \\ = \underbrace{\alpha_{(1,1)} x^{1} x^{1}+\cdots+\alpha_{(4,5)} x^{4} x^{5}+\cdots+\alpha_{(d+1, d+1)} x^{d+1} x^{d+1}}_{(d+2)(d+1) / 2 items }\\ 其中\alpha_{(i, j)}=\left\{\begin{array}{cl} w_{1}^{i} w_{2}^{j} & if i==j, \\ w_{1}^{i} w_{2}^{j}+w_{1}^{j} w_{2}^{i} & if i!=j. \end{array}\right.$
这样就将星操作展开成了 $(\frac{(d+2)(d+1)}{2})$ 个不同项，每个项（除外 $\alpha_{(d+1, i)} x^{d+1} x$ ）与(x)呈非线性关系，意味着它们是独立的隐式维度。在 $\gg 2)$ 的情况下，可近似认为在一个 $(\frac{(d+2)(d+1)}{2} \approx(\frac{d}{\sqrt{2}})^{2})$ 的隐式维度特征空间中进行计算，且不增加额外计算开销。
推广到多层时，假设初始网络层宽度为(d)，应用一次星操作得到
$\sum_{i=1}^{d+1} \sum_{j=1}^{d+1} w_{1}^{i} w_{2}^{j} x^{i} x^{j}$
表示在 $\mathbb{R}^{(\frac{d}{\sqrt{2}})^{2^{1}}}$ 的隐式特征空间中。令 $O_{l}$ 表示第 (l) 次星操作的输出，可得到
$O_{1}=\sum_{i=1}^{d+1} \sum_{j=1}^{d+1} w_{(1,1)}^{i} w_{(1,2)}^{j} x^{i} x^{j} \in \mathbb{R}^{\left(\frac{d}{\sqrt{2}}\right)^{2^{1}}}、\\ O_{2}=W_{2,1}^{T} O_{1} * W_{2,2}^{T} O_{1} \in \mathbb{R}^{\left(\frac{d}{\sqrt{2}}\right)^{2^{2}}}、\\ O_{3}=W_{3,1}^{T} O_{2} * W_{3,2}^{T} O_{2} \in \mathbb{R}^{\left(\frac{d}{\sqrt{2}}\right)^{2^{3}}}、\\ ……$
即通过堆叠多层，可在 $\mathbb{R}^{(\frac{d}{\sqrt{2}})^{2^{l}}}$ 的特征空间中表示。例如，一个宽度为(128)的(10)层网络，通过星操作可近似得到( $90^{1024}$ )的隐式特征维度，可合理近似为无限维度。
尽管神经网络在过去取得了显著进展，但模型体量暴增带来了诸多问题，如对服务器存储和算力的高要求、经济成本高、能耗大、环境污染等。此外，现有对星操作的解释多基于直觉和假设，缺乏深入分析和有力证据。揭示星操作的强大表示能力，即能将输入映射到高维、非线性特征空间（类似于核技巧）的能力；证明星操作在高效网络领域的实用性，提出概念验证模型 StarNet；鼓励对基于星操作的更多可能性进行探索，如无激活函数的学习和隐式维度内的精细操作等。旨在解决神经网络模型过于庞大和复杂导致的计算资源需求高、效率低等问题，通过利用星操作的特性，在保持高效计算的同时，实现高维特征表示，从而为轻量化神经网络设计提供新的思路和方法。
本文实验指出星操作的独特优势为在低维空间中计算的同时产生高维特征，这为探索深度学习中的基本挑战奠定了基础，并提出了几个值得进一步研究的问题，如激活函数是否真正不可或缺、星操作与自注意力和矩阵乘法的关系、如何优化隐式高维空间中的系数分布等。

Introduction

在过去的十年里，学习范式已经不知不觉地逐渐演变。自AlexNet 以来，无数的深度网络已经出现，每一个都建立在另一个之上。尽管这些模型有其独特的见解和贡献，但它们大多基于将线性投影(即卷积和线性层)与非线性激活相结合的模块。自[Attention is all you need]以来，自注意主导了自然语言处理，以及后来的计算机视觉[ViT]。自注意最显著的特征是将特征映射到不同的空间，然后通过点积乘法构建一个注意矩阵。然而，这种实现方式并不高效，并且导致注意力复杂度随着令牌数量的增加而成平方比例增加。
最近，一种新的学习范式得到了越来越多的关注:通过逐元素乘法融合不同的子空间特征。为简单起见，我们将这种范例称为“星形操作”(由于元素级乘法符号类似于星形)。Star操作在各个研究领域表现出有前途的性能和效率，包括自然语言处理(即，Monarch Mixer ，Mamba ，Hyena Hierarchy ，GLU等。)、计算机视觉(即FocalNet 、HorNet 、VAN 等)，还有更多。为了说明，我们构建了一个用于图像分类的“演示块”，如图1左侧所示。通过在stem层之后堆叠多个演示模块，我们构建了一个名为DemoNet的简单模型。在保持所有其他因素不变的情况下，我们观察到元素级乘法(星形运算)在性能上一直超过求和，如图1右侧所示。
- 图一。星形运算(元素级乘法)优势的说明。左侧描绘了从相关作品中抽象出来的基本构建块，带有“？”代表“star”或“summation”右侧突出显示了两种操作之间显著的性能差异,“star”表现出优异的性能，尤其是在宽度较窄的情况下。请检查Sec。3.4.1了解更多结果。
虽然star操作非常简单，但它提出了一个问题:为什么它会产生如此令人满意的结果？对此，人们提出了几种假设性的解释。例如，FocalNet 认为星形操作可以作为调制或门控机制，动态地改变输入特征。HorNet 认为优势在于利用高阶特征。同时，VAN 和Monarch Mixer 都将这种效果归因于卷积注意力。虽然这些初步解释提供了一些见解，但它们在很大程度上是基于直觉和假设，缺乏全面的分析和有力的证据。因此，背后的基本原理仍然未经审查，对更好地理解和有效利用star操作提出了挑战。
在这篇文章中，我们通过明确地证明:星形运算具有将输入映射到一个非常高维的非线性特征空间的能力，来解释星形运算的强代表能力。我们不再依赖直觉或假设的高层解释，而是深入探究恒星运行的细节。通过重写和重构星型运算，我们发现这种看似简单的运算可以生成一个新的特征空间，它包含大约 $(\frac d{\sqrt 2})^2$ 个线性独立的维度，详见第2节。3.1.星形运算实现这种非线性高维的方式不同于增加网络宽度(也称为通道数)的传统神经网络。相反，星形运算类似于核函数，它对不同通道的特征进行成对相乘，特别是多项式核函数。当被结合到神经网络中并且具有多个层的堆叠时，每一层都有助于隐式维度复杂性的指数增加。仅用几层，星形运算就能在一个紧凑的特征空间内达到几乎无限的维数，如3.2节所述。在一个紧凑的特征空间内操作，同时受益于隐含的高维度，这就是star操作以其独特的魅力吸引人的地方。
根据上述见解，我们推断，与传统使用的大型模型相比，星形操作可能更适合高效、紧凑的网络。为了验证这一点，我们引入了一个概念有效网络StarNet，它的特点是简洁和有效。StarNet的详细架构可以在图3中找到。StarNet非常简单，没有复杂的设计和微调的超参数。就设计理念而言，StarNet明显不同于现有网络，如表1所示。利用star操作的功效，我们的StarNet甚至可以超越各种精心设计的高效模型，如MobileNetv3 ，EdgeViT ，FasterNet 等。例如，在ImageNet-1K验证集上，我们的StarNet-S4 比 EdgeViT-XS 的准确率高0.9%，而在iPhone13和CPU上的运行速度快3倍，在GPU上快2倍。这些结果不仅从经验上验证了我们关于star操作的见解，而且强调了它在现实世界应用中的实用价值。我们简明扼要地总结并强调这项工作的主要贡献如下:
- 首先，我们证明了star操作的有效性，如图1所示。我们揭示了星形运算具有将特征投射到一个非常高维的隐式特征空间的能力，类似于多项式核函数.
- 我们通过实证结果(参见图1、表2和表3等)验证了我们的分析。)，理论探索，以及视觉表示(见图2)。
- 从我们的分析中得到启发，我们确定了星形操作在高效网络领域中的效用，并提出了一个概念验证模型StarNet。值得注意的是，StarNet不需要复杂的设计或精心选择的超参数就能实现令人满意的性能，超越了众多高效的设计。
- 值得注意的是，基于star操作，存在大量未探索的可能性，如无激活的学习和隐含维度内的精炼操作。我们设想我们的分析可以作为一个指导框架，引导研究人员远离随意的网络设计尝试。
文章指出星操作能够将输入映射到一个非常高维的非线性特征空间中，类似于多项式核函数。通过重写和重构星操作，作者发现这一看似简单的操作可以在紧凑的特征空间内生成大约 $(\frac{d}{\sqrt 2})^2$ 个线性独立维度。这与传统的增加网络宽度（即通道数量）来提高模型复杂度的方法不同，而是更像一种进行跨通道特征乘法的核函数。该研究试图解决的问题是如何在不牺牲精度的情况下显著减少计算成本和参数量，特别是在移动设备上的部署问题。

Related Work

神经网络中的逐元素乘法。最近的研究表明，在功能聚合的网络设计中，利用元素级乘法可能是比求和更有效的选择，如FocalNet 、VAN 、Conv2Former 、HorNet 等等所举例说明的。为了阐明它的优越性，人们提出了直观的解释，包括调制机制、高阶特征和卷积注意的整合等。尽管已经提出了许多尝试性的解释，并且已经取得了经验上的改进，但是其背后的基本原理仍然没有得到检验。在这项工作中，我们明确强调，元素式乘法是至关重要的，不管琐碎的架构修改。它有能力以一种新颖的方式将输入特征隐含地转换到非常高的非线性维度，但在低维空间中操作。
高维非线性特征变换。在传统的机器学习算法和深度学习网络中，包含高维和非线性特征是至关重要的。这种必要性源于真实世界数据的错综复杂的本质以及模型表现这种复杂性的内在能力。然而，重要的是要认识到，这两种方法从不同的角度实现了这一目标。在深度学习时代，我们通常首先将低维特征线性投影到高维空间，然后使用激活函数(例如ReLU、GELU等)引入非线性).
相比之下，我们可以在传统的机器学习算法中使用核技巧同时获得高维度和非线性。例如，多项式核函数 $k (x_1，x_2) = (γx_1 ⋅ x_2 + c) ^d$ 可以将输入特征 $x_1，x_2∈\R ^ n$ 投影到 $n + 1) ^d$ 高维非线性特征空间；高斯核函数 $(x_1，x_2)= exp(-||x_1||^2)exp(-||x_2||^2)∑^{+∞}_{i = 0}\frac{(2x^⊺_1 x_2)^i} {i！}$ 可以通过泰勒展开得到无限维的特征空间。作为比较，我们可以观察到经典的机器学习核心方法和神经网络在它们的实现和对高维和非线性特征的理解方面是不同的。在这项工作中，我们证明了星操作可以在低维输入中获得高维非线性特征空间，类似于核技巧的原理。图2所示的简单可视化实验进一步说明了星形运算和多项式核函数之间的联系。
- 图二。2D噪声卫星数据集上的判定边界比较。在相同的配置下，星形网络展示了比求和更有效的决策边界。相对于支持向量机，星形运算的边界与多项式核SVM的边界紧密对齐，不同于高斯核SVM。更多细节可在补充资料中找到。
高效的网络。高效的网络努力在计算复杂性和性能之间达到理想的平衡。近年来，已经引入了许多创新概念来提高网络的效率。这些方法包括深度卷积，特征重用[Run, don’t walk，Ghostnet]和重新参数化等。表1给出了全面的总结。与所有以前的方法形成鲜明对比的是，我们证明了星形操作可以作为高效网络的一种新方法。它具有在低维空间中执行计算时隐式考虑极高维特征的独特能力。突出的优点是在有效网络领域中区别星形操作与其他技术，并且使其特别适合于有效网络设计。通过star操作，我们证明了一个简单的网络可以轻松胜过大量手工设计。
- 表1。基于关键洞察力的著名有效网络分类。我们介绍了StarNet，它通过探索一种新颖的方法而与众不同:通过星形操作利用隐含的高维度来提高网络效率。

Rewrite the Stars

我们从重写star操作开始，以明确展示它实现超高维度的能力。然后，我们证明了在多层之后，star可以显著地将隐含维度增加到几乎无限的维度。随后进行讨论。

Star Operation in One layer

在单层神经网络中，星形运算通常写为 $(W^T_1 X+B_1)*(W^T_2 X+B_2)$ ，表示通过逐元素乘法融合两个线性变换的特征。为了方便起见，我们将权重矩阵和偏差合并为一个实体，表示为 $W=\begin{bmatrix} W\\B \end{bmatrix}$ ，类似地， $X=\begin{bmatrix} X\\1 \end{bmatrix}$ ，从而得到星形运算 $(W^T _1 X)*(W^T _2 X)$ 。为了简化我们的分析，我们将重点放在涉及单输出通道转换和单元素输入的场景上。具体来说，我们定义 $w_1，w_2，x ∈ \R ^{(d+1)×1}$ ，其中d是输入通道号。

它可以很容易地扩展，以适应多个输出通道 $W_1，W_2∈\R^{(d+1)×(d′+1)}$ ，并处理多个特征元素， $X ∈ \R^{ (d+1)×n}$ 。通常，我们可以通过以下方式重写star操作:
其中，我们使用 i，j来索引通道，α 是每个项目的系数:
- $\alpha_{i,j} =\left\{\begin{matrix} w^i_1w^j_2 & if i==j \\ w^i_1w^j_2+ w^j_1w^i_2 & if \neq j \end{matrix}\right.$
在重写等式1中描述的星形操作时。我们可以将其扩展为 $\frac{(d+2)(d+1)}2$ 个不同项目的组合，如等式4所示。值得注意的是，每一项(除了 $α_{(d+1，∴)}x^{d+1}x$ 之外)都表现出与x的非线性关联，表明它们是单独的和隐含的维度。因此，我们使用计算高效的星形运算在d维空间中执行计算，然而我们实现了在 $\frac {(d+2)(d+1)} 2 ≈ (\frac d {\sqrt 2} ) ^2$ (考虑d ≫ 2)隐式维特征空间中的表示，显著地放大了特征维度，而没有在单个层中招致任何额外的计算开销。值得注意的是，这个突出的特性与内核函数有着相似的哲学，我们建议读者参考[Kernel methods in machine learning, Kernel methods for pattern analysis]以获得更广泛和更深入的观点。

Generalized to multiple layers

接下来，我们证明了通过堆叠多个层，我们可以以递归的方式将隐式维度指数地增加到接近无穷大。考虑宽度为 d 的初始网络层，应用一个星形运算得到表达式 $^{d+1} _{i=1} ∑ ^{d+1} _{j=1} w ^i _1w ^j _2 x ^ix ^j$ ，如等式 3 所示。这导致在 $\R^ {(\frac d{\sqrt2} ) ^{2^ l}}$ 的隐式特征空间内的表示。设 Ol 表示第 l 颗星运算的输出，我们得到:
- 也就是说，对于 l 层，我们可以隐式地获得属于 $\R^ {(\frac d{\sqrt2} ) ^{2^ l}}$ 的特征空间。例如，给定宽度为128的10层各向同性网络，通过星形运算获得的隐式特征维数约为 $90^{1024}$ ，这可以合理地近似为无限维。因此，藉由堆叠多层，甚至只有几层，星状运算就能以指数方式大幅放大隐含维度。

Special Cases

并不是所有的star操作都遵循等式1中的公式。其中每个分支经历一个转换。例如，VAN 和 SENet 合并了一个单位分支，而 GENet-θ 没有任何可学习的变换。随后，我们将深入研究这些独特案例的复杂性。
- 情况I: W1和/或 W2的非线性性质。在实际场景中，大量的研究(如Conv2Former、FocalNet等)通过引入激活函数，将变换函数W1和/或W2实现为非线性的。尽管如此，一个关键的方面是他们的渠道沟通的维护，如等式2.重要的是，隐式维度的数量保持不变(大约为 $\frac {d ^ 2} 2$ )，因此不会影响我们在Sec中的分析。3.1.因此，我们可以简单地使用线性变换作为示范。
- 情况二: $W^T_1 X*X $.当去掉变换W2后，隐式维数从大约 $ \frac {d^2} 2$ 减少到2d。
- 情况三: x*x .在这种情况下，星形运算将特征从一个特征空间 ${x ^1，x^2 ,⋯，x^d\} ∈ \R ^d$ 转换到一个新的特征空间 ${x^ 1x^ 1，x^2x^ 2 ,⋯，x^dx ^d\} ∈ \R ^d$ 。
有几个值得注意的方面需要考虑。首先，星形操作和它们的特殊情况通常(虽然不是必须)与空间相互作用相结合，通常通过汇集或卷积来实现，如VAN 所示。这些方法中的许多强调了扩大感受野的好处，但往往忽视了隐含的高维空间所赋予的优势。第二，合并这些特殊情况是可行的，如 Conv2Former 和 GENet-θ 所示，前者合并了情况 I 和情况 II 的各个方面，后者融合了情况 I 和情况 III 的元素。最后，虽然情况 II 和 III 可能不会显著增加单个层中的隐含维度，但是使用线性层(主要用于信道通信)和跳跃连接可以累积实现跨多个层的高隐含维度。

Empirical Study

为了证实和验证我们的分析，我们从不同的角度对star的运行进行了广泛的研究。

Empirical superiority of star operation

最初，我们从经验上验证了星形运算相对于简单求和的优越性。如图1所示，我们为此演示构建了一个各向同性网络，称为DemoNet。DemoNet设计简单，由一个将输入分辨率降低16倍的卷积层组成，其后是一系列用于特征提取的同质演示模块(参见图1，左侧)。在每个演示模块中，我们应用星形运算或求和运算来合并来自两个不同分支的特征。通过改变网络的宽度和深度，我们探索每个操作的独特属性。DemoNet的实现细节在补充算法1中提供。
从表2和表3中，我们可以看到，无论网络深度和宽度如何，星型运算始终优于求和运算。这一现象验证了明星操作符的有效性和优越性。此外，我们观察到，随着网络宽度的增加，星型操作带来的性能增益逐渐减少。然而，在不同深度的情况下，我们没有观察到类似的现象。这种行为上的差异表明了两个关键的观点:1)如表2所示，star操作带来的增益的逐渐降低不是模型尺寸扩大的结果；2)基于这一点，它意味着星形操作在本质上扩展了网络的维度，这反过来减少了拓宽网络的增量收益。
- 表二。使用不同宽度的求和运算或星形运算的DemoNet的ImageNet-1k分类精度。我们将深度设置为12。我们以32的步长逐渐增加宽度。
- 表3。使用不同深度的求和运算或星形运算的DemoNet的ImageNet-1k分类精度。我们将宽度设置为192。我们以2为步长逐渐增加深度。

Decision Boundary comparison

随后，我们直观地分析和辨别星形和求和运算之间的差异。为此，我们在玩具2D月球数据集上可视化这两个操作的决策边界，该数据集由两组月球形状的2D点组成。就模型配置而言，我们消除了演示模块中的归一化层和卷积层。鉴于该数据集相对简单的性质，我们将模型配置为宽度为100，深度为4。
图2(顶行)显示了由sum和star操作描绘的决策边界。显然，与求和运算相比，星形运算描绘了明显更精确和有效的决策边界。值得注意的是，所观察到的决策界限的差异并不是源于非线性，因为两种操作都在它们各自的构建块中结合了激活函数。主要的区别来自于恒星运算获得极高维度的能力，这是我们之前已经详细分析过的特性。
如上所述，星形运算的功能类似于核函数，特别是多项式核函数。为了证实这一点，我们还在图2(底部一行)中用高斯和多项式核(使用scikit-learn软件包实现)说明了SVM的决策边界。与我们的预期一致，star运算产生的决策边界与多项式核的边界非常接近，但与高斯核明显不同。这个令人信服的证据进一步证实了我们分析的正确性。

Extension to networks without activations

激活函数是神经网络中基本的和不可缺少的组成部分。然而，像ReLU和GELU这样的常用激活方法存在某些缺点，如 “mean shift” 和信息丢失等。从网络中排除激活功能的前景是一个有趣且潜在有利的概念。然而，如果没有激活函数，传统的神经网络将由于缺乏非线性而崩溃成单层网络。
在这项研究中，虽然我们的主要重点是通过星形运算实现的隐式高维特征，但非线性方面也具有深远的重要性。为了研究这一点，我们通过从DemoNet中删除所有激活来进行实验，从而创建一个免激活网络。表4中的结果非常令人鼓舞。正如预期的那样，当移除所有激活时，求和操作的性能显著下降，从66.2%下降到32.4%。与此形成鲜明对比的是，star操作仅受到消除激活的最小影响，其准确性仅下降了1.2%。这个实验不仅证实了我们的理论分析，也为将来的研究铺平了道路。
- 表4。有激活和无激活的DemoNet(宽度=192，深度=12)性能。移除所有激活导致总体性能显著下降，而star操作在移除所有激活时保持其有效性。

Open Discussions & Broader Impacts

虽然基于简单的操作，但我们的分析为探索深度学习中的基本挑战奠定了基础。下面，我们概述了几个有前途和有趣的研究问题，值得进一步研究，其中星操作可以发挥关键作用。
一、激活功能真的不可或缺吗？在我们的研究中，我们集中在由星形运算引入的隐含高维方面。值得注意的是，星形运算还包含非线性，这是核函数区别于其他线性机器学习方法的一个特征。我们研究中的初步实验证明了消除神经网络中激活层的潜在可行性。
二。星形运算与自我关注和矩阵乘法有什么关系？自我注意利用矩阵乘法产生 $R ^ {n×n}$ 中的矩阵。可以证明，自我注意中的矩阵乘法与元素乘法具有相似的属性(非线性和高维数)。值得注意的是，与逐元素乘法相比，矩阵乘法有利于全局交互。然而，矩阵乘法改变了输入形状，需要额外的操作(例如，汇集、另一轮矩阵乘法等)。来协调张量形状，这是通过逐元素乘法避免的复杂性。PolyNL 提供了这方面的初步努力。我们的分析可以为自我关注的有效性提供新的见解，并有助于重新审视神经网络中的“动态”特征。
三。如何优化隐式高维空间中的系数分布？传统的神经网络可以为每个通道学习一组不同的权重系数，但star运算中每个隐式维的系数(类似于核函数)是固定的。例如，在多项式核函数 $k (x_1，x_2) = (γx_1 ⋅ x_2 + c) ^d$ 中，系数分布可以通过超参数来调整。在star运算中，虽然权重W1和W2是可学习的，但是它们仅提供了有限的微调分布的范围，这与传统神经网络中允许为每个通道定制系数相反。这一约束可能解释了为什么极高的维度只能带来适度的性能提升。值得注意的是，跳跃连接似乎有助于平滑系数分布，密集连接(如DenseNet )可能提供额外的好处。此外，使用指数函数可以提供到隐式无限维的直接映射，类似于高斯核函数。

Proof-of-Concept: StarNet

鉴于星型运算的独特优势——它能够在低维空间中计算，同时产生高维特征——我们确定了它在高效网络架构领域的效用。因此，我们引入StarNet作为概念验证模型。StarNet的特点是极简的设计和人类干预的显著减少。尽管简单，StarNet展示了卓越的性能，强调了star操作的有效性。

StarNet Architecture

StarNet是一个4级分层结构，利用卷积层进行下采样，利用修改的演示模块进行特征提取。为了满足效率的要求，我们将层归一化替换为批归一化，并将其放置在深度卷积之后(可以在推断期间融合)。受MobileNeXt的启发，我们在每个块的末尾加入了深度方向的卷积。通道扩展因子始终设置为4，网络宽度在每个阶段都翻倍。按照MobileNetv2 的设计，演示模块中的GELU激活被ReLU6取代。StarNet框架如图3所示。我们仅改变块号和输入嵌入信道号来构建不同大小的StarNet，如表5中所详述。
- 图3。StarNet架构概述。StarNet沿用传统的分层网络，直接利用卷积层进行分辨率下采样，每级通道数翻倍。我们重复多个星形块来提取特征。没有任何复杂的结构和精心选择的超参数，StarNet能够提供有希望的性能。
而许多先进的设计技术(如重新参数化、整合注意力、SE-block等)可以从经验上提高绩效，但也会掩盖我们的贡献。通过有意避开这些复杂的设计元素并尽量减少人为设计干预，我们强调了星际运营在星际网络的概念化和功能性中的关键作用。
- 表5。星网的配置。我们只改变嵌入的宽度和深度来构建不同大小的星网。

Experimental Results

我们遵循来自DeiT 的标准训练配方，以确保在训练我们的StarNet模型时进行公平的比较。利用AdamW优化器，以3e-3的初始学习速率和2048的批量大小，从零开始训练所有模型超过300个 epoch。补充材料中提供了全面的训练详情。出于基准测试的目的，我们的PyTorch模型被转换为ONNX格式，以便于在CPU(英特尔至强处理器E5-2680 v4 @ 2.40GHz)和GPU (P100)上进行延迟评估。此外，我们使用CoreML-Tools 在iPhone13上部署模型，以评估移动设备上的延迟。补充材料中也提供了这些基准的详细设置。
实验结果如表6所示。通过最少的手工设计，我们的StarNet能够提供与许多其他最先进的高效模型相比有前途的性能。值得注意的是，StarNet在iPhone 13设备上仅用了0.7秒就达到了73.5%的最高准确率，超过mobile one-S0 2.1%(73.5%比71.4%)。当将模型扩展到1G FLOPs预算时，StarNet继续表现出非凡的性能，比MobileOne-S2高出1.0%，比edgeViT-XS高出0.9%，同时速度快了三倍(1.0毫秒对3.5毫秒)。鉴于模型的简单设计，这种令人印象深刻的效率主要归功于star操作的基本作用。图4进一步示出了各种模型之间的等待时间-准确性权衡。
- 表6。ImageNet-1k上高效模型的比较。对尺寸小于1G FLOPs的模型进行比较，并按参数计数排序。延迟在各种平台上进行评估，包括英特尔E5-2680 CPU、P100 GPU和iPhone 13移动设备。与真实场景中一样，延迟基准测试批量大小设置为1。
如果能进一步把星网的性能推上一个台阶？我们相信，通过仔细的超参数优化，利用表1中的见解，并应用训练增强，如更多的时代或蒸馏，可以对StarNet的性能作出实质性的改进。然而，实现高性能模型并不是我们的主要目标，因为这种增强可能会掩盖star操作的核心贡献。我们放弃了工程工作。
- 图4。移动设备(iPhone13)延迟与ImageNet准确性。此图中不包括延迟过高的型号。关于不同移动设备的更多结果可在补充表19中找到。
- 表19。表6的补充。我们在四种iPhone设备上进一步测试了模型延迟，包括iPhone12、iPhone12Pro Max、iPhone13和iPhone14。平均延迟和差异在最后一列中报告。我们用绿色标记最稳定的模型，用红色标记最不稳定的模型。

More Ablation studies

代替星形操作。星形操作被确定为我们模型的高性能的唯一贡献者。为了从经验上验证这一论断，我们在实现中系统地用求和代替了星型运算。具体来说，这需要在模型的架构中用“+”替换“*”操作符。
结果如表7所示。删除所有star操作会导致性能显著下降，观察到精度下降了3.1%。有趣的是，在模型的第一和第二阶段，star操作对性能的影响似乎很小。这个观察是符合逻辑的。对于非常窄的宽度，ReLU6激活导致一些特征变为零。在star操作的上下文中，这导致其隐含的高维空间中的许多维度也变为零，从而限制了其全部潜力。然而，它的贡献在最后两个阶段(更多通道)变得更加显著，分别提高了1.6%和1.6%。表7中的最后三行也验证了我们的分析。
- 表7. 在StarNet-S4中逐渐用求和’+‘代替星形运算’ * '(考虑到其足够的深度和模型大小)。
star操作的延迟影响。理论上，乘法运算(如我们研究中的star运算)被认为比简单的求和运算具有更高的计算复杂度。然而，实际的延迟结果可能并不总是与理论预测一致。我们进行了基准测试，比较用求和代替所有星型运算的延迟，结果如表8所示。从表中，我们观察到延迟影响视硬件而定。在实践中，相对于求和运算，star运算不会在GPU和iPhone设备上导致任何额外的延迟。然而，在CPU上，求和运算比星运算的效率略高(例如，8.4毫秒比9.4毫秒，星网-S4)。考虑到相当大的性能差距，这种微小的CPU延迟开销可以忽略不计。
- 表8.StarNet中不同操作的延迟比较。
激活位置的研究。我们对激活功能(ReLU6)在网络模块中的位置进行了全面的分析。为清楚起见，x1和x2用于表示两个分支的输出，星网-S4用作示范模型。
这里，我们研究了在StarNet中实现激活功能的四种方法:1)不使用激活，2)激活两个分支，3)激活post star操作，以及 4)激活单个分支，这是我们的默认做法。如表9所示，结果表明仅激活一个分支产生最高的准确度，达到78.4%。令人鼓舞的是，从StarNet中完全移除激活(除了stem层中的一个)仅导致准确性下降2.8%，降至75.6%，这一性能仍然与表6中的一些强基线具有竞争力。这些发现，与表4一致，强调了免激活网络的潜力。
- 表9。星网S4不同激活位置的结果。
星形运算在砌块设计中的应用研究。在StarNet中，star操作通常实现为 $act(W^T _1 X)*(W^T_ 2 X)$ ，详见第节。3.1.这种标准方法使S4星网的准确率达到84.4%。然而，替代实现是可能的。我们试验了一个变体: $(W^T _2 act(W^T_ 1 X))*X$ ，其中 $W_1∈\R ^{d×d’}$ 设计为扩展宽度， $W_2∈\R ^{d’×d}$ 将其恢复为d，这种调整只导致一个分支的转换，而另一个分支保持不变。我们改变d’以确保与StarNet-S4相同的计算复杂度。这样一来，性能从78.4%下降到了74.4%。虽然更好、更仔细的设计可能会缩小这种性能差距(见补充)，但精度上的显著差异强调了我们最初实施在利用star操作能力方面的功效，并强调了在star操作中转变两个分支的至关重要性。

Conclusion

在这项研究中，我们深入研究了 star 运行的复杂细节，超越了先前研究中直观和似是而非的解释。我们重新定义了星形操作，发现它们强大的表现能力来源于隐含的高维空间。在许多方面，星运算反映了多项式核函数的行为。我们的分析通过经验、理论和视觉方法得到了严格的验证。我们的结果在数学上和理论上都是可靠的，与我们提出的分析一致。在此基础上，我们将star业务定位于高效网络设计领域，并引入了一个简单的原型网络StarNet。StarNet令人印象深刻的性能是在不依赖复杂的设计或精心选择的超参数的情况下实现的，是star操作有效性的证明。此外，我们对 star 运作的探索开启了无数潜在的研究途径，就像我们上面讨论的那样。

Rewrite the Stars Supplementary Material

本补充文档详细阐述了DemoNet的实现细节，如图1、表3和表2所示。它还涵盖了用于可视化决策边界的简单网络，如图2所示，以及表6中所示的StarNet的实现(详情可在A部分找到)。此外，我们在b部分提供了决策边界可视化的更细粒度视图。C 部分深入研究了我们对超紧凑模型的探索性研究。激活的分析在第二节中给出。此外，区组设计的详细检查在e节中讨论。

A. Implementation Details

A.1. Model Architecture

DemoNet 在我们的各向同性 DemoNet 中，如图1、表3和表2所示，算法1提供了详细的实现。我们调整深度或宽度值，以便于上述图表中展示的实验。
2D点的DemoNet为了说明2D点，如图2所示，我们进一步简化了DemoNet结构。在这种适配中，原始DemoNet中的所有卷积层都已被移除。此外，我们用ReLU替换了GELU激活功能以简化架构。算法2概述了这一简化演示的细节。
为了便于复制，我们在补充材料中包含了一个单独的文件，专门用于我们的StarNet。有关其架构的详细信息也可在第4.1节中找到。

A.2. Training Recipes

接下来，我们将为每个实验提供详细的训练方案。DemoNet 对于所有 DemoNet 变体，我们采用一致的标准训练配方。虽然公认的是，专门的和微调的训练配方可以更好地适应不同的模型大小，并可能产生增强的性能，如在DemoNet(宽度=96，深度=12)(大约1.26米参数)和DemoNet(宽度=288，深度=12)(大约9.68米参数)的情况下，使用DemoNet实现卓越的性能并不是这项工作的主要目标。我们的目标是在各种DemoNet变体之间提供一个公平的比较；因此，相同的训练方法适用于所有人。表10给出了DemoNet的这一训练方案的细节。
- 表10。DemoNet 训练设置。
鉴于 2D 点固有的简单性，我们取消了所有数据扩充过程，并减少了训练时期的数量。表11详细列出了这一简化流程所采用的具体训练方法。
- 表11。2D points 训练设置的简化演示。
由于它的小模型尺寸和简单的建筑设计，StarNet只需要较少的训练规则。重要的是，我们选择不使用普遍采用的指数移动平均线(EMA)和可学分层技术。虽然这些方法可能会提高性能，但它们可能会掩盖我们工作的独特贡献。表12提供了各种StarNet模型的详细训练方案。
- 表12。starnet 变体训练设置。

A.3. Latency Benchmark Settings

表6中列出的所有模型都已从Pytorch代码转换为ONNX格式，以便在不同的硬件上进行延迟评估:CPU(英特尔至强处理器E52680 v4 @ 2.40GHz)和GPU (P100)。我们进行了批量为1的基准测试，反映了真实的应用场景。基准测试包括50次迭代的预热，然后计算500次迭代的平均延迟。值得注意的是，所有型号都在同一台设备上进行了基准测试，以确保比较的公平性。对于CPU基准测试，我们利用4个线程来优化性能。在GPU评估的情况下，我们将StarNet中的逐点卷积层调整为线性层，合并了置换运算。这一修改是由对推理速度略微加快的观察而促成的。需要注意的是，从数学上来说，逐点卷积图层等同于线性图层。因此，这一变化不会导致我们的StarNet在性能或架构上的任何变化。
多亏了MobileOne ，我们已经将他们开源的iOS基准应用应用于所有CoreML模型。我们的延迟基准设置遵循MobileOne中使用的设置，唯一的区别是在我们的测试中包含了其他模型。我们观察到，iOS基准测试的首次运行持续产生略快的结果。为了说明这一点，每个模型运行三次，我们报告最后一次运行的延迟。尽管在iPhone上测试时会有微小的延迟变化，但这些差异(通常小于0.05毫秒)不会影响我们的分析

B. Decision Boundary Visualization

我们为决策边界可视化提供了更多的分析，如图2所示。首先，作为对图2的补充，我们给出了更全面的结果。由于不同测试中的随机性，决策边界可能表现出显著的变化。为了说明这一点，我们在图5中显示了另外四次运行(没有固定种子)的决策边界。正如所证明的，星形运算不仅在表示能力上超过了求和运算，而且还表现出更大的稳健性，表现出最小的方差。
- 图5。sum和star运算的4次运行结果。
接下来，我们的研究扩展到对决策边界的更深入的分析。考虑到网络有4个模块，我们试验了求和与星形运算的混合，将它们应用于各种组合中，如图 6 所示。这一探索的直观结果表明，在网络的早期区块采用星形操作会产生最显著的好处。
- 图6。对决策边界的更全面分析。
SVM超参数的影响。应当注意，参数调整将导致不同的可视化结果，这可能会挑战我们基于图2的主张。然而，如图7所示，由于ploy和rbf核之间的内在差异，这种变化并不显著。我们的基于星形网络的决策边界始终与多SVM的决策边界相似。因此，不仅仅是理论证明，我们的视觉实验也是如此。
- 图7。调整RGB SVM和poly SVM的超参数。

C. Exploring Extremely Small Models

在本节中，我们将探讨StarNet在极小参数(约 0.5M、1.0M 和1.5M)下的性能。对于这些极小的变体，除了块数和基础嵌入宽度之外，我们还进一步调整MLP扩展比率。这些非常小的变体的详细配置如表13所示。
- 表13。非常小的星网的构型。我们在0.5M、1.0M和1.5M参数下改变星形网的嵌入宽度、深度和MLP膨胀率。
在本节中，我们将深入研究StarNet在配置极少量参数时的性能，特别是大约 0.5M、1.0M 和1.5M。对于这些超紧凑变体，我们不仅仅是调整块数和基础嵌入宽度；我们还微调MLP膨胀比。这些超小型StarNet变体的具体配置详见表13。
表14中的结果表明，我们的超紧凑型StarNet在性能上也很有前途。与MobileNetv2-050相比，MobileNetv2-050的训练时间更长，引入的参数增加了约25%(1.97米比1.56米)，我们的StarNet-150变体在移动设备上的精度和速度方面仍优于顶级产品。
- 表14。ImageNet-1k上极小StarNet变体的性能。我们所有的星网都是按照星网-S1的训练配方进行300个纪元的训练。MobileNetv2-050*取自timm库，用450个 epoch 训练。

D. Activation Analysis

D.1. Analysis on removing all activations

在3.5 节，我们探讨了消除所有激活功能的可能性，初步结果见表 4 和表 9。本节将深入探讨移除所有激活的详细分析。利用 DemoNet 作为示例模型，我们在表15和表16中提供了进一步的结果。
- 表15。在DemoNet中移除不同宽度的所有激活(使用星形操作)的比较。我们将深度设置为12。我们以32的步长逐渐增加宽度。
- 表16。使用不同深度移除DemoNet中的所有激活(使用星形操作)的比较。我们将宽度设置为192。我们以2为步长逐渐增加深度。
在大多数情况下，当从 DemoNet 中删除所有激活(使用star操作)时，我们会观察到轻微的性能下降。然而，一个有趣的观察结果出现了:在某些情况下，所有激活的去除导致了相似甚至更好的表现。当深度值设置为14、16、18和22时，这一点尤为明显，详见表16。这种现象意味着星形操作可以固有地提供足够的非线性，类似于通常通过激活层实现的非线性。我们认为，在这方面进行更彻底的调查可能会产生有价值的见解。

D.2. Exploring activation types

在我们的StarNet设计中，我们采用ReLU6激活功能，遵循MobileNetv2。此外，我们还试验了各种其他激活功能，这些探索的结果如表17所示。根据经验，我们发现当配备ReLU6激活功能时，StarNet-S4提供最佳性能。
- 表17。S4星网中不同激活的性能。

E. Exploring Block Designs

我们对 StarNet block 的设计进行了详细的烧蚀研究。为此，我们提出了StarNet中星形操作的五种实现，如图8所示。值得注意的是，块 I 可被视为星形操作的标准实现，块 II 和块 III 可被视为特例 II 的实例化，这将在第3.3节中讨论，块IV和块V可被视为特例III的不同实现。所有块变体通过不同的扩展比率具有相同的参数和FLOPs，从而确保公平比较的相同计算复杂度。我们基于星网-S4架构测试了所有这些块变体，并在表18中报告了性能。根据经验，我们看到数据块I、数据块IV和数据块V的性能很强，而数据块II和数据块III的性能较差。详细的结果表明，强大的性能源于星形操作，而不是特定的块设计。我们认为默认的star操作(Block I)是我们StarNet的基本构建模块。
- 图8。我们对StarNet的方块设计提供了更多的研究。Block I是我们StarNet中使用的默认设计，也是我们讨论过的标准star操作。如第3.3节所述，块 II 和块 III 可视为特殊情况 II 的实例。块 IV 和块 V 可视为特殊情况 III 的实例。我们改变了扩展比率，以确保所有块变体具有相同的参数和FLOPs，以便进行公平的比较。为简单起见，忽略跳过连接。
- 表18。不同区块设计的性能。每个块的详细实现可以在图8中找到。

F. More Latency Analysis on StarNet

CPU延迟可视化。为了更好地理解概念验证模型StarNet的延迟，我们在图 9 中进一步绘制了CPU延迟权衡。
- 图9。CPU延迟与ImageNet精度。为了更好地可视化，低精度或高延迟模型被移除。
移动设备延迟鲁棒性。在表 6 中，我们展示了在iPhone13手机上测试的移动设备延迟。我们还在4种不同的移动设备上进行了延迟测试，包括iPhone12、iPhone12 Pro Max、iPhone 13和iPhone14，以测试不同型号的延迟稳定性。表 19 中的结果表明，尽管某些型号的延迟结果不同，但StarNet始终显示出跨不同手机的稳定推断，这归功于其简单的设计。