Variational Zero-Shot Multispectral Pansharpening
- Abstract
- Main Method
- Overview to Pansharpening
- Proposed Model
- Optimization for the PSDip Model
- Implementation Details
Abstract
全色锐化的目标是通过融合低空间分辨率的多光谱图像(LRMS)和全色图像(PAN)来生成高空间分辨率的多光谱图像(HRMS)。这项任务最具挑战性的问题在于,只有待融合的LRMS和PAN图像是可用的,而现有的基于深度学习(DL)的方法由于依赖大量训练对而不适合解决此类问题。传统的基于变分优化(VO)的方法非常适合解决此类问题。这些方法侧重于为优化问题精心设计显式的融合规则和正则化项,这些规则和正则化项基于研究人员对图像关系和图像结构的发现。与以往基于VO的方法不同,在本工作中,我们通过参数化项而非手动设计项来探索这种复杂的关系。具体而言,我们提出了一种零样本全色锐化方法,通过在优化目标中引入神经网络来实现。该网络估计HRMS的一个表示分量,主要用于描述HRMS与PAN之间的关系。通过这种方式,网络实现了与所谓的深度图像先验(DIP)类似的目标,因为它通过其固有结构隐式地规范了HRMS和PAN图像之间的关系。我们通过交替最小化直接优化网络参数和期望的HRMS图像来最小化这一优化目标。在各种基准数据集上的大量实验表明,与其他最先进的(SOTA)方法相比,我们提出的方法能够实现更好的性能。
Main Method
我们使用大写字母表示矩阵,例如 A ∈ R H × W A \in \mathbb{R}^{H \times W} A∈RH×W。具有超过两个维度的张量用书法体表示,例如 X ∈ R H × W × S \mathcal{X} \in \mathbb{R}^{H \times W \times S} X∈RH×W×S。 X \mathcal{X} X 的第 ((i, j, k)) 个元素表示为 X i j k \mathcal{X}_{ijk} Xijk。符号“ ⊗ \otimes ⊗”表示 A A A 和 B B B 之间的卷积运算。符号“ ⊙ \odot ⊙”表示哈达玛积(Hadamard product),即逐元素相乘。相应地,“ ⊘ \oslash ⊘”表示逐元素除法。“ A ↓ r A \downarrow_r A↓r”表示将 A A A 下采样,尺度因子为 r r r。矩阵或张量的弗罗贝尼乌斯范数(Frobenius norm)写作“ ∥ ⋅ ∥ F \|\cdot\|_F ∥⋅∥F”,即 ∥ X ∥ F : = ( ∑ i j k X i j k 2 ) 1 / 2 \|\mathcal{X}\|_F := \left( \sum_{ijk} \mathcal{X}_{ijk}^2 \right)^{1/2} ∥X∥F:=(∑ijkXijk2)1/2。
Overview to Pansharpening
多光谱全色锐化的目标是将观测到的低分辨率多光谱图像(LRMS)和全色图像(PAN)融合为期望的高分辨率多光谱图像(HRMS)。设 X ∈ R H × W × S X \in \mathbb{R}^{H \times W \times S} X∈RH×W×S 表示HRMS,其中 H H H、 W W W 和 S S S 分别表示HRMS的高度、宽度和光谱维度。对应的LRMS表示为 Y ∈ R h × w × S Y \in \mathbb{R}^{h \times w \times S} Y∈Rh×w×S,全色图像表示为 P ∈ R H × W P \in \mathbb{R}^{H \times W} P∈RH×W。LRMS的下采样因子为 r r r,即 H / h = W / w = r H/h = W/w = r H/h=W/w=r。将多光谱全色锐化方法视为逆问题[69],我们可以为基于变分优化(VO)的通用方法[5]建立以下模型:
min X L y ( X , Y ) + λ 1 L p ( X , P ) + λ 2 R ( X ) ( 1 ) \min_{X} \ L_y(X, Y) + \lambda_1 L_p(X, P) + \lambda_2 R(X) \quad (1) Xmin Ly(X,Y)+λ1Lp(X,P)+λ2R(X)(1)
其中, L y ( ⋅ , ⋅ ) L_y(\cdot, \cdot) Ly(⋅,⋅) 和 L p ( ⋅ , ⋅ ) L_p(\cdot, \cdot) Lp(⋅,⋅) 分别表示描述HRMS/LRMS和HRMS/PAN关系的数据保真项, R ( X ) R(X) R(X) 表示用于表征 X X X 结构的正则化项, λ 1 \lambda_1 λ1 和 λ 2 \lambda_2 λ2 是两个权衡参数,用于平衡各项的比例。
在基于VO的全色锐化方法中,最常用的HRMS与LRMS之间的关系如下[71]:
Y = ( X ⊗ K ) ↓ r + n 1 ( 2 ) Y = (X \otimes K) \downarrow_r + n_1 \quad (2) Y=(X⊗K)↓r+n1(2)
其中, K ∈ R k × k K \in \mathbb{R}^{k \times k} K∈Rk×k 表示模糊核, n 1 n_1 n1 表示小的残差值,通常建模为零均值高斯分布。简而言之,上述表示意味着LRMS被认为是HRMS经过模糊和下采样后的结果。因此, L y L_y Ly 可以表示为:
L y = ∥ Y − ( X ⊗ K ) ↓ r ∥ F 2 ( 3 ) L_y = \| Y - (X \otimes K) \downarrow_r \|_F^2 \quad (3) Ly=∥Y−(X⊗K)↓r∥F2(3)
根据以往的工作,我们还采用与多光谱传感器的调制传递函数(MTF)匹配的高斯滤波器作为核 K K K [72]。该核是预设且固定的。可以看出, L y L_y Ly 项主要衡量空间信息损失,因为模糊和下采样是在空间维度上进行的。
与 L y L_y Ly 不同, L p L_p Lp 项的设计更为复杂,因为PAN如何从HRMS退化仍然是一个开放性问题。在早期的工作中[38],提出了简单的线性模型 P = X × 3 p P = X \times_3 p P=X×3p,随后被许多其他工作采用[39]-[43]。这意味着对 X X X 的光谱波段进行线性组合,系数向量为 p ∈ R S × 1 p \in \mathbb{R}^{S \times 1} p∈RS×1。线性HRMS/PAN模型的最大优势之一是在求解优化问题时计算方便,因为它仅包含矩阵乘法操作。此外,由于操作是在光谱维度上进行的,空间信息可以很好地包含在内。然而,线性模型在提高模型性能方面存在一些缺点。首先,即使 P = X × 3 p P = X \times_3 p P=X×3p 严格成立,由于 rank ( p ) = 1 \text{rank}(p) = 1 rank(p)=1,该方程的解空间仍然很大,这意味着线性模型无法提供更多的图像信息。其次,如果 P = X × 3 p P = X \times_3 p P=X×3p 的关系不严格成立,这种线性模型不可避免地会带来近似误差。
为了进一步提高模型性能,研究了更复杂的模型来描述HRMS/PAN关系,以增强PAN的引导能力[15]-[25]。例如,一些工作重新采用了基于CS(成分替换)和MRA(多分辨率分析)的方法提出的表示[23]-[25]。其中,最简单的模型将HRMS表示为:
X = G ⊙ P ^ ( 4 ) X = G \odot \hat{P} \quad (4) X=G⊙P^(4)
公式(4)具有非常简洁和灵活的形式,类似于Brovey变换[28]。该表示仅包含两个部分。扩展的全色图像 P ^ ∈ R H × W × S \hat{P} \in \mathbb{R}^{H \times W \times S} P^∈RH×W×S 是从PAN构建的,并且具有与HRMS相同的大小,尤其是空间分辨率。例如, P ^ \hat{P} P^ 可以与PAN和LRMS进行直方图匹配。可以看出,在这种表示中, P ^ \hat{P} P^ 主要为HRMS提供空间信息。然而,由于PAN只有一个通道, P ^ \hat{P} P^ 无法保留与 X X X 一致的光谱信息。这就是为什么需要一个系数张量 G G G 来平衡近似。理论上,无论 X X X 和 P P P 之间的真实关系如何,公式(4)始终成立。根据公式(4), L p L_p Lp 项可以表示为:
L p = ∥ X − G ⊙ P ^ ∥ F 2 ( 5 ) L_p = \| X - G \odot \hat{P} \|_F^2 \quad (5) Lp=∥X−G⊙P^∥F2(5)
让我们更仔细地分析公式(5)。假设 G G G 完全未确定, L p L_p Lp 显然不能用于问题(1),因为无论 X X X 是什么,我们都可以设置 G = X ⊘ P ^ G = X \oslash \hat{P} G=X⊘P^,使得 L p L_p Lp 达到最小值,即零。换句话说,如果没有额外的约束, X = G ⊙ P ^ X = G \odot \hat{P} X=G⊙P^ 实际上并未揭示关于 X X X 的有效图像信息。在以往的工作中,无论是基于CS的方法[28]-[32]、基于MRA的方法[34]-[37],还是相关的基于VO的方法[23]-[25], G G G 都应该是预设的,并且提出了各种巧妙的方法。当 G G G 通过某种方法确定时,我们可以看到 G ⊙ P ^ G \odot \hat{P} G⊙P^ 是对 X X X 的直接近似,而 L p L_p Lp 直接约束 X X X。
Proposed Model
与现有工作主要关注如何预设 G G G 不同,我们将公式(4)中的 G G G 视为一个潜在变量,并在多光谱全色锐化问题(1)中与 X X X 一起优化。具体来说,我们将公式(1)重新表述为:
min X , G ∥ Y − ( X ⊗ K ) ↓ r ∥ F 2 + λ 1 ∥ X − G ⊙ P ^ ∥ F 2 + λ 2 R ( G ) ( 6 ) \min_{X, G} \| Y - (X \otimes K) \downarrow_r \|_F^2 + \lambda_1 \| X - G \odot \hat{P} \|_F^2 + \lambda_2 R(G) \quad (6) X,Gmin∥Y−(X⊗K)↓r∥F2+λ1∥X−G⊙P^∥F2+λ2R(G)(6)
在提出的模型(6)中,添加了一个关于 G G G 的正则化项。如上所述,如果正则化直接针对 X X X,则无论 X X X 是什么, L p = ∥ X − G ⊙ P ^ ∥ F 2 L_p = \| X - G \odot \hat{P} \|_F^2 Lp=∥X−G⊙P^∥F2 始终可以达到零。因此,包含PAN信息的 P ^ \hat{P} P^ 对问题的解决没有有效贡献。然而,对 G G G 的正则化使得空间保真项 L 2 L_2 L2 影响问题的解。通过这种方式,问题(6)不会高度不适定,并且期望的HRMS会更合理地受到LRMS和PAN的共同引导。
此外,我们在模型(6)中简单地移除了 R ( X ) R(X) R(X)。需要注意的是,由于 G ⊙ P ^ G \odot \hat{P} G⊙P^ 是对 X X X 的近似,对 G G G 的正则化可以看作是对 X X X 结构的间接约束。为了更清楚地理解这一点,我们可以将 R ( G ) R(G) R(G) 近似为 R ( X ⊘ P ^ ) R(X \oslash \hat{P}) R(X⊘P^)。此外,我们有以下定理,表明 R ( X ) R(X) R(X) 实际上可以被“吸收”到 R ( G ) R(G) R(G) 中。
定理1:对于任何正则化 R g ( G ) R_g(G) Rg(G) 和 R x ( X ) R_x(X) Rx(X),如果 ( X ∗ , G 1 ) (X^*, G_1) (X∗,G1) 是以下问题的最小点:
min X , G ∥ Y − ( X ⊗ K ) ↓ r ∥ F 2 + λ 1 ∥ X − G ⊙ P ^ ∥ F 2 + λ x R x ( X ) + λ g R g ( G ) ( 7 ) \min_{X, G} \| Y - (X \otimes K) \downarrow_r \|_F^2 + \lambda_1 \| X - G \odot \hat{P} \|_F^2 + \lambda_x R_x(X) + \lambda_g R_g(G) \quad (7) X,Gmin∥Y−(X⊗K)↓r∥F2+λ1∥X−G⊙P^∥F2+λxRx(X)+λgRg(G)(7)
那么,至少存在一个 R ( G ) R(G) R(G) 和 G 2 G_2 G2,使得 ( X ∗ , G 2 ) (X^*, G_2) (X∗,G2) 是问题(6)的最小点。
P r o o f Proof Proof:
我们需要证明存在一个正则化项 R ( G ) R(G) R(G) 和一个 G 2 G_2 G2,使得问题(6)的最小点 ( X ∗ , G 2 ) (X^*, G_2) (X∗,G2) 也是问题(7)的最小点。
设 R ( G ) : = ∥ G − Z ∥ F 2 R(G) := \| G - Z \|_F^2 R(G):=∥G−Z∥F2,其中 Z Z Z 是一个未确定的张量。此时,问题(6)变为:
min X , G ∥ Y − ( X ⊗ K ) ↓ r ∥ F 2 + λ 1 ∥ X − G ⊙ P ^ ∥ F 2 + λ 2 ∥ G − Z ∥ F 2 ( 19 ) \min_{X, G} \| Y - (X \otimes K) \downarrow_r \|_F^2 + \lambda_1 \| X - G \odot \hat{P} \|_F^2 + \lambda_2 \| G - Z \|_F^2 \quad (19) X,Gmin∥Y−(X⊗K)↓r∥F2+λ1∥X−G⊙P^∥F2+λ2∥G−Z∥F2(19)
将张量 X X X、 G G G、 Y Y Y、 P ^ \hat{P} P^ 和 Z Z Z 展平为向量:
y = vec ( Y ) , x = vec ( X ) , g = vec ( G ) , p = vec ( P ^ ) , z = vec ( Z ) y = \text{vec}(Y), \quad x = \text{vec}(X), \quad g = \text{vec}(G), \quad p = \text{vec}(\hat{P}), \quad z = \text{vec}(Z) y=vec(Y),x=vec(X),g=vec(G),p=vec(P^),z=vec(Z)
则问题(19)可以等价地表示为:
min x , g ∥ y − A x ∥ F 2 + λ 1 ∥ x − g ⊙ p ∥ F 2 + λ 2 ∥ g − z ∥ F 2 ( 20 ) \min_{x, g} \| y - A x \|_F^2 + \lambda_1 \| x - g \odot p \|_F^2 + \lambda_2 \| g - z \|_F^2 \quad (20) x,gmin∥y−Ax∥F2+λ1∥x−g⊙p∥F2+λ2∥g−z∥F2(20)
其中, A A A 表示下采样和模糊操作的矩阵。
问题(20)是一个凸优化问题,具有唯一的最小点 ( x ∗ , g ∗ ) (x^*, g^*) (x∗,g∗)。最小点满足以下方程组:(即(20)式对于 x x x 和 g g g 分别求导)
{ A T ( A x ∗ − y ) + λ 1 ( x ∗ − g ∗ ⊙ p ) = 0 λ 1 p ⊙ ( p ⊙ g ∗ − x ∗ ) + λ 2 ( g ∗ − z ) = 0 \begin{cases} A^T (A x^* - y) + \lambda_1 (x^* - g^* \odot p) = 0 \\ \lambda_1 p \odot (p \odot g^* - x^*) + \lambda_2 (g^* - z) = 0 \end{cases} {AT(Ax∗−y)+λ1(x∗−g∗⊙p)=0λ1p⊙(p⊙g∗−x∗)+λ2(g∗−z)=0
通过解上述方程组,我们可以构造 Z Z Z 为:
Z = vec − 1 ( B λ 1 λ 2 p ) Z = \text{vec}^{-1}\left( \frac{B}{\lambda_1 \lambda_2 p} \right) Z=vec−1(λ1λ2pB)
其中:
B = ( λ 1 p 2 + λ 2 ) ⊙ [ ( A T A + λ 1 I ) vec ( X ∗ ) − A T y ] − λ 1 2 p 2 ⊙ vec ( X ∗ ) B = (\lambda_1 p^2 + \lambda_2) \odot \left[ (A^T A + \lambda_1 I) \text{vec}(X^*) - A^T y \right] - \lambda_1^2 p^2 \odot \text{vec}(X^*) B=(λ1p2+λ2)⊙[(ATA+λ1I)vec(X∗)−ATy]−λ12p2⊙vec(X∗)
此时,问题(19)的最小点为 ( X ∗ , G 2 ) (X^*, G_2) (X∗,G2),其中:
G 2 = vec − 1 ( ( A T A + λ 1 I ) vec ( X ∗ ) − A T y λ 1 p ) G_2 = \text{vec}^{-1}\left( \frac{(A^T A + \lambda_1 I) \text{vec}(X^*) - A^T y}{\lambda_1 p} \right) G2=vec−1(λ1p(ATA+λ1I)vec(X∗)−ATy)
通过上述构造,我们证明了存在一个正则化项 R ( G ) = ∥ G − Z ∥ F 2 R(G) = \| G - Z \|_F^2 R(G)=∥G−Z∥F2 和一个 G 2 G_2 G2,使得问题(6)的最小点 ( X ∗ , G 2 ) (X^*, G_2) (X∗,G2) 也是问题(7)的最小点。因此,定理得证。
根据定理1,我们的模型(6)在 X X X 方面与模型(7)是等价的。比较这两个模型,似乎 R x ( X ) R_x(X) Rx(X) 可以被“吸收”到 R g ( G ) R_g(G) Rg(G) 中,形成一个新的 R ( G ) R(G) R(G)。由于本工作的主要关注点是 G G G,我们移除了正则化 R ( X ) R(X) R(X),以保持模型(6)尽可能简洁明了。此外,我们希望使我们的算法易于复现。考虑到这一点,我们更倾向于在本研究中保持模型(6)的形式。
正如Xiao等人[25]所指出的,系数张量 G G G 包含图像结构,尽管它严格意义上并不是“图像”。图2展示了一个示例。我们可以看到 G G G 中存在清晰的纹理。这些纹理不仅包含使 G G G 看起来像图像的空间细节,还包含光谱补偿信息以匹配 P ^ \hat{P} P^ 和 X X X。 G G G 中这些结构的存在主要归因于HRMS和PAN之间的高空间相似性。具体来说,由于HRMS和 P ^ \hat{P} P^ 的空间分辨率应该相同,HRMS和 P ^ \hat{P} P^ 之间的低频区域和高频区域的位置几乎相同。因此,它们的逐元素除法结果,即 G G G,会在相同位置产生类似的“低频”和“高频”结构。基于这一观察, R ( G ) R(G) R(G) 的直接选择是用于图像的正则化。在本工作中,我们提出使用神经网络 f θ ( ⋅ ) f_\theta(\cdot) fθ(⋅) 来估计系数张量 G G G。遵循深度图像先验(DIP)[26]的思想,网络结构本身可以通过隐式图像先验对其输出进行隐式正则化。然后,我们推导出所提出的方法,其优化目标如下:
min X , θ ∥ Y − ( X ⊗ K ) ↓ r ∥ F 2 + λ ∥ X − f θ ( X , P ) ⊙ P ^ ∥ F 2 ( 8 ) \min_{X, \theta} \| Y - (X \otimes K) \downarrow_r \|_F^2 + \lambda \| X - f_\theta(X, P) \odot \hat{P} \|_F^2 \quad (8) X,θmin∥Y−(X⊗K)↓r∥F2+λ∥X−fθ(X,P)⊙P^∥F2(8)
其中, G = f θ ( X , P ) G = f_\theta(X, P) G=fθ(X,P)。正则化 R ( G ) R(G) R(G) 被吸收到网络 f θ ( ⋅ ) f_\theta(\cdot) fθ(⋅) 中,并未显式出现。对于DIP[26]的一般设置, f θ f_\theta fθ 会以随机噪声作为输入。通过这种方式,网络从“无”中学习构建目标。在问题(8)中,网络 f θ f_\theta fθ 被设计为以 X X X 和 P P P 作为输入。这有三个原因。首先,表示 X = G ⊙ P ^ X = G \odot \hat{P} X=G⊙P^ 显示了 X X X、 G G G 和 P P P 之间的明显关系。因此,考虑构建从 X X X 和 P P P 到 G G G 的映射是合理的。其次,除了网络结构外,这两个输入可以为 f θ f_\theta fθ 提供额外的信息以构建 G G G,我们通过实验发现这对获得更好的估计非常有用。第三,除了仅优化网络参数外,我们还可以通过调整输入 X X X 动态和逐步修改 G G G。我们将提出的问题(8)称为PSDip。
Optimization for the PSDip Model
通过深度图像先验(PSDip)进行全色锐化可以通过交替最小化[73], [74]方便地求解。设 L ( X , θ ) L(X, \theta) L(X,θ) 表示问题(8)的目标函数:
L ( X , θ ) : = ∥ Y − ( X ⊗ K ) ↓ r ∥ F 2 + λ ∥ X − f θ ( X , P ) ⊙ P ^ ∥ F 2 ( 9 ) L(X, \theta) := \| Y - (X \otimes K) \downarrow_r \|_F^2 + \lambda \| X - f_\theta(X, P) \odot \hat{P} \|_F^2 \quad (9) L(X,θ):=∥Y−(X⊗K)↓r∥F2+λ∥X−fθ(X,P)⊙P^∥F2(9)
在第 t t t 步中, X X X 应通过求解相应的 X X X-子问题来更新,其中网络参数 θ \theta θ 在 L ( X , θ ) L(X, \theta) L(X,θ) 中是固定的。该子问题没有闭式解,因此我们考虑通过应用一步梯度下降来更新 X X X。此外,我们通过实验发现,如果在 X X X-子问题中将网络输入“ X X X”也视为变量(即在此步骤中,网络输入 X X X 的梯度也用于更新 X X X),算法不会产生最佳结果。具体细节在第 IV-E 节中介绍。因此,我们通过将网络输入 X X X 固定为上一步更新的值(即 X t − 1 X_{t-1} Xt−1)来进一步简化第 t t t 步的 X X X-子问题。这样,第 t t t 步的简化 X X X-子问题的目标函数为:
L X ( X , θ t − 1 ) : = ∥ Y − ( X ⊗ K ) ↓ r ∥ F 2 + λ ∥ X − f θ t − 1 ( X t − 1 , P ) ⊙ P ^ ∥ F 2 ( 10 ) L_X(X, \theta_{t-1}) := \| Y - (X \otimes K) \downarrow_r \|_F^2 + \lambda \| X - f_{\theta_{t-1}}(X_{t-1}, P) \odot \hat{P} \|_F^2 \quad (10) LX(X,θt−1):=∥Y−(X⊗K)↓r∥F2+λ∥X−fθt−1(Xt−1,P)⊙P^∥F2(10)
然后, X X X 可以通过梯度下降简单地更新:
X t = X t − 1 − α ∇ X L X ( X , θ t − 1 ) ∣ X t − 1 ( 11 ) X_t = X_{t-1} - \alpha \nabla_X L_X(X, \theta_{t-1})|_{X_{t-1}} \quad (11) Xt=Xt−1−α∇XLX(X,θt−1)∣Xt−1(11)
其中 α \alpha α 是步长。网络参数 θ \theta θ 通过求解相应的 θ \theta θ-子问题来更新,其中 X X X 在 L ( X , θ ) L(X, \theta) L(X,θ) 中是固定的。具体来说,第 t t t 步的 θ \theta θ-子问题的目标函数为:
L θ ( X t , θ ) : = ∥ Y − ( X t ⊗ K ) ↓ r ∥ F 2 + λ ∥ X t − f θ ( X t , P ) ⊙ P ^ ∥ F 2 ( 12 ) L_\theta(X_t, \theta) := \| Y - (X_t \otimes K) \downarrow_r \|_F^2 + \lambda \| X_t - f_\theta(X_t, P) \odot \hat{P} \|_F^2 \quad (12) Lθ(Xt,θ):=∥Y−(Xt⊗K)↓r∥F2+λ∥Xt−fθ(Xt,P)⊙P^∥F2(12)
我们使用 Adam [75] 来更新 θ \theta θ,正如大多数基于深度学习的方法所做的那样。与 X t X_t Xt 类似, θ t \theta_t θt 通过一步更新计算:
θ t = θ t − 1 − β AG ( ∇ θ L ( X t , θ ) ∣ θ t − 1 ) ( 13 ) \theta_t = \theta_{t-1} - \beta \text{AG}\left( \nabla_\theta L(X_t, \theta)|_{\theta_{t-1}} \right) \quad (13) θt=θt−1−βAG(∇θL(Xt,θ)∣θt−1)(13)
其中 AG ( ⋅ ) \text{AG}(\cdot) AG(⋅) 表示 Adam 中的更新方向, β \beta β 是学习率。
交替最小化的良好初始值 θ \theta θ 有助于稳定更新过程,从而帮助我们的模型(6)实现更好的性能。我们看到,在 X ≈ G ⊙ P ^ X \approx G \odot \hat{P} X≈G⊙P^ 的两侧应用模糊算子会得到 X ⊗ K ≈ G ⊙ ( P ^ ⊗ K ) X \otimes K \approx G \odot (\hat{P} \otimes K) X⊗K≈G⊙(P^⊗K) [25]。因此,我们通过以下方式初始化 θ \theta θ:
θ 0 ∗ = arg min θ ∥ Y ^ − f θ ( Y ^ , P ) ⊙ ( P ^ ⊗ K ) ∥ F ( 14 ) \theta_0^* = \arg\min_\theta \| \hat{Y} - f_\theta(\hat{Y}, P) \odot (\hat{P} \otimes K) \|_F \quad (14) θ0∗=argθmin∥Y^−fθ(Y^,P)⊙(P^⊗K)∥F(14)
其中 Y ^ ≈ X ⊗ K \hat{Y} \approx X \otimes K Y^≈X⊗K 表示上采样的 LRMS。由于我们无法访问 X X X,因此 Y ^ \hat{Y} Y^ 也被视为 f θ f_\theta fθ 的第一个输入。然后, θ 0 ∗ \theta_0^* θ0∗ 被用作问题(8)的交替最小化的初始值。在算法 1 中,我们总结了实现 PSDip 的整个过程。算法 1 的实现细节在第 III-D 节中介绍。此外,图 3 展示了 PSDip 的流程图,以便全面了解 PSDip。
Implementation Details
我们采用 PanNet[45] 作为网络 f θ f_\theta fθ 的主干网络。该网络主要包含卷积层和跳跃连接。此外,我们在 PanNet 的最后一层添加了 ReLU激活函数,以确保输出始终为正。需要注意的是,网络结构并不是唯一指定的。在第 IV-G 节中,我们还展示了另外两种网络的结果。
为了构建 P ^ \hat{P} P^,我们首先进行 直方图匹配 生成 P ^ ′ \hat{P}' P^′,即对 P ^ ′ \hat{P}' P^′ 的每个波段进行平移和拉伸,使其均值和标准差与 LRMS 的对应波段匹配。为了避免分母为零,我们在 P ^ ′ \hat{P}' P^′ 上添加一个小的值( ε = 1 × 1 0 − 2 \varepsilon = 1 \times 10^{-2} ε=1×10−2),最终得到 P ^ = P ^ ′ + ε \hat{P} = \hat{P}' + \varepsilon P^=P^′+ε。上采样的 LRMS Y ^ \hat{Y} Y^ 是通过对 LRMS Y Y Y 进行双三次插值得到的。模糊核 K K K 与多光谱传感器的调制传递函数(MTF)匹配[72]。
对于初始化问题(14),我们使用 Adam 优化 θ \theta θ,直到目标函数收敛,大约需要 8000 步。学习率固定为 1 × 1 0 − 3 1 \times 10^{-3} 1×10−3。对于主问题(8)的交替最小化,我们在所有实验中设置 α = 2 \alpha = 2 α=2 和 β = 1 × 1 0 − 3 \beta = 1 \times 10^{-3} β=1×10−3。在交替最小化的每一步中, X X X 和 θ \theta θ 分别通过一步梯度下降和自适应矩估计(ADAM)进行更新。权衡参数 λ \lambda λ 在所有实验中设置为 0.1。当 L ( X , θ ) L(X, \theta) L(X,θ) 的值变化缓慢时,迭代完成,大约需要 3000 步。也就是说,在算法 1 中,我们设置 T = 3000 T = 3000 T=3000。