【差分隐私相关概念】约束下的矩阵机制

矩阵机制是差分隐私中一种高效的数据发布方法，通过设计策略矩阵 $\mathbf{A}$ 对线性查询进行组合，优化噪声添加和结果重构的准确性。以下分步骤解释其原理及示例。

策略矩阵 $\mathbf{A}$
- 作用：将原始数据库 $\mathbf{x}$ 编码为一组线性查询 $\mathbf{Ax}$ ，例如总和、平均值或更复杂的组合。
- 设计目标：通过矩阵设计最小化重构误差或隐私预算消耗。
噪声添加
- 拉普拉斯机制：生成带噪声的响应
  $\widetilde{\mathbf{r}} = \mathbf{Ax} + \text{Lap}(\Delta_\mathbf{A}/\epsilon),$
  其中 $\Delta_\mathbf{A}$ 是策略矩阵的敏感度， $\epsilon$ 是隐私预算。
- 敏感度 $\Delta_\mathbf{A}$ ：定义为相邻数据库 $\mathbf{x}$ 与 $\mathbf{x}'$ 的 $\mathbf{A}(\mathbf{x} - \mathbf{x}')$ 的 $L_1$ 范数最大值。
最小二乘解
- 无约束近似：通过伪逆矩阵 $\mathbf{A}^\dagger$ 重构数据库
  $\widehat{\mathbf{x}} = \mathbf{A}^\dagger \widetilde{\mathbf{r}} = (\mathbf{A}^\intercal \mathbf{A})^{-1} \mathbf{A}^\intercal \widetilde{\mathbf{r}},$
  最小化 $L_2$ 误差 $\|\widetilde{\mathbf{r}} - \mathbf{A}\widehat{\mathbf{x}}\|_2^2$ 。
带约束的优化问题
- 非负性与最大似然：修正解以满足 $\widehat{\mathbf{x}} \geq 0$ 并最小化 $L_1$ 误差
  $\overline{\mathbf{x}} = \arg \min_{\widehat{\mathbf{x}} \geq 0} \|\widetilde{\mathbf{r}} - \mathbf{A}\widehat{\mathbf{x}}\|_1.$

1. 场景设定

数据库 $\mathbf{x}$ ：两个群体的人口数 $\mathbf{x} = [x_1, x_2]$ ，其中 $x_1 = 100$ （城市人口）， $x_2 = 200$ （农村人口）。
策略矩阵 $\mathbf{A}$ ：设计为同时查询总人口和城乡差异：
$\mathbf{A} = \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix}.$
- 查询结果： $\mathbf{Ax} = [300, -100]$ （总人口 300，城乡差 -100）。

2. 敏感度计算

相邻数据库：假设 $\mathbf{x}$ 与 $\mathbf{x}'$ 相差 1（如 $x_1' = x_1 + 1$ ）。
- $\mathbf{A}(\mathbf{x} - \mathbf{x}')$ 的可能值为 $[1, 1]$ 或 $[1, - 1]$ 。
- $L_1$ 范数的最大值为 $2$ ，因此 $\Delta_\mathbf{A} = 2$ 。

3. 噪声添加

隐私参数：设 $\epsilon = 1$ ，噪声尺度为 $\Delta_\mathbf{A}/\epsilon = 2$ 。
生成噪声：从拉普拉斯分布采样，假设噪声为 $\text{Lap}(2)$ ：
$\widetilde{\mathbf{r}} = [300 + 3, -100 - 1] = [303, -101].$

4. 最小二乘解

计算伪逆：
$\mathbf{A}^\dagger = (\mathbf{A}^\intercal \mathbf{A})^{-1} \mathbf{A}^\intercal = \frac{1}{2} \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix}.$
重构结果：
$\widehat{\mathbf{x}} = \frac{1}{2} \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix} \begin{bmatrix} 303 \\ -101 \end{bmatrix} = \frac{1}{2} \begin{bmatrix} 202 \\ 404 \end{bmatrix} = [101, 202].$
- 结果 $\widehat{\mathbf{x}} = [101, 202]$ 非负，无需进一步优化。

5. 含负数的优化示例

假设噪声导致负值：若 $\widetilde{\mathbf{r}} = [305, -105]$ ，则：
$\widehat{\mathbf{x}} = \frac{1}{2} \begin{bmatrix} 200 \\ 410 \end{bmatrix} = [100, 205].$
- 结果仍为非负，直接接受。

若最小二乘解出现负数，需通过优化问题修正：

1. 示例场景

噪声响应： $\widetilde{\mathbf{r}} = [290, 90]$ （不合理，因城乡差不可能超过总人口）。
最小二乘解：
$\widehat{\mathbf{x}} = \frac{1}{2} \begin{bmatrix} 290 + 90 \\ 290 - 90 \end{bmatrix} = [190, 100].$
- 结果合理，但若噪声更大（如 $\widetilde{\mathbf{r}} = [300, 150]$ ）：
  $\widehat{\mathbf{x}} = \frac{1}{2} \begin{bmatrix} 450 \\ 150 \end{bmatrix} = [225, 75].$
  - 需确保非负（此处已满足）。

2. 优化问题解决步骤
若 $\widehat{\mathbf{x}}$ 含负数（例如 $\widehat{\mathbf{x}} = [150, -50]$ ）：

约束条件： $\overline{x}_1 \geq 0$ ， $\overline{x}_2 \geq 0$ 。
目标：最小化 $\| \widetilde{\mathbf{r}} - \mathbf{A}\overline{\mathbf{x}} \|_1$ 。
求解方法：使用线性规划或投影梯度下降，找到满足 $\overline{\mathbf{x}} \geq 0$ 且最接近 $\widetilde{\mathbf{r}}$ 的解。

误差优化
- 直接发布原始数据：对每个 $x_i$ 独立加噪，误差随维度线性增长。
- 矩阵机制：通过线性组合查询，可能降低全局误差。例如，若 $\mathbf{A}$ 正交，噪声在各方向均匀分布，重构误差更小。
敏感度权衡
- 单位矩阵策略： $\mathbf{A} = \mathbf{I}$ ，敏感度 $\Delta_\mathbf{A} = 1$ ，但重构误差与维度相关。
- 聚合查询策略：如 $\mathbf{A} = [1, 1]$ ，敏感度 $\Delta_\mathbf{A} = 1$ ，但丢失个体信息。

矩阵机制流程：
1. 设计策略矩阵 $\mathbf{A}$ 编码查询。
2. 计算敏感度 $\Delta_\mathbf{A}$ 并添加拉普拉斯噪声。
3. 通过伪逆矩阵重构初步解 $\widehat{\mathbf{x}}$ 。
4. 优化非负约束下的 $L_1$ 误差，得到最终解 $\overline{\mathbf{x}}$ 。
优势：通过矩阵设计平衡隐私与准确性，适用于复杂查询和高维数据发布。
关键点：策略矩阵的敏感度计算、噪声分布分析及带约束优化求解。

相关资讯