欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 焦点 > Day6 神经网络的向量基础

Day6 神经网络的向量基础

2024/12/31 1:10:13 来源:https://blog.csdn.net/PiPi_Ying/article/details/144438630  浏览:    关键词:Day6 神经网络的向量基础

Day6 神经网络的向量基础

向量基本概念

向量是数学中的一个基本概念,指具有大小和方向的量。

  • 向量通常用箭头表示,如 a ⃗ \vec{a} a
  • 也可以用数对或坐标形式表示,如 a ⃗ = ( x , y ) \vec{a} = (x, y) a =(x,y)在二维空间中,或 a ⃗ = ( x , y , z ) \vec{a} = (x, y, z) a =(x,y,z)在三维空间中。
  • 也可以用不带箭头的加粗黑色斜体字母 a 表示

向量的坐标表示

将向量的箭头起点放在坐标系的原点,箭头终点的坐标即为该向量的坐标表示。

例如,二维向量 a ⃗ = ( a 1 , a 2 ) \vec{a} = (a_1, a_2) a =(a1,a2)表示一个从原点指向点( a 1 a_1 a1, a 2 a_2 a2​)的箭头。在三维空间的情况下也是同样的。下图右 a = (1, 2, 2) 表示右图所示的向量。

在这里插入图片描述


向量的大小

  • 向量的大小,也称为向量的模或长度,记作 ∥ A ⃗ ∥ \| \vec{A} \| A 。向量的模表示向量的大小,可以通过勾股定理计算。例如,对于二维向量 A ⃗ = ( a 1 , a 2 ) \vec{A} = (a_1, a_2) A =(a1,a2),其模为 ∥ A ⃗ ∥ = a 1 2 + a 2 2 \| \vec{A} \| = \sqrt{a_1^2 + a_2^2} A =a12+a22 。模为1的向量称为单位向量。模为零的向量称为零向量,记作 0 ⃗ \vec{0} 0 ,零向量的方向是任意的。

向量的内积

  • 向量的内积(点乘/数量积)是对两个向量执行点乘运算,即对这两个向量对应位一一相乘之后求和的操作。内积的几何意义包括表征或计算两个向量之间的夹角,以及向量在一个方向上的投影。

  • 对于两个向量 a ⃗ = ( a 1 , a 2 , … , a n ) \vec{a} = (a_1, a_2, \ldots, a_n) a =(a1,a2,,an) b ⃗ = ( b 1 , b 2 , … , b n ) \vec{b} = (b_1, b_2, \ldots, b_n) b =(b1,b2,,bn),它们的内积为:

    • a ⃗ ⋅ b ⃗ = a 1 b 1 + a 2 b 2 + … + a n b n \vec{a} \cdot \vec{b} = a_1 b_1 + a_2 b_2 + \ldots + a_n b_n a b =a1b1+a2b2++anbn

    • 内积的性质包括

      • 对称性 a ⃗ ⋅ b ⃗ = b ⃗ ⋅ a ⃗ \vec{a} \cdot \vec{b} = \vec{b} \cdot \vec{a} a b =b a
      • 线性性 a ⃗ ⋅ ( λ b ⃗ + μ c ⃗ ) = λ ( a ⃗ ⋅ b ⃗ ) + μ ( a ⃗ ⋅ c ⃗ ) \vec{a} \cdot (\lambda \vec{b} + \mu \vec{c}) = \lambda (\vec{a} \cdot \vec{b}) + \mu (\vec{a} \cdot \vec{c}) a (λb +μc )=λ(a b )+μ(a c )
      • 正定性 a ⃗ ⋅ a ⃗ ≥ 0 \vec{a} \cdot \vec{a} \geq 0 a a 0,且 a ⃗ ⋅ a ⃗ = 0 \vec{a} \cdot \vec{a} = 0 a a =0 当且仅当 a ⃗ = 0 ⃗ \vec{a} = \vec{0} a =0
      • 投影公式:向量 a ⃗ \vec{a} a 在向量 b ⃗ \vec{b} b 方向上的投影为 a ⃗ ⋅ b ⃗ ∥ b ⃗ ∥ \frac{\vec{a} \cdot \vec{b}}{\| \vec{b} \|} b a b
      • 夹角公式:向量 a ⃗ \vec{a} a b ⃗ \vec{b} b 的夹角余弦为 cos ⁡ ∠ ( a ⃗ , b ⃗ ) = a ⃗ ⋅ b ⃗ ∥ a ⃗ ∥ ∥ b ⃗ ∥ \cos \angle (\vec{a}, \vec{b}) = \frac{\vec{a} \cdot \vec{b}}{\| \vec{a} \| \| \vec{b} \|} cos(a ,b )=a ∥∥b a b

      二维和三维空间中的向量性质可以照搬到任意维空间中。神经网络虽然处理的是高维空间(如数万维),但二维和三维空间中的向量性质仍然适用。

    • 利用夹角公式,我们可以计算两个向量的内积:

      • a ⃗ ⋅ b ⃗ = ∥ a ⃗ ∥ ∥ b ⃗ ∥ cos ⁡ ∠ ( a ⃗ , b ⃗ ) \vec{a} \cdot \vec{b} = \| \vec{a} \| \| \vec{b} \| \cos \angle (\vec{a}, \vec{b}) a b =a ∥∥b cos(a ,b )

      在这里插入图片描述

      • ① 当两个向量方向相反时,内积取得最小值.
      • ② 当两个向量不平行时,内积取平行时的中间值。
      • ③ 当两个向量方向相同时,内积取得最大值。

      性质①就是后述的梯度下降法的基本原理。

      另外,可以认为内积表示两个向量在多大程度上指向相同方向。如果将方向相似判定为“相似”,则两个向量相似时内积变大。这个观点对于后续学习卷积神经网络时十分重要。
      在这里插入图片描述


柯西-施瓦茨不等式

柯西-施瓦茨不等式是数学中的一个基本且重要的不等式,它定义了在内积空间中,两个向量的内积与其各自范数(或长度)之间的关系。具体形式为:

∣ a ⃗ ⋅ b ⃗ ∣ ≤ ∥ a ⃗ ∥ ∥ b ⃗ ∥ | \vec{a} \cdot \vec{b} | \leq \| \vec{a} \| \| \vec{b} \| a b a ∥∥b 或者 − ∥ a ⃗ ∥ ∥ b ⃗ ∥ ≤ a ⃗ ⋅ b ⃗ ≤ ∥ a ⃗ ∥ ∥ b ⃗ ∥ -\| \vec{a} \| \| \vec{b} \|\leq \vec{a} \cdot \vec{b} \leq \| \vec{a} \| \| \vec{b} \| a ∥∥b a b a ∥∥b

证明方法:利用夹角公式

根据夹角公式,我们有:

a ⃗ ⋅ b ⃗ = ∥ a ⃗ ∥ ∥ b ⃗ ∥ cos ⁡ ∠ ( a ⃗ , b ⃗ ) \vec{a} \cdot \vec{b} = \| \vec{a} \| \| \vec{b} \| \cos \angle (\vec{a}, \vec{b}) a b =a ∥∥b cos(a ,b )

由于余弦函数的值域是 [ − 1 , 1 ] [-1, 1] [1,1],因此:

∣ cos ⁡ ∠ ( a ⃗ , b ⃗ ) ∣ ≤ 1 | \cos \angle (\vec{a}, \vec{b}) | \leq 1 cos(a ,b )1

将上述不等式代入夹角公式中,我们得到:

∣ a ⃗ ⋅ b ⃗ ∣ = ∣ ∥ a ⃗ ∥ ∥ b ⃗ ∥ cos ⁡ ∠ ( a ⃗ , b ⃗ ) ∣ ≤ ∥ a ⃗ ∥ ∥ b ⃗ ∥ | \vec{a} \cdot \vec{b} | = | \| \vec{a} \| \| \vec{b} \| \cos \angle (\vec{a}, \vec{b}) | \leq \| \vec{a} \| \| \vec{b} \| a b =∣∥a ∥∥b cos(a ,b )a ∥∥b

这就证明了柯西-施瓦茨不等式。


张量

张量(Tensor)是向量的推广,是一个多维数组。在神经网络中,张量常用于表示多维数据,如图像数据(三维张量:高度、宽度、颜色通道)或更高维的数据结构。谷歌提供的人工智能学习系统 TensorFlow 的命名中就用到了这个数学术语。

柯西-施瓦茨不等式证明方法二:构造二次函数并利用其性质

  1. 构造二次函数

    考虑二次函数 f ( t ) = ∥ a ⃗ + t b ⃗ ∥ 2 f(t) = \| \vec{a} + t \vec{b} \|^2 f(t)=a +tb 2,其中 t t t 是一个实数。

  2. 展开二次函数

    利用向量的模和内积的定义,我们可以将 f ( t ) f(t) f(t) 展开为:

    f ( t ) = ( a ⃗ + t b ⃗ ) ⋅ ( a ⃗ + t b ⃗ ) = ∥ a ⃗ ∥ 2 + 2 t ( a ⃗ ⋅ b ⃗ ) + t 2 ∥ b ⃗ ∥ 2 f(t) = (\vec{a} + t \vec{b}) \cdot (\vec{a} + t \vec{b}) = \| \vec{a} \|^2 + 2t (\vec{a} \cdot \vec{b}) + t^2 \| \vec{b} \|^2 f(t)=(a +tb )(a +tb )=a 2+2t(a b )+t2b 2

  3. 分析二次函数的性质

    由于 f ( t ) f(t) f(t) 是一个关于 t t t 的二次函数,并且其系数 $ | \vec{b} |^2 $ 是非负的,因此 f ( t ) f(t) f(t) 是一个开口向上的抛物线。这意味着对于所有的 t t t f ( t ) f(t) f(t) 的值都是非负的,即 f ( t ) ≥ 0 f(t) \geq 0 f(t)0

  4. 利用二次函数的判别式

    对于二次函数 f ( t ) = A t 2 + B t + C f(t) = At^2 + Bt + C f(t)=At2+Bt+C,其判别式 Δ = B 2 − 4 A C \Delta = B^2 - 4AC Δ=B24AC。当 Δ ≤ 0 \Delta \leq 0 Δ0 时,二次函数没有实数根,即在整个实数域内都是非负的。

    将我们的二次函数与标准形式对比,我们可以得到:

    A = ∥ b ⃗ ∥ 2 , B = 2 ( a ⃗ ⋅ b ⃗ ) , C = ∥ a ⃗ ∥ 2 A = \| \vec{b} \|^2, \quad B = 2 (\vec{a} \cdot \vec{b}), \quad C = \| \vec{a} \|^2 A=b 2,B=2(a b ),C=a 2

    因此,判别式为:

    Δ = [ 2 ( a ⃗ ⋅ b ⃗ ) ] 2 − 4 ∥ a ⃗ ∥ 2 ∥ b ⃗ ∥ 2 = 4 ( a ⃗ ⋅ b ⃗ ) 2 − 4 ∥ a ⃗ ∥ 2 ∥ b ⃗ ∥ 2 \Delta = [2 (\vec{a} \cdot \vec{b})]^2 - 4 \| \vec{a} \|^2 \| \vec{b} \|^2 = 4 (\vec{a} \cdot \vec{b})^2 - 4 \| \vec{a} \|^2 \| \vec{b} \|^2 Δ=[2(a b )]24∥a 2b 2=4(a b )24∥a 2b 2

  5. 得出不等式

    由于 f ( t ) ≥ 0 f(t) \geq 0 f(t)0 对于所有的 t t t 都成立,因此判别式 Δ ≤ 0 \Delta \leq 0 Δ0。将判别式的表达式代入,我们得到:

    4 ( a ⃗ ⋅ b ⃗ ) 2 − 4 ∥ a ⃗ ∥ 2 ∥ b ⃗ ∥ 2 ≤ 0 4 (\vec{a} \cdot \vec{b})^2 - 4 \| \vec{a} \|^2 \| \vec{b} \|^2 \leq 0 4(a b )24∥a 2b 20

    除以4并整理,我们得到柯西-施瓦茨不等式:

    ( a ⃗ ⋅ b ⃗ ) 2 ≤ ∥ a ⃗ ∥ 2 ∥ b ⃗ ∥ 2 (\vec{a} \cdot \vec{b})^2 \leq \| \vec{a} \|^2 \| \vec{b} \|^2 (a b )2a 2b 2

    取平方根,我们得到最终的不等式形式:

    ∣ a ⃗ ⋅ b ⃗ ∣ ≤ ∥ a ⃗ ∥ ∥ b ⃗ ∥ | \vec{a} \cdot \vec{b} | \leq \| \vec{a} \| \| \vec{b} \| a b a ∥∥b

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com