在进行数据分析时,变量具有单位是很常见的,比如页面加载耗时,可以以毫秒作为单位,也可以以秒作为单位,此时会出现量纲问题而导致数值不能直接比较大小,例如1000毫秒=1秒,不能因为1000>1 ,而认为1000毫秒>1秒。
数据量纲化处理后的数据也要保持数据的相对大小关系,例如页面加载耗时(毫秒),假如有两个值A和B,A>B,量纲化处理后分别为A_1和B_1,应该要满足A_1>B_1
量纲化有很多种处理方式,具体应该使用哪一种方式,并没有固定的标准,量纲化按是否具有实际意义可分为两类,⼀类是量纲处理⽅式有着⼀定的实际意义,另⼀类是仅数理⻆度的量纲处理方式:
有意义的量纲化处理:⽐如均值化,初值化,最⼩值化,最⼤值化,和求和归⼀化,平⽅和归⼀化共6种。分别代表数据除以平均值,数据除以第1个数,数据除以最⼩值,数据除以最⼤值,数据除以求和值,数据除以平⽅和值。相当于说,它们都找到⼀个参照标准项,然后所有数据去除以参照标准项。此6种⽅式的特点在于,⼀般要求数据全部都⼤于0,如果出现⼩于0或者等于0就有可能出问题,⽐如刚好分⺟为0,那么就出现⽆法相除。
仅数理化的量纲化处理:包括标准化,中⼼化,归⼀化,正向化,逆向化,区间化,均在于让数据保持在⼀定的区间范围内,⽽且处理后带有⼀定的数理特征,⽐如标准化后数<