1.用MDS的场景

从降维的层面来说，由于MDS是一种降维方法，那么它和PCA等其他降维方式有什么不同呢，什么样的场景适用于使用MDS呢？与PCA不同的是，MDS保证了原始数据点之间的距离与降维后数据点的距离一致。
另一方面，假如我们只知道一组点之间的距离，我们如何反演出它的相对坐标？这也是MDS可以做到的。
MDS的这种降维是继承了原始数据空间中的欧式距离度量。使得数据点能在低维空间重构其相对位置。
举个例子，比如如果用欧式距离度量两种商品的相似度，那么，商品特征繁多，我们就需要在不破坏商品之间的这种相似度的情况下对数据进行降维。
再比如我们手头只有一个邻接矩阵，代表飞机坠机后的残骸之间的距离，现在新来了一个残骸，多个声呐探测后能够计算出这个残骸与其他所有残骸的距离，但是我们无法得知其具体位置，那么我们可以通过MDS反演出其相对距离，那么我们只要知道其中一个残骸的位置，这个残骸的位置也就很明朗了。根据这个相对距离缩放到真实距离就行。

2.MDS算法的数学推导

定理：在 $p$ 维欧式空间中有一组点集，这组点集之间的欧式距离由矩阵 $D$ 给出，即 $\forall \vec{x_{r}},\vec{x_{s}}\in X_{[n\times p]}\in R^{p};D=[d^{2}_{rs}]_{n\times n};d^{2}_{rs}=||\vec{x_{r}}-\vec{x_{s}}||_{2}^{2}=(\vec{x_{r}}-\vec{x_{s}})^{T}(\vec{x_{r}}-\vec{x_{s}})$ 令 $A=[a_{rs}]_{n\times n}且a_{rs}=-\frac{1}{2}d^{2}_{rs}$ 定义一个 $B=[b_{rs}]_{n\times n}=HAH;H=I_{n}-\frac{1}{n}\vec{1}_{n}\vec{1}_{n}^{T};$
在如上定义之下，当且仅当 $B$ 是半正定矩阵， $D$ 是欧式距离矩阵。

我们现在给出构造性证明：
首先是必要性：
即：

如果 $D$ 是点集 $Z=(z_{1},z_{2},...,z_{n})^{T}$ 的欧氏距离矩阵；那么：
$b_{rs}=(z_{r}-\bar{z})^{T}(z_{s}-\bar{z});\bar{z}=\vec{1}_{n}\cdot Z=\frac{1}{n}\sum_{i=1}^{n}z_{i};B=HZZ^{T}H;$

证明：
$B=HAH=(I_{n}-\frac{1}{n}\vec{1}_{n}\vec{1}_{n}^{T})A(I_{n}-\frac{1}{n}\vec{1}_{n}\vec{1}_{n}^{T})\\=A+\frac{1}{n^{2}}\vec{1}_{n}\vec{1}_{n}^{T}A\vec{1}_{n}\vec{1}_{n}^{T}-\frac{1}{n}\vec{1}_{n}\vec{1}_{n}^{T}A-\frac{1}{n}A\vec{1}_{n}\vec{1}_{n}^{T}$
矩阵A的列平均: $\bar a_{s}=\frac {1}{n}\vec{1}_{n}^{T}A=\frac {1}{n} \sum^{n}_{s=1}a_{rs}$
矩阵A的行平均: $\bar a_{r}=\frac{1}{n}A\vec{1}_{n}=\frac {1}{n} \sum^{n}_{r=1}a_{rs}$
矩阵A的整体平均: $\bar a_{r}=\frac{1}{n^2}\vec{1}_{n}^{T} A\vec{1}_{n}=\frac {1}{n^2}\sum^{n}_{s=1} \sum^{n}_{r=1}a_{rs}$
那么：
$b_{rs}=a_{rs}-\bar{a_{s}}-\bar{a_{r}}+\bar a\\=-\frac {1}{2}d^{2}_{rs}+\frac {1}{2n}\sum^{n}_{s=1}d^{2}_{rs}+\frac {1}{2n}\sum^{n}_{r=1}d^{2}_{rs}-\frac {1}{n^2}\sum^{n}_{s=1} \sum^{n}_{r=1}d^{2}_{rs}\\ =-\frac{1}{2} (\vec{z_{r}}-\vec{z_{s}})^{T}(\vec{z_{r}}-\vec{z_{s}})+\frac{1}{2n} \sum^{n}_{s=1}(\vec{z_{r}}-\vec{z_{s}})^{T}(\vec{z_{r}}-\vec{z_{s}})+ \frac{1}{2n} \sum^{n}_{r=1}(\vec{z_{r}}-\vec{z_{s}})^{T}(\vec{z_{r}}-\vec{z_{s}})+\frac{1}{n^2}\sum^{n}_{s=1} \sum^{n}_{r=1}(\vec{z_{r}}-\vec{z_{s}})^{T}(\vec{z_{r}}-\vec{z_{s}})\\=-\frac {1}{2}z_{r}^{T}z_{r}-\frac {1}{2}z_{s}^{T}z_{s}+z_{r}^{T}z_{s}+\frac {1}{2}z_{r}^{T}z_{r}+\frac{1}{2n} \sum^{n}_{j=1}z_{j}^{T}z_{j}-z_{r}^{T}\bar z+ \frac {1}{2}z_{s}^{T}z_{s}+\frac{1}{2n} \sum^{n}_{j=1}z_{j}^{T}z_{j}-z_{s}^{T}\bar z-\frac{1}{2n} \sum^{n}_{j=1}z_{j}^{T}z_{j}-\frac{1}{2n} \sum^{n}_{i=1}z_{i}^{T}z_{i}+\bar z^{T}\bar z\\=z_{r}^{T}z_{s}-z_{r}^{T}\bar z-z_{s}^{T}\bar z+\bar z^{T}\bar z\\=(z_{r}-\bar{z})^{T}(z_{s}-\bar{z})$
所以：
$b_{rs}=(z_{r}-\bar{z})^{T}(z_{s}-\bar{z})$
$B=HZZ^{T}H$
由此可得，B一定是一个对称半正定矩阵，必要性证毕。

接着证明充分性：
即：

如果 $B$ 是秩为 $p$ 的对称半正定矩阵，那么可以将 $B$ 按照如下方式构造：
令 $\lambda_{1}>\lambda_{2}>...>\lambda_{p}$ 表示 $B$ 矩阵的所有大于0的特征值，且对应的特征向量为： $Z=(Z_{(1)},Z_{(2)},...,Z_{(p)})且满足Z_{(i)}^{T}Z_{(i)}=\lambda_{i};i=1,2,...,p$ ;
那么在 $p$ 维欧式空间中,点集 $Z$ 之间的距离可由距离矩阵 $D$ 给出。

证明：
假设特征值对应的矩阵为： $\Lambda$
令 $U=Z\Lambda^{-\frac{1}{2}};$ 因为 $Z^{T}Z=\Lambda$
那么 $U^{T}U=\Lambda^{-\frac{1}{2}}Z^{T}Z\Lambda^{-\frac{1}{2}}=\Lambda^{-\frac{1}{2}}\Lambda\Lambda^{-\frac{1}{2}}=I_{p}$ ;
所以可以将 $B$ 特征分解为： $B=U\Lambda U^{T}=Z\Lambda^{-\frac{1}{2}}\Lambda\Lambda^{-\frac{1}{2}}Z^{T}=Z Z^{T}$
即： $b_{rs}=z_{r}^{T}z_{s}$ ;
我们算一下第 $r$ 个特征向量和第 $s$ 个特征向量的欧式距离，以确定其确实可以由距离矩阵给出。
$(z_{r}-z_{s})^{T}(z_{r}-z_{s})=z_{r}^{T}z_{r}-2z_{r}^{T}z_{s}+z_{s}^{T}z_{s}\\=b_{rr}+b_{ss}-2b_{rs}$
因为 $b_{rs}=a_{rs}-\bar a_{r}-\bar a_{s}+\bar a$
那么 $b_{ss}=a_{ss}-\bar a_{s}-\bar a_{s}+\bar a$
那么 $b_{rr}=a_{rr}-\bar a_{r}-\bar a_{r}+\bar a$
且： $a_{rr}=-\frac{1}{2}d_{rr}^{2}=0=a_{ss}$
所以：
$(z_{r}-z_{s})^{T}(z_{r}-z_{s})=z_{r}^{T}z_{r}-2z_{r}^{T}z_{s}+z_{s}^{T}z_{s}\\=b_{rr}+b_{ss}-2b_{rs}\\=a_{ss}-\bar a_{s}-\bar a_{s}+\bar a+a_{rr}-\bar a_{r}-\bar a_{r}+\bar a-2a_{rs}+2\bar a_{r}+2\bar a_{s}-2\bar a\\=-2a_{rs}\\=d_{rs}^{2}$
这恰好证明了那么在 $p$ 维欧式空间中,点集 $Z$ 之间的距离可由距离矩阵 $D$ 给出。充分性证毕。

那么也就是说只要 $B$ 是半正定的矩阵，那么我们总能找到它的特征向量 $U=Z\Lambda^{-\frac{1}{2}}$ ，将对应的坐标 $Z=U\Lambda^{\frac{1}{2}}$ 求出。
我们还能发现一些好玩的性质，比如因为 $H\vec{1_{n}}=0$ 所以： $B\vec{1_{n}}=HA(H\vec{1_{n}})=0$
由于不同特征值对应的特征向量是正交的，那么这个式子就告诉我们 $\vec{1_{n}}$ 是其中一个特征向量。且对应特征值为0。
也就是说：
$\vec{1_{n}}Z=0\to\sum_{r=1}^{n}Z_{r}=0$
这表明实际上，我们在保持其欧式距离结构的前提下，将坐标原点定在了所有点的均值处。
回顾一下我们做了什么，我们有一个距离矩阵 $D$ ，这个距离矩阵的来源可以是我们手上有一堆已有数据产生的，或者是直接给出的；我们试图在低维或者同维度下重构它的数据点，我们首先通过 $D$ 矩阵找到 $A$ 矩阵， $A$ 矩阵构成 $B=HAH$ 矩阵，由于距离矩阵一定是对称半正定的， $B$ 矩阵一定也是对称半正定的。由于 $B$ 是对称的，所以我们一定可以对它进行特征分解: $B=U\Lambda U^{T}$ ;如果此时需要在低维下重构，那么对特征值排序后剔除小的，如果在同维度下重构，那么保持原样即可。我们最后就直接还原出其相对坐标： $Z=U\Lambda^{\frac{1}{2}}$ 。

3.MDS中加入新数据点的问题

我们要是新来一个数据点，或者说新来一点，我只是知道它与其他所有点的距离，这样的情况怎么办。
我们可能会不假思索的回答说，这个很简单啊，只要把点加入矩阵D中，由 $n\times n$ 变成 $(n+1)\times (n+1)$ 就好了，其他重头再来一遍得到一个新的坐标点集 $Z$ 就好了。
在数据量不是很大的情况下，这确实不失为一种好方法，但是万一数据量很大，重头再来的代价就让人有点头疼了，这就是为什么我们要看看有什么办法可以绕过这样重头再来的过程。
假设我们新的数据点是 $Z_{n+1}=(z^{(1)}_{n+1},z^{(2)}_{n+1},...,z^{(p)}_{n+1})$
我们得计算一下它和已有的第 $i$ 个点之间的距离：
$d^{2}_{(i,n+1)}=\sum_{k=1}^{p}(z^{(k)}_{n+1}-z^{(k)}_{i})^{2}\\ =\sum_{k=1}^{p}(z^{(k)}_{n+1})^{2}+\sum_{k=1}^{p}(z^{(k)}_{i})^{2}-2\sum_{k=1}^{p}z^{(k)}_{n+1}z^{(k)}_{i}\\ =d^{2}_{n+1}+d^{2}_{i}-2\sum_{k=1}^{p}z^{(k)}_{n+1}z^{(k)}_{i}$
这里面我们什么是已知的，什么是未知的呢？
$d^{2}_{n+1}和-2\sum_{k=1}^{p}z^{(k)}_{n+1}z^{(k)}_{i};$ 是我们未知的，其他都是已知的。
我们对 $d^{2}_{(i,n+1)}$ 求和，看看是否能将一个未知量给表示成另一个未知量。
$\sum_{i=1}^{n}d^{2}_{(i,n+1)}=\sum_{i=1}^{n}d^{2}_{n+1}+\sum_{i=1}^{n}d^{2}_{i}-2\sum_{k=1}^{p}z^{(k)}_{n+1}\sum_{i=1}^{n}z^{(k)}_{i}$
由于上面我们有说过： $\sum_{r=1}^{n}Z_{r}=0$
所以： $\sum_{i=1}^{n}z^{(k)}_{i}=0$
因此：
$\sum_{i=1}^{n}d^{2}_{(i,n+1)}=\sum_{i=1}^{n}d^{2}_{n+1}+\sum_{i=1}^{n}d^{2}_{i}=nd^{2}_{n+1}+\sum_{i=1}^{n}d^{2}_{i}$
$d^{2}_{n+1}=\frac{1}{n}\cdot \sum_{i=1}^{n}(d^{2}_{(i,n+1)}-d^{2}_{i})$
将这个结果代入原式：
$d^{2}_{(i,n+1)}=\frac{1}{n}\cdot \sum_{i=1}^{n}(d^{2}_{i}) +d^{2}_{i}-2\sum_{k=1}^{p}z^{(k)}_{n+1}z^{(k)}_{i}$
$2\sum_{k=1}^{p}z^{(k)}_{n+1}z^{(k)}_{i}=d^{2}_{i}-d^{2}_{(i,n+1)}-\frac{1}{n}\cdot \sum_{i=1}^{n}(d^{2}_{i}-d^{2}_{(i,n+1)})$
我们令 $\alpha_{i}=d^{2}_{i}-d^{2}_{(i,n+1)}$
$2\sum_{k=1}^{p}z^{(k)}_{n+1}z^{(k)}_{i}= \alpha_{i}- \frac{1}{n}\cdot \sum_{i=1}^{n}\alpha_{i}$
写成矩阵形式：
$Z\cdot \vec{z}_{n+1}=\frac{1}{2}\cdot (\vec{\alpha}-\frac{1}{n}\vec{1_{n}}\vec{1_{n}}^{T}\vec{\alpha })$

$Z^{T}Z\cdot \vec{z}_{n+1}=\frac{1}{2}\cdot Z^{T}(\vec{\alpha}-\frac{1}{n}\vec{1_{n}}\vec{1_{n}}^{T}\vec{\alpha })$

$\Lambda\cdot \vec{z}_{n+1}=\frac{1}{2}\cdot Z^{T}(\vec{\alpha}-\frac{1}{n}\vec{1_{n}}\vec{1_{n}}^{T}\vec{\alpha })$
因为 $Z^{T}\vec{1_{n}}=0$
所以新加入的数据点可以由下面公式导出：
$\vec{z}_{n+1}=\frac{1}{2}\cdot \Lambda^{-1} Z^{T}\vec{\alpha }$

4.代码

import numpy as np
class MDS:
    def __init__(self,Distance_Matrix,q):
        self.D=Distance_Matrix
        self.q=q
        self.n=np.shape(self.D)[0]
        self.A=(-1/2)*self.D
        self.H=np.identity(self.n)-(1/self.n)*np.ones([self.n,self.n])
        self.B=self.H.dot(self.A).dot(self.H)
    def rebuild_coordinates(self):
        self.lambda_,self.U=np.linalg.eig(self.B)
        Largest_q_EigenValues=self.lambda_[np.where(self.lambda_>0)]
        Largest_q_EigenVector=self.U[np.where(self.lambda_>0)]
        Largest_q_EigenValues=Largest_q_EigenValues[np.where(np.argsort(Largest_q_EigenValues)<self.q)]
        Largest_q_EigenVector=Largest_q_EigenVector[np.where(np.argsort(Largest_q_EigenValues)<self.q)]
        self.Lambda=np.diag(Largest_q_EigenValues.real)
        self.U=Largest_q_EigenVector.T
        self.Z=self.U.dot(self.Lambda**(1/2)).real
        return self.Z
    def add_new(self,distance_to_everypoint):
        Z=self.rebuild_coordinates()
        d_i_square=np.array([np.sum(Z**2,axis=1)]).T
        alpha=d_i_square-distance_to_everypoint.T
        new_z=(1/2)*np.linalg.inv(self.Lambda).dot(Z.T).dot(alpha)
        return new_z
if __name__ == '__main__':
    from sklearn.datasets import load_iris
    import seaborn as sns
    import matplotlib.pyplot as plt
    def calculate_distance_matrix(X):
        D = []
        for every_point in X:
            dis = np.sum((X - np.array([every_point])) ** 2, axis=1)
            D.append(dis)
        D = np.array(D)
        return D
    def plot(dfData):
        plt.subplots(figsize=(9, 9))
        sns.heatmap(dfData, annot=True, vmax=1, square=True, cmap="Blues")
        plt.show()
    data=load_iris()
    X=np.array([[1,2],[3,4],[2,2],[0,1],[1,3],[5,4]])
    new_point=np.array([[1,4]])
    new_distance=np.array([np.sum((X - new_point) ** 2, axis=1)])
    D=calculate_distance_matrix(X)
    mds=MDS(D,2)
    Z=mds.rebuild_coordinates()
    new_z=mds.add_new(new_distance)
    print(Z)

（十一）MDS算法

（十一）MDS算法

1.用MDS的场景

2.MDS算法的数学推导

3.MDS中加入新数据点的问题

4.代码