==文献地址:==
https://arxiv.org/pdf/1907.01377.pdf
摘要
THz新兴技术,广泛用到不同应用场景。
然而,为这些应用场景,提取可解释的和物理上有意义的参数,需要解决一个反问题:由这些参数确定的模型函数,需要拟合到测量数据。
由于基础的优化问题是非凸的,求解成本很高,作者建议直接从实测数据中学习合适参数的预测。
更准确地说,作者开发了一个基于模型的自动编码器AE,
==编码器==——编码网络预测合适的参数,
==解码器==解码环节被固定到一个物理上有意义的模型函数上,这样我们可以在无监督的方式下训练编码网络作者用数值方法来说明,结果表明,
==优化速度==——网络的速度比经典的优化技术,快140多倍
==优化的目标值==——而预测的目标值,仅略高一些==论文的意义==
使用这些预测的目标值,作为局部优化技术的起点,可以使我们在不使用基于网络的初始化的情况下,以大约两倍于优化的速度收敛到更好的局部最小值。
1、Introduction
- ==【基于什么问题?】==
- 新兴传感技术,多个应用领域,有应用价值。
- 然而,与上述应用相关的物理可解释量,并不总是可以直接测量的
- 相反,在THz成像系统中,每个像素都隐含着这些物理量的信息。
- 这使得从每个像素中推导这些物理量的逆问题(也就是说,每个像素怎么得到相关物理量?从相关物理量怎么得到各个像素?),成为一个具有高度现实意义且有难度的问题。
- ==【公式1:有这样的参数P(X)关系】==
- 在每个像素位置x上,所需(未知)参数之间的关系,
- ==【公式2:有这样的模型,。==
- ,是一个设备相关的采样网格
- ==【公式3:要解决的参数优化问题】==
- 通过反向传播算法,最小化损失函数时,四个参数的取值,是我们需要的。
考虑到像素的个数(n x*n y),即公式(3)所要解决的优化问题,一般是数十万到数百万的数量级,即使是损失函数的简单选择,如2平方损失(MSE),最终的拟合问题也是高度非凸的,全局解会变得相当昂贵
- ==【论文怎么解决?】==
论文中,作者提出训练一个神经网络(基于模型的AE),来直接解决优化问题(无监督的预训练作为优秀的初始化方案)
——获得更低的损失Loss
——收敛速度比经典优化快2倍
2、THz成像系统
- ==1——成像方式==
- 实现THz成像,有几种方式,飞秒激光扫描系统、合成孔径系统、混合系统……
- 典型的THz成像方法是基于调频的连续波(FMCW)的概念,
- 它使用主动调频的THz信号,来感觉来自物体的反射信号。
反射能量和由于信号路径长度引起的相位偏移使得三维THz成像成为可能 - ==2——THz三维成像系统==
发射机(Tx)和接收机(Rx)都安装在同一平台上。
成像单元由Tx、Rx和光学组件组成,使用步进电机和线性级沿x和y方向移动。
该成像单元在每个横向位置获取物体的深度剖面,以获得完整的图像太赫兹的3d图像
-
==3——信号变换==
——表示FMCW系统横向位置,反射电场振幅的实测解调时域信号
——在FMCW雷达信号处理中,通过傅里叶变换将连续波时域信号转换为频域信号[9,10]。
-
由于线性扫频在z方向上的每个空间位置,都有唯一的频率,所以转换后的频域信号与空间方位(z方向)域信号直接相关
-
由此得到的三维图像是空间域中的复杂数据,表示THz能量的逐像素复反射率。
分别类似于垂直、水平和深度方向的离散化。同样地,我们可以通过把实部和虚部看作两个独立的通道来表示g c,得到一个4D的实数据张量
-
==4——解释物理模型==
A——电场振幅,是材料的反射系数,它依赖于材料的复介电常数,有助于对材料进行识别和分类。
µ——深度位置,最大反射发生的位置,即,最大反射THz能量的表面位置
σ——脉冲宽度,其中包括材料的色散特性的信息
φ——反射波的相位,取决于材料的介电性能的实部、虚部之比
w——频率
z—— ,是一个设备相关的采样网格参数,包含实验对象的几何形状以及材料成像的重要信息
3、Related Work
4、基于模型的自编码器
==1——==
-
输入的THz数据,通过这样形式来表示,
考虑四个未知参数,在这样的像素矩阵中,允许在每个像素处改变每个参数
-
4个参数,即,有4个参数矩阵,那么连接这四个参数矩阵成一个简单的参数张量矩阵P
那么,我们的目的就是,找到这样的P,使得输入数据g
==2——有监督==
-
以THz图像重建为例,用经典的监督机器学习方法,解决已知前向算子的问题,如图所示
明确的前向模型,从已知参数P,用来模拟一个巨大的的图像集g。
随后,被用作训练数据,通过取决于权重θ的神经网络,来预测参数P
这种带有模拟训练数据的监督方法,常用于其他图像重建领域,如超分辨率[22,23]或图像去模糊[24,25]。
然而,在模拟数据上训练的网络的准确性,关键依赖于对前向模型和模拟噪声的精确知识。在[26]中,当深度去噪网络训练高斯噪声时,BM3D在处理真实的传感器噪声时表现得更好。
-
==3——论文所提无监督方法==
不是追求上述监督学习方法,我们将用一种神经网络来替换优化方法(3)中的。
这个神经网络,取决于原始输入数据和可学的参数θ。可以用无监督的方式在真实的数据上进行训练。
-
假设我们有多个THz数据的样本,并选择(3)中的损失函数作为‘2平方损失’,产生无监督训练问题
-
正如在图3中所示,这种训练类似于AE架构——网络的输入是数据,它被映射到参数P。参数P再输入到模型函数时,应该重构输出*,
-
与直接监督学习方法相比,所提出的无监督方法(5)有两个显著的优点:
允许我们用无监督的方式在真实数据上进行训练,
(5)中的代价函数隐式地处理不同参数的缩放,从而避免了在参数空间中定义有意义的代价函数的问题。如:简单的参数差异,就像
2两组不同的参数P1和P2,在很大程度上取决于单个参数的缩放程度,甚至可能是毫无意义的,例如φ的相位差这样的循环参数。
5、网络的搭建和训练
5.1 数据预处理
- 如图4,示例性测得的THz信号的幅值图如下所示,THz能量主要集中在sinc函数的主瓣和第一旁瓣
- 由于物理模型主要在主瓣的附近有效,我们通过裁剪一个小的窗口(通常是9个测量点宽度的窗口),
- ==裁剪窗口==,是在每像素的12600个测量值的大范围外的窗口。在每个像素处,裁剪窗口集中在信号最大的位置。
- 如上所述,我们将THz数据表示为4D实张量,其中,为裁剪窗口的大小,在本例中为91。
5.2 编码网络搭建与训练
- ==1==
- 编码器网络,选一个空间分离的架构,只在g上使用1×1的卷积,导致signal-by-signal的重建机制,允许高水平的并行性,因此最大限度地在GPU上提升重建速度
- 具体的架构(如图5所示)——
- 在连接激活之前,在实部和虚部分别应用第一组卷积滤波器,并在连接的结构上应用三个进一步的卷积滤波器。
- 我们在每次卷积后使用批处理归一化(BN)[27],并使用漏整流线性单元(LeReLU)[28]作为激活剂。最后,全连接层将尺寸降低到每个像素四个输出参数的期望大小。确保振幅具有物理意义,即在非负的情况下,我们对第一个分量应用一个绝对值函数。有趣的是,当网络被训练时,这个选择与一个简单的直线单元相比是有利的。
- 结构编码网络G (G;θ),预测参数:在每个像素提取实部和虚部,通过三卷积,卷积、连接和加工1完全连接层。为了获得物理上有意义的(非负的)振幅,我们对第一个分量应用一个绝对值函数
- ==2==
待续…………