1. 轻量化网络的概念

方法	例子
1. 压缩训练有素的模型	知识蒸馏；量化剪枝的权值(①权重剪枝；②通道剪枝)；注意力迁移
2. 轻量化网络的直接训练	SqueezeNet；MobileNets系列；MnasNet；ShuffleNet系列；Xception；EfficientNet；EfficientDet
3. 加快卷积运算	im2col GEMM；Winograd低秩分解
4. 硬件部署	TensorRT；JetsonTensorflow；slimTensorflow；liteOpenvino；FPGA集成电路

KeyWords: 参数、计算、内存访问、耗时、能耗、碳排放CUDA加速，对抗学习，Transformer、Attention、Nas、嵌入式开发，FPGA、软硬件协同设计，移动终端，边缘段，智能终端

2. MnasNet 创新点

多目标优化函数
多层NAS搜索空间(性能的准确性真实手机推理时间)

这种直接用落地设备的比例FLOPs, MAC, Params要更加合理

2.1 多目标优化函数

m m a x i m i z e A C C ( m ) × [ L A T ( m ) T ] w \underset{m} maximize \ \ \ \ ACC(m) \times [\frac{LAT(m)}{T}]^w mmaximizeACC(m)×[TLAT(m)]w 中 m m m 为模型， m m a x i m i z e \underset{m}maximize mmaximize 为该模型 m m m 的优化函数的目标，即使得后面的部分最大化， A C C ( m ) ACC(m) ACC(m) 为该网络的准确率， L A T LAT LAT 为该网络的实际推理速度， T T T 为期望网络的推理速度，是一个人为设定的常数， w w w 被定义为：

w = { α , i f L A T ( m ) ≤ T β , o t h e r s w=\begin{cases} \alpha,&if \ LAT(m) \leq T \\ \beta,&others \end{cases} w={ α,β,if LAT(m)≤Tothers

要想使得目标函数足够大， A C C ACC ACC 需要变大， L A T LAT LAT 小，即上面的公式表示：找到某个模型的 m m m 使得目标函数最大化。

L A T LAT LAT = Latency，即延迟 -> 模型的推理速度

我们看一下这张数据图：

我们分析一下 α \alpha α, β \beta β 这两个参数：

当我们设置 α = 0 , β = 1 \alpha=0 , \beta=1 α=0,β=1 时：
- 如果模型的 L A T LAT LAT 满足我们设置的推理速度 T ( L A T ( m ) ≤ T ) T (LAT(m) \leq T) T(LAT(m)≤T) ，那么 w = α = 0 w=\alpha=0 w=α=0 ，模型的 A C C ACC ACC 就是其本身，模型并无任何波澜，甚至想笑😂；
- 如果模型的 L A T LAT LAT 不满足我们设置的推理速度 T ( L A T ( m ) ≥ T ) T (LAT(m) \geq T) T(LAT(m)≥T)，那么 w = β = − 1 w = \beta = -1 w=β=−1，此时模型的 A C C = A C C × [ T L A T ( m ) ] ACC=ACC \times [\frac{T}{LAT(m)}] ACC=ACC×[LAT(m)T] ，很明显 [ T L A T ( m ) ] ≤ 1 [\frac{T}{LAT(m)}] \leq 1 [LAT(m)T]≤1，所以此时模型的 A C C = 惩罚系数 × A C C ACC = 惩罚系数 \times ACC ACC=惩罚系数×ACC ， A C C ACC ACC 会降低。且 L A T LAT LAT 越大，惩罚越严重，而损失函数的目的是最大化 A C C ACC ACC ，所以模型会往 L A T ≤ T LAT \leq T LAT≤T 的方向靠拢。
当我们设置 α = − 0.07 , β = − 0.07 \alpha=-0.07, \beta=-0.07 α=−0.07,β=−0.07 时：
- 如果模型的 L A T LAT LAT 满足我们设置的推理速度 T ( L A T ( m ) ≤ T ) T (LAT(m) \leq T) T(LAT(m)≤T)，那么 w = α = − 0.07 w=\alpha=-0.07 w=α=−0.07，模型的 A C C = A C C ( m ) × [ T L A T ( m ) ] 0.07 ≥ 1 ACC = ACC(m) \times [\frac{T}{LAT(m)}]^{0.07} \geq 1 ACC=ACC(m)×[LAT(m)T]0.07≥1，所以模型的 A C C ACC ACC 会被奖励，模型积极向 T ≥ L A T ( m ) T \geq LAT(m) T≥LAT(m) 的方向靠拢；
- 如果模型的 L A T LAT LAT 不满足我们设置的推理速度 T ( L A T ( m ) ≥ T ) T (LAT(m) \geq T) T(LAT(m)≥T)，那么 w = β = − 0.07 w = \beta = -0.07 w=β=−0.07，此时模型的 A C C = A C C × [ T L A T ( m ) ] 0.07 ≤ 1 ACC=ACC \times [\frac{T}{LAT(m)}]^{0.07} \leq 1 ACC=ACC×[LAT(m)T]0.07≤1，所以此时模型的 $ACC = 惩罚系数 \times ACC $， $ACC $会降低。且 L A T LAT LAT 越大，惩罚越严重。

我们会发现， α = 0 \alpha=0 α=0, β = 1 \beta=1 β=1 有点像one-hot编码；而 α = − 0.07 \alpha=-0.07 α=−0.07, β = − 0.07 \beta=-0.07 β=−0.07 则像label-smooth编码

通过右图我们也可以看出来， α = 0 , β = 1 \alpha=0, \beta=1 α=0,β=1 由于惩罚很激进，所以 A C C ACC ACC 和 L A T LAT LAT 都比较集中；而 α = − 0.07 , β = − 0.07 \alpha=-0.07, \beta=-0.07 α=−0.07,β=−0.07 没有那么激进，所以模型没有前者那么集中。

2.1.1 α , β \alpha, \beta α,β的选择

选择 α = − 0.07 , β = − 0.07 \alpha=-0.07, \beta=-0.07 α=−0.07,β=−0.07 ，优点如下：

模型的搜索空间更大
可以搜索到更加多样的帕累托最优解（Pareto Optimality)，多种速度和精度的权衡

帕累托最优（Pareto Optimality），也称为帕累托效率（Pareto efficiency），是指资源分配的一种理想状态，假定固有的一群人和可分配的资源，从一种分配状态到另一种状态的变化中，在没有使任何人境况变坏的前提下，使得至少一个人变得更好，这就是帕累托改进或帕累托最优化。多目标优化函数可以让模型在 ACC 与 LAT 之间做出tradeoff。

多目标优化函数可以让模型在 A C C ACC ACC 与 L A T LAT LAT 之间做出tradeoff。