【论文】Deep Learning Face Representation from Predicting 10000 Classes

Jun 6, 2020· · 1 min read

论文题目：Deep Learning Face Representation from Predicting 10,000 Classes

会议：CVPR2014

作者：Yi Sun、Xiaogang Wang、 Xiaoou Tang

链接：原文链接

论文目标

通过深度神经网络学习高层次的图像特征并用于身份验证。

本文思路/解决方案

通过深度卷积神经网络学习得到特征表示并用于面部识别。其中的特征表示通过深度神经网络的最后一层得到，称为DeepID（Deep Hidden Identity Features）。这一特征表示被用于最后的多分类识别任务，保证了卷积神经网络可以充分的学习到每个人的特征，具有更好的泛化能力。

网络结构如下

通过跨层连接，保证DeepID可以获取到更多的信息，学习到更高级的特征（Conv4之后的特征更加高级/抽象）。跨层连接使用公式

$$y_i = \max(0, \sum\limits_{i}x_i^1\omega_{i,j}^1+\sum\limits_{i}x_i^2\omega_{i,j}^2+b_j)$$

实现，其中的$\omega$为权重。最终使用softmax层作为预测输出。

特征提取部分的具体工作方式：每一张照片，划分为10个位置，每个位置选取三个不同的输入规模，每个照片得到RGB和灰度图，即每一条数据得到$10\times3\times2=60$条数据（patches）作为输入，训练60个网络。对于每一个卷积网络，给定数据，将其翻转后，得到两个向量作为输出，总的输出数据量为$160*2*60$。

在面部识别的预测中，使用联合贝叶斯方法。同时也测试了使用深度神经网络进行预测。

结果

在CelebFaces上训练，在LFW上测试，达到了SOTA的效果。

测试中可以发现添加了跨层连接的模型具有更低的验证错误率和更高的预测正确率。

使用更多的patch与仅使用一张图片作为输入相比也具有更高的识别准确率。

与现有的识别算法比较，具有更高的识别准确率（97.45%）。

总结

提出了跨层连接（multi-scale），可以显著提高识别准确率。
使用同一张照片的多个patch作为输入，包括不同的位置，不同的大小，不同的通道（RGB、灰度），并将60个网络的输出合并作为预测的依据，可以提高识别准确率。
通过增加识别的人数（多分类的输出）可以使得特征网络学习到关键的信息。

Last updated on Jun 6, 2020

【论文】Deep Learning Face Representation from Predicting 10000 Classes

论文目标

相关工作

本文思路/解决方案

结果

总结