【论文】FaceNet: A Unified Embedding for Face Recognition and Clustering

Jun 6, 2020· · 1 min read

论文题目：FaceNet: A Unified Embedding for Face Recognition and Clustering

作者：Florian Schroff、Dmitry Kalenichenko、James Philbin

会议/时间：2015

链接：原文链接

论文目标

学习一种直接的从面部图片到欧氏空间向量的映射，用于人脸识别、分类和聚类等工作。欧氏空间向量之间的距离表示图片内人脸的相似度。

本文思路/解决方案

通过引入triplet loss和online triplet mining method，直接学习得到特征向量，具体是对于深度神经网络的输出，经过L2Norm后得到向量，并使用Triplet loss优化。本文作者使用的两种深度网络分别来自Zeiler&Fergus Model和Szegedy’s Inception Model，将其视作黑箱并训练。

文中假设相同的人输入的数据分布在欧氏空间内的一个超平面，当给定一组triplet（包括锚anchor、正例positive、反例negative，其中anchor和positive是同一类）时，则有

$$||f(x_i^a)-f(x_i^p)||^2_2+\alpha < ||f(x_i^a)-f(x_i^n)||^2_2$$

，即正例的距离与反例距离的差值不小于给定的边界值$\alpha$。从而得到优化目标为

$$triplet\ loss = \sum\limits_{i}^{N}\left[||f(x_i^a)-f(x_i^p)||^2_2+\alpha - ||f(x_i^a)-f(x_i^n)||^2_2 \right]_+$$

。

在训练过程中，需要选择合适的数据计算损失函数，如果选择简单的triplet会导致收敛缓慢，训练效果较差。因此在训练过程中，对于每一个给定的数据

$$ x_i^a $$

，选择距离最大的正例(

$$ \arg\max_{x_i^p}||f(x_i^a)-f(x_i^p)||^2_2 $$

)和距离最小的反例(

$$ \arg\min||f(x_i^a)-f(x_i^n)||^2 $$

)，称为hard取样。

在实际的训练过程中，获得满足要求的triplet是不可能的，两种可行的方法包括：offline方式（每次训练N步后计算距离并选择triplet）、online方法（在每一个batch中选择满足要求的数据）。选择后者时需要注意保证每一个batch中都必须含有正例和反例。

当在训练开始时就选择hard采样时，会导致模型进入局部最优，因此提出了semi-hard取样，即选择那些满足

$$||f(x_i^a)-f(x_i^p)||^2_2 < ||f(x_i^a)-f(x_i^n)||^2_2$$

的反例数据组成triplet进行训练。

总结

提出了triplet loss，便于直接训练一个图像到向量的映射。
分析了选择triplet的方式，使用semi-hard策略解决hard策略的缺点。

Last updated on Jun 6, 2020

【论文】FaceNet: A Unified Embedding for Face Recognition and Clustering

论文目标

相关工作

本文思路/解决方案

总结