【论文】DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement

Aug 22, 2021· · 1 min read

论文题目：DE-GAN： A Conditional Generative Adversarial Network for Document Enhancement

作者：Mohamed Ali Souibgui and Yousri Kessentini

会议/时间：arXiv

链接: arXiv

论文目标

文档图像中通常会拥有比较多的退化（Degradation），因此在使用OCR系统处理文档图像的时候效果比较差，论文通过生成对抗网络（GAN）实现了一个文本增强模型，在例如去除模糊、去除污渍、去除水印、二值化等多种文档增强人物上具有较好的效果。

在通常的文档去除污渍、去除水印等任务中，对于这些水印/退化条件缺少先验知识，特别是污渍将字符完全覆盖的情况。因此很难用传统的方法去除。近年来生成模型在应对缺失数据、多模态任务中取得非常好的结果。因此在论文中，首次在文档增强任务中使用了生成对抗网络来解决二值化和去除水印的任务。而且论文中还提出了密集水印/印章移除任务。

本文方法

首先将文档增强任务定义为图像到图像的转换任务。即给定原始图像生成对应的干净的图像。在最简单的GAN网络中，给定随机抽样$z$，生成图像$y$。在conditional GAN网络中，给定了一个另外的输入参数$x$，生成器依据输入$x$和随机向量$z$生成$y$，即 $G\_{\varphi\_G}:\{x,z\}\to y$，判别器依据输入$x$判别$y$的真伪，即 $D\_{\varphi\_D}: \{x, y\}\to P(real)$。

在最简单的conditional GAN网络中，给定输入为$I^W$，Ground Truth为 $I^{GT}$，模型的对抗损失如下。即最小化判别器分类的损失。 $$\begin{aligned} L_{GAN}(\varphi_G, \varphi_D) &= \mathbb{E}_{I^W, I^{GT}}\log[D_{\varphi_D}(I^W, I^{GT})] \\ &+ \mathbb{E}_{I_W} \log[1 - D_{\varphi_D}(I^W, G_{\varphi_G}(I^W))] \end{aligned}$$

在论文中，为了加速模型的训练，添加了额外的辅助损失指导模型的训练。公式如下。（添加了生成器输出结果和Ground Truth之间的交叉熵损失？）

$$\begin{aligned} L_{log}(\varphi_G) &= \mathbb{E}_{I^{GT}, I^W}[-(I^{GT}\log(G_{\varphi_G}(I^W)) \\ &+ ((1-I^{GT})\log(1-G_{\varphi_G}(I^W))))] \\ L_{net}(\varphi_G, \varphi_D) &= \min_{\varphi_G}\max_{\varphi_D}L_{GAN}(\varphi_G, \varphi_D) + \lambda L_{log}(\varphi_G) \end{aligned}$$

模型整体结构如下。