给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码( 二 )


FacebookAI提出了TSB(TextStyleBrush)架构 。 该架构以自监督的方法进行训练 , 没有使用目标风格监督 , 只使用了原始风格图像 。 该框架可以自动地寻找图片真实风格 。 在训练时 , 它假设每个词框有真实值(出现在框中的文本);推理时 , 它采用单一源样式图像和新内容(字符串) , 并生成带有目标内容的源样式的新图像 。
给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码
文章图片
该生成器架构是基于StyleGAN2模型 。 然而 , 它有两个重要的限制:
首先 , StyleGAN2是一个无条件模型 , 这意味着它通过对一个随机的潜在向量进行采样来生成图像 。 但TextStyleBrush必须要生成指定文本的图像 。
其次 , TextStyleBrush生成的文本图像风格不受控制 。 文本风格涉及全局信息(例如调色板和空间变换) , 以及精细的比例信息组合(例如单个笔迹的细微变化 。
研究者通过内容和风格表征来调节生成器以解决上述限制 。 通过提取特定于层的风格信息并将其注入到生成器的每一层来处理文本风格的多尺度特性 。 除了以期望的风格生成目标图像外 , 生成器还生成表示前景像素(文本区域)的软蒙版图像 。 通过这种方式 , 生成器可以控制文本的低分辨率和高分辨率细节 , 以匹配所需的输入风格 。
给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码
文章图片
该研究还引入了一种新的自监督训练准则 , 该准则使用字体(typeface)分类器、文本识别器和对抗式鉴别器来保留源风格和目标内容 。 首先 , 研究者通过使用预训练的字体分类网络来评估生成器捕获输入文本风格的能力 。 另外 , 他们使用预训练文本识别网络来评估生成图像的内容 , 以反映生成器捕获目标内容的效果 。 总而言之 , 这种方法能够对训练进行有效的自监督 。
实验
表2提供了评估不同损失函数、风格特征扩展以及训练TSB时mask的作用消融实验结果 。 实验结果显示 , TextStyleBrush生成的图片在MSE(合成误差)上大幅降低 , PSNR(峰值信噪比)、SSIM(结构相似性)均获得了提高 。
给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码
文章图片
表3是在三种数据集图像上测得的文本识别准确率 。 实验结果显示 , TSB的识别效果最好 , 在IC13上的识别准确率为97.2% , IC15上的识别准确率为97.6% , TextVQA上的识别准确率为95.0% 。
给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码
文章图片
表4提供了生成的手写文本的定量比较 , 将TSB方法与Davis等人[14]专门为生成手写文本而设计的SotA方法进行了比较 。 FID分数越低 , 生成质量越好 。 显然 , TSB方法优于以前的工作 。
给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码
文章图片
TextStyleBrush证明了AI在文字上面可以比过去更加灵活、准确地识别 , 但这项技术仍然存在许多问题 , 如无法模仿金属表面的字符或彩色字符等 , Facebook希望这项研究能继续扩展 , 突破翻译、自主表达和deepfake研究之间的障碍等 。
给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码
文章图片
失败案例 。
参考链接:
https://ai.facebook.com/blog/ai-can-now-emulate-text-style-in-images-in-one-shot-using-just-a-single-word