基于田字格变换的自监督汉字字体生成

发布时间：2022-01-14 10:46所属平台：学报论文发表咨询网浏览：次

　　摘要近年来,汉字自动生成因其在艺术字体生成、个性化字体设计,以及书法作品生成等问题中的广泛应用而引起了大量关注.当前主流的汉字字体自动生成方法主要基于非配对数据和深度生成模型如生成对抗网络等.然而,这些主流的深度汉字字体生成方法通常忽略了汉字本身的结

　　摘要近年来,汉字自动生成因其在艺术字体生成、个性化字体设计,以及书法作品生成等问题中的广泛应用而引起了大量关注.当前主流的汉字字体自动生成方法主要基于非配对数据和深度生成模型如生成对抗网络等.然而,这些主流的深度汉字字体生成方法通常忽略了汉字本身的结构信息,导致在提取特征时缺乏相应指导,且在训练过程中容易出现模式坍塌现象,从而在生成汉字质量方面亟待进一步提高.针对该问题,本文受汉字田字格书写的启发,提出一种基于田字格变换的自监督方法来指导网络模型提取更高质量的特征,进而提升汉字生成效果,需要特别指出的是所设计的田字格几何变换无需改变现有模型网络且不增加任何人工成本,因此潜在可嵌入许多已有深度汉字字体生成模型.所提自监督学习方法的有效性在一系列实验中得到验证.实验结果表明,在嵌入所提的自监督学习任务后,当前流行的基于CycleGAN的深度汉字生成模型在生成效果和训练稳定性等方面都有较大提升,并且模式坍塌现象得到改善.与现有其他深度汉字字体生成方法相比,所提基于田字格几何变换的自监督方法提高了生成汉字质量,并且在生成汉字内容准确率、FID值、L1损失和IOU这4个评价指标上均有一定提升.

　　关键词汉字字体生成,自监督学习,生成对抗网络,深度学习,田字格变换

汉字文化

　　1引言近年来,由于汉字字体生成在书法作品生成[1]、艺术字体设计[2]、个性化字体设计[3],以及珍贵文献修复等问题中的重要应用而引起了广泛关注[3-9].汉字字体生成主要是通过学习不同汉字字体(如楷体与“王羲之体”等)之间的潜在映射关系,从而实现从一种字体到另一种字体的自动转换.目前汉字字体生成方法大体可分为两大类.第1类方法[3-5]主要是基于汉字的显式特征如汉字的结构、偏旁部首和笔画等,以及利用传统的机器学习方法.第2类方法[6-10]主要是基于深度学习[11],特别是生成对抗网络(generativeadversarialnetworks,GAN)[12].

　　第1类汉字字体生成方法在过去二十年得到广泛关注[3-5].这类方法的核心思想是“分解再重组”,即首先将汉字进行拆分并提取汉字的层次结构、笔画和部首等局部显式特征,之后通过传统机器学习算法进行重组从而形成新的汉字.如在文献[4]中,作者首先利用汉字生成包含骨架、笔画、关键点和连接三角形的形状模板,然后将两种字体的字符分解为笔画,建立一个准确的对应关系,最后通过传统机器学习方法进行重组.在文献[5]中,作者提出一种基于小样本的个性化手写汉字字体生成方法,其基本思想是首先将用户提供的少量汉字样本切割为偏旁与部首,之后通过贪婪算法进行重组形成新的汉字.然而,需要注意的是:

　　这类传统汉字字体生成方法通常是基于人工提取的特征,导致需要较高的人力成本.同时,由于这类方法在生成过程中主要关注汉字的局部显式特征而忽略汉字整体的协调性,导致通常需要一些后处理来调整生成汉字的局部结构,而这些后处理也将耗费大量的人力和时间成本.随着深度学习的兴起[11],特别是生成对抗网络的提出与发展[12],基于深度生成模型的汉字字体自动生成方法在近年来得到广泛关注[6∼9].

　　区别于第1类传统汉字字体生成方法,基于深度生成模型的汉字字体生成方法主要利用深度神经网络自身强大的表示与逼近能力,将特征提取与模型选择合二为一,从而可实现“端到端的训练”.该类方法的核心思想是把汉字看成图像,从而把汉字字体生成任务视为一种图像风格转换任务,进而可有效利用在图像风格转换领域中发展出来的新技术来处理汉字字体生成任务.如在文献[6]中,作者将在图像风格转换领域中发展出来的pix2pix模型[13]拓展到汉字字体自动生成领域,并提出zi2zi生成模型.zi2zi模型在生成汉字的过程中无需人工预处理或后处理,从而可实现端到端的训练.

　　然而,zi2zi模型的训练是基于配对数据集,即在不同的汉字字体域中每个汉字都存在一一对应关系,该配对数据集的构建通常需要较高的人力成本.为了解决这一挑战,文献[7]基于在图像风格转换领域中发展出来的CycleGAN(cycle-consistentgenerativeadversarialnetwork)模型[14],提出一种有效的基于非配对数据集的汉字字体生成方法.尽管这些基于深度生成模型的汉字字体生成方法[6,7]可有效实现字体自动生成,我们熟知以生成对抗网络为代表的深度生成模型在训练中存在模式坍塌现象,即针对不同的输入,生成器产生相同的模式[12],从而显著降低生成汉字质量以及多样性.

　　此外,这类方法仅依赖深度神经网络自身提取特征的能力,而忽略了汉字一些独有的特征如部首和笔画等,从而在提取特征时缺乏指导与针对性.为了解决上述问题,一些新的方法在近期被发展出来[8-10].文献[8]提出一种同时关注汉字内容与整体风格的生成对抗模型用于实现汉字字体自动生成.具体地,该方法基于配对数据集,通过采用两个网络分别提取汉字内容与风格信息实现汉字字体的自动生成.文献[9]基于非配对数据集和生成对抗网络,通过引入一个新的网络来额外提取汉字的骨架等结构信息,从而实现高质量的汉字自动生成.

　　在最新的文献[10]中,作者通过引入一种简单的单字节笔画编码来指导深度生成模型有效保持汉字的模式信息,从而可显著缓解深度生成模型训练中存在的模式坍塌问题并能够更好地保持笔画信息.然而,上述方法要么通过增加额外的网络来自动提取汉字的某种结构信息[8,9],要么通过人工编码来指导网络提取一些重要特征[10],这将增加模型网络的复杂度、训练时间或人力成本.在初学汉字书写的过程中,我们都是借助“田字格”来实现书写规范.由此可以看出,汉字的田字格书写从一定程度上反映了汉字的结构信息,如上下结构、左右结构等.

　　受此启发,本文提出一种基于田字格变换的自监督汉字字体自动生成方法来解决上述指出的深度生成模型网络在提取特征时缺乏指导的挑战.所提方法的基本思想是通过引入一个田字格几何变换重构的自监督任务来帮助模型网络更好地提取特征,进而提升汉字字体的生成效果.需要特别指出的是,区别于现有其他利用汉字信息的深度生成方法[8∼10],所提基于田字格变换的自监督学习方法无需改变现有模型网络且不增加任何人工成本.本文的主要贡献可归纳如下：

　　(1)本文根据汉字结构如上下结构、左右结构等设计4种田字格几何变换方式,并将该几何变换重构的自监督任务嵌入到当前流行的CycleGAN生成模型[7]用于帮助网络更好地提取特征,从而提高汉字生成效果.所提基于田字格的自监督生成方法无需改变现有网络模型且不增加任何人工成本,从而潜在可嵌入至其他深度汉字字体生成模型中,如基于小样本的汉字生成模型[15].(2)所提方法的有效性在10种不同汉字字体数据集上得到验证.

　　这10种字体包括手写体、简舒体、华文琥珀体、汉仪凌波体、仿宋体、汉仪娃娃体、汉仪细圆体、方正经黑手写简体、楷体和黑体.实验结果表明,在嵌入本文所提的田字格变换重构的自监督任务后,CycleGAN在内容准确率及风格多样性等方面都有显著提升.同时,CycleGAN训练中存在的模式坍塌现象也得到极大改善.

　　此外,与现有其他深度生成方法相比,所提自监督方法提高了生成汉字质量,并且在生成汉字内容准确率等4种评价指标上均有一定提升.本文剩余部分结构如下:在第2节中,简要介绍一些预备知识,主要包括生成对抗网络和自监督学习;在第3节中,首先介绍所设计的田字格几何变换,之后描述所提自监督方法;在第4节中,描述实验设置及结果;在第5节中,对论文进行总结.2预备知识本节将简要介绍后续需要用到的生成对抗网络模型以及现有的自监督学习方法.

　　2.1生成对抗网络及其变种

　　生成对抗网络[12]是当前最为流行的深度生成模型之一.生成对抗网络由两个部分组成:生成器和判别器,其中生成器的主要任务是生成尽可能逼真的假样本,而判别器的主要任务是判定生成样本和真实样本的真伪,并将输出的结果反馈给生成器.

　　为了解决生成对抗网络难以生成满足指定条件样本的不足,文献[16]提出一种条件生成对抗网络(conditionalgenerativeadversarialnetwork,cGAN).其主要思想是在GAN模型基础上,针对输入样本添加一个代表其类别的条件编码.具体地,cGAN生成器的输入除了随机噪声外还包括生成样本的指定类别,而判别器除了需要判断生成样本与真实样本的真伪之外,还需要鉴别输入样本所属的类别.

　　然而,cGAN中使用的条件编码通常是人工制作的,导致训练模型的数据集制作成本过高.为了缓解这一问题,文献[13]提出一种基于配对数据集的生成模型(称为pix2pix),但配对数据集的构建仍非常困难.为了解决配对数据集难以获取的问题,文献[14]提出一种基于非配对数据集的生成对抗网络模型,称为循环生成对抗网络(CycleGAN).区别于pix2pix模型,CycleGAN的生成器除了需要生成具有目标风格的样本之外,还需要将具有目标风格的样本重构回具有源风格的样本来作为某种“伪配对数据”.

　　2.2自监督学习

　　作为重要的无监督学习模型,经典的生成对抗网络因仅利用自身的网络表示能力来提取特征导致在汉字字体生成任务上存在一些不足,如模式坍塌现象等[10].虽然该问题可通过利用带有标注的训练样本来有效缓解,但是数据标注的成本相对较高.为了解决标注数据集获取困难的问题,自监督学习(self-supervisedlearning)便应运而生并在近年来引起广泛关注[17,18].

　　自监督学习的基本思想是通过设计辅助任务来帮助模型网络提取更有用的特征,从而提高模型网络在下游任务中的性能.例如,在文献[17]中,作者通过引入图像旋转变换重构的辅助任务来帮助深度卷积神经网络模型更好地提取图像特征,从而能够更好地理解图像中描述对象的概念,如位置、类型和姿态等.在文献[18]中,作者通过设计随机抽取局部像素块识别的辅助任务来帮助模型网络提取更好的图像内容特征,从而提高模型在下游生成任务中的性能.然而,现有自监督学习方法[17,18]都是针对图像生成任务,而据我们所知针对汉字字体生成这样一个“人造图像”生成任务仍缺乏有效的自监督学习方法.

　　3基于田字格变换的自监督汉字字体生成方法

　　本节提出一种基于田字格变换的自监督汉字字体生成方法.所提方法的核心思想是在汉字字体生成任务中,通过设计一个田字格几何变换重构的辅助任务来帮助深度生成模型提取更有用的特征,从而提升深度生成模型在汉字字体生成任务中的性能. 4实验在本节中,我们设计一系列实验用于验证本文所提方法的有效性.实验主要分为两部分:在第1部分中,我们设计一系列实验来说明嵌入的田字格几何变换重构自监督任务的有效性;在第2部分中,我们通过与现有主流方法进行比较说明所提方法的有效性.

　　4.1实验设置

　　(1)数据集.在本文实验中,主要使用10种不同字体的数据,其中包含1个手写体(Handwritting)、3个印刷体(即仿宋体(Fangsong)、楷体(Kai)和黑体(Hei)),以及6个伪手写体(即舒体(Shu)、华文琥珀体(Huawen)、汉仪凌波体(Lingbo)、汉仪娃娃体(Doll)、汉仪细圆体(Xiyuan)和方正经黑手写简体(Fangzheng)).第1类手写体数据来自CASIA的离线HWDB1.1手写数据集1).该手写数据集是由300个人参与构建.针对3755个常见汉字,每人分别写一遍作为数据采集.

　　因此,该手写数据集大小总共为300×3755.为了构建本实验所使用的手写字体数据集,针对每个汉字,从相应的300个样本中随机选一个样本作为该汉字的样本,从而我们所构建的手写字体数据集大小为3755.对于其他字体数据集的构建,我们都是先从互联网上爬取2),之后通过TTF工具自动生成.各字体数据集相应大小.每个汉字图片的大小为256×256×3.

　　在实验中,针对每个字体数据集,利用80%数据用于训练,剩余20%用于测试.(2)网络结构和优化器.本文模型所采用的网络结构与CycleGAN[14]完全一致.具体地,生成器包含1个下采样模块、9个残差模块和1个上采样模块,其中下采样模块包含2个卷积层,每个残差模块包含2个卷积层,以及上采样模块包含2个去卷积层.

　　判别器包含6个隐层卷积层以及输出模块中的2个卷积层.其中BN是批量归一化简称,CONV是卷积结构,ReLU为激活函数,h和w分别表示输入图片的高和宽,N为网络层神经元的个数,K表示卷积核的大小,S表示步长,P表示padding大小.在本实验中,我们采用当前流行的Adam算法[19]作为优化器,其中算法参数设置为(0.50,0.999),学习率固定为0.0002,批量样本大小设置为2,惩罚参数λcyc和λtian由经验调参来确定.

　　(3)评价指标.为了评价所提方法的有效性,我们采用如下4种常用的评价指标:(a)生成内容的准确率[7].该指标主要用于度量生成汉字内容的top-1准确率,准确率越高则代表生成样本的质量越好.具体地,我们利用预训练汉字识别模型HCCR-GoogleNet[20]的识别率作为模型生成样本的准确率.(b)FID(Frechetinceptiondistance)[21].

　　该指标主要用于度量生成样本分布与真实样本分布之间的距离,FID值越小则表示生成样本分布与真实样本分布更接近,生成的样本多样性更优.本实验采用500个样本进行FID值测量.(c)L1损失[22].该指标主要来衡量生成样本与真实样本在像素意义下的L1损失,L1损失越小则说明生成样本与真实样本越接近.(d)IOU(intersectionoverunion)[11].该指标计算的是生成样本与真实样本之间的交集与并集的比值,主要是用于度量它们之间的重合度,IOU越大表示生成样本与真实样本越接近.

　　(4)对比模型.本文主要以基于CycleGAN的汉字生成模型[7],Chinesetypographytransfer(CTT)[23]和zi2zi[6]作为对比模型,其中CTT与zi2zi基于配对数据,而CycleGAN[7]与本文所提模型基于非配对数据.除了这些对比模型,本文还与图像处理中两种流行的自监督方法进行对比,分别是基于旋转角度分类的自监督方法[17]和基于判别局部像素块归属分类的自监督方法[18].

　　4.2田字格变换重构的自监督任务的有效性本小节设计一系列实验来验证本文所提的基于田字格变换重构自监督任务的有效性,其中包括提高生成效果、改善模式坍塌和提升训练稳定性等.

　　5结论

　　本文提出了一种基于田字格变换重构的自监督方法,帮助深度生成模型网络更好地提取特征,进而提升汉字生成效果.所提的自监督方法无需改变现有模型网络结构且不增加任何人工成本,因此较为容易嵌入现有的深度生成模型中.所提基于田字格变换的自监督方法的有效性在一系列的实验中得到验证.实验结果表明:与基准模型CycleGAN相比,在嵌入所设计的自监督任务后,CycleGAN在生成汉字质量和训练稳定性等方面都有显著提升,并且原模型的模式坍塌现象得到改善;与现有主流的深度汉字字体生成方法相比,本文所提的方法在生成内容准确率、FID、L1损失和IOU等指标上也都有一定提升,生成汉字质量更高,尤其在笔画完整度上表现更好.

　　参考文献

　　1ZhaoB,TaoJ,YangM,etal.Deepimitator:handwritingcalligraphyimitationviadeepattentionnetworks.PatternRecogn,2020,104:1070802LinJW,WangCY,TingCL,etal.FontgenerationofpersonalhandwrittenChinesecharacters.In:ProceedingsofInternationalConferenceonGraphicandImageProcessing,Beijing,2014.1–6

　　3PengL,XuS,LinS.AutomaticgenerationofpersonalizedChinesehandwritingcharacters.In:Proceedingsofthe4thInternationalConferenceonDigitalHome,Guangzhou,2012.109–116

　　4LianZ,XiaoJ.AutomaticshapemorphingforChinesecharacters.In:ProceedingsofSIGGRAPHAsiaTechnicalBriefs,Singapore,2012.1–4

　　5LinJW,HongCY,ChangRI,etal.CompletefontgenerationofChinesecharactersinpersonalhandwritingstyle.In:Proceedingsofthe34thInternationalPerformanceComputingandCommunicationsConference,Nanjing,2015.1–5

　　6TianY.Zi2zi:masterChinesecalligraphywithconditionaladversarialnetworks.2017.https://github.com/ka-onashityc/zi2zi

　　作者：曾锦山,陈琪,王明文

转载请注明来源。原文地址：http://www.xuebaoqk.com/xblw/7277.html

《基于田字格变换的自监督汉字字体生成》

基于田字格变换的自监督汉字字体生成

学报论文发表期刊

热点学报

学报问题

热点问题