如何用深度学习框架PaddlePaddle实现智能春联

引言：

不知不觉春节假期马上到来，在今年的春节话题中，不难发现，除了七大姑八大姨亲切问候这些常规话题，人工智能的踪迹也是随处可见。AI在以全新的面貌向我们展示值得期待的未来，比如今天，我们可以用PaddlePaddle来尝试写副智能春联。过年贴春联已经成为一个传统习俗，而商场里可选的内容不多，很多人想亲自出马，可惜又不大懂平仄对仗。能不能用人工智能帮我们写春联呢？今年春节，百度、网易和央视网推出了“智能春联H5”，只要给出2-4个汉字，它就能据此“写”出一副非常具有观赏性的藏头春联。

是什么让机器拥有对春联这项技能？通过智能春联H5，“刷脸”对春联只需几秒就能实现，而这背后是一系列“不可描述”的高深技术。视觉方面，主要应用了人脸检测、属性分析、人脸融合等技术，可对图片中的人脸进行检测，分析人脸对应的年龄、性别、颜值、微笑指数、是否佩戴眼镜等信息，并通过一个词语概括人脸的特性；进而将图片中的人脸，与指定模板图中的人脸进行融合，得到新的图片。这些技术的难度在于，需要对各种角度的人脸进行检测，并且能够提取人脸的五官特征，以便能够生成与原始人脸相似，但也和模板人脸神似，且毫无违和感的新图片。

其次是自然语言处理（NLP）方面，基于百度深度学习框架PaddlePaddle先进的神经网络机器翻译技术，可以将春联创作转化为“翻译”的过程，所不同的是，翻译是在两种语言之间建立联系，而春联是在同一种语言中建立联系。当然，有些人可能会中招“彩蛋”，这些不是AI写的春联。比如你刷脸得出“戏精”这个关键词，就会获得一副“流量体质天生有戏，主角光环盖不住你”，横批“过足戏瘾”的春联，这么霸气十足可是由人工专门为你埋的梗哦！这样的春联出现在朋友圈里，毫无疑问，点赞人数会疯狂UpUpUp……

让我们尝试体验一下吧！PaddlePaddle作为深度学习框架，不仅支持深度学习算法的开发和调研，而且官方发布的模型库(https://github.com/PaddlePaddle/models)里面汇集了各种领先的图像分类、自然语言处理算法。通过这些算法，我们可以很方便地实现各种好玩有趣的功能，比如：智能春联。

智能春联有各种玩法，可以根据用户输入的关键词，生成一副对联，实现定制化的专属春联，比如：用户输入“好运”，百度的人工智能春联生成程序就会创作出上下联为“一年好运满园锦绣，万众同心遍地辉煌”、横批为“春光满园”的春联；用户输入自己的名字，智能春联生成程序可以把自己的名字藏在生成的春联中，形成个性化非常强的春联，用来发送给自己的朋友；甚至用户不需要输入关键词，只需要拍一张照片，然后就可以根据这张照片生成图文并茂的春联。那这些功能都是怎么做到的呢？这里我们给大家介绍一下如何用PaddlePaddle开发一套专属的智能春联生成系统。

一、我们的系统需要先做到能理解图像的内容，比如：用户输入的到底是什么？

这是一个典型图像分类的问题，图像分类是根据图像的语义信息对不同类别图像进行区分，是计算机视觉中重要的基础问题，是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层视觉任务的基础，在许多领域都有着广泛的应用。在深度学习时代，图像分类的准确率大幅度提升，PaddlePaddle在经典的数据集ImageNet上，开放了常用的模型，包括AlexNet、VGG、GoogLeNet、ResNet、Inception-v4、MobileNet、DPN(Dual Path Network)、SE-ResNeXt模型，同时也开源了训练的模型方便用户下载使用。基于这些图像分类算法，可以知道用户输入的类别，用类似的技术，还可以知道一些更具体的属性，比如：对于一张人脸的照片，可以知道性别、年龄这些属性。有了图片的这些特征和属性之后，我们可以进行关键词扩展。比如：对于年轻的女性可以联想出一些关键词“风华绝代”、“秀丽”、“端庄”等等，对于小孩可以联想出关键词“活泼可爱”、“机智”、“勇敢”等等。

二、拿到这些关键词之后，接下来的任务是什么？

根据一个关键词，自动生成一副相关的春联。春联的生成过程可以分成2个步骤，第一个步骤是从关键词生成一副上联。然后再根据上联生成一副下联。那么如何实现这2个生成步骤呢？我们发现这个任务跟机器翻译很相似，可以用类似的技术来实现。机器翻译（Machine Translation, MT）是用计算机来实现不同语言之间翻译的技术。被翻译的语言通常称为源语言（Source Language），翻译成的结果语言称为目标语言（Target Language）。机器翻译即实现从源语言到目标语言转换的过程，是自然语言处理的重要研究领域之一。PaddlePaddle的模型库(PaddlePaddle/models)里面，提供了两个机器翻译算法的实现，一个是经典的基于LSTM的Seq2Seq模型，另一个是最新的基于Attention的Transformer模型。类比于机器翻译任务，可以把智能春联输入的关键词看作是机器翻译里的源语言句子，然后把根据关键词生成的上联，看作是机器翻译里的目标语言译文。相较于此前 Seq2Seq 模型中广泛使用的循环神经网络（Recurrent Neural Network, RNN），使用（Self）Attention 进行输入序列到输出序列的变换主要具有以下优势：计算复杂度更小、计算并发度更高、更容易学到长距离的依赖关系。我们推荐使用翻译效果更好的Transformer模型，通常Transfomer可以得到比Seq2Seq更好的翻译效果。

图2. Transformer模型核心组件Multi-Head Attention

def scaled_dot_product_attention(q, k, v, attn_bias, d_key, dropout_rate):

"""

Scaled Dot-Product Attention

"""

scaled_q = layers.scale(x=q, scale=d_key**-0.5)

product = layers.matmul(x=scaled_q, y=k, transpose_y=True)

if attn_bias:

product += attn_bias

weights = layers.softmax(product)

if dropout_rate:

weights = layers.dropout(

weights,

dropout_prob=dropout_rate,

seed=ModelHyperParams.dropout_seed,

is_test=False)

out = layers.matmul(weights, v)

return out

图3. Scaled Dot-Product Attention的PaddlePaddle代码实现

三、选定了使用的生成算法之后，如何让机器能够学会写春联呢？

接下来就需要给系统准备训练数据了，所谓“熟读唐诗三百首”，对于机器来说，需要见到大量的春联，才能够学会春联里用词和用字的规律。我们可以去互联网上找到大量的春联数据，比如：“爆竹传吉语”“腊梅报新春”等等，然后把它们作为训练数据，通常需要几万条。有了这些数据后，我们从上联里抽取出关键词，“爆竹”-> “爆竹传吉语”，训练一个从关键词到上联的生成模型；然后我们再用“爆竹传吉语”“腊梅报新春”训练一个从上联到下联的生成模型。

准备好训练数据后，就可以启动Transformer模型的训练了，可以参考PaddlePaddle/models/neural_machine_translation/transformer里的命令。这个是英德翻译的例子，在做关键词到上联的生成时，需要把训练数据替换成“关键词”到对应“春联上联”的数据；在做上联到下联生成时，需要把训练数据替换成“春联上联”到对应“春联下联”的数据。

python -u train.py \

--src_vocab_fpath gen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \

--trg_vocab_fpath gen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \

--special_token '<s>''<e>''<unk>' \

--train_file_pattern gen_data/wmt16_ende_data_bpe/train.tok.clean.bpe.32000.en-de \

--token_delimiter ' ' \

--use_token_batch True \

--batch_size 4096 \

--sort_type pool \

--pool_size 200000

训练完成后就可以得到一个关键词到上联的生成模型，还有一个从上联到下联的生成模型。注意生成过程，需要执行2次Transformer的预测过程，先输入一个关键词，生成上联；然后输入生成的上联，再生成一个下联。具体生成参考以下命令。

python -u infer.py \

--src_vocab_fpath gen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \

--trg_vocab_fpath gen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \

--special_token '<s>''<e>''<unk>' \

--test_file_pattern gen_data/wmt16_ende_data_bpe/newstest2016.tok.bpe.32000.en-de \

--token_delimiter ' ' \

--batch_size 32 \

model_path trained_models/iter_100000.infer.model \

beam_size 4 \

max_out_len 255

根据以上PaddlePaddle官方模型库提供的一些技术，就可以实现一个好玩的智能春联系统了。当然还可以做很多有意思的扩展，比如，可以增加一些古诗词作为训练语料，使得生成的春联内容更为丰富；藏头春联，把关键词按字分开，通过Grid Beam Search的技术，保证生成的关键词会在春联特定的位置出现。

感兴趣的朋友，可以收集好春联训练语料，便可尝试实现一个好玩的智能春联系统了。

Github地址：

https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleNLP/neural_machine_translation/transformer/README_cn.md

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345

如何用深度学习框架PaddlePaddle实现智能春联

推荐阅读更多精彩内容