从狗屁不通文章生成器,到机器写作之路

文章生成器

老板:3000字原创文章,明天上午10点要。

我:嗯?

老板:嗯?

我:嗯!

套话文章不会写?狗屁不通文章生成器分分钟写出一万字,保证原创、绝不重样!

https://github.com/menzi11/BullshitGenerator

image

这个生成器是人工智能吗?

虽然的确是用 Python 写的,遗憾的是它只是简单的循环随机内容选取脚本。

文章会从名人名言开始,接上没有实际意义的承接句,然后是点题句,再来个同样没有意义的转折句。然后再接名人名言、承接句、点题句……周而复始生生不息。

image

设置语句库,按顺序从中随机选取语句,再将它们组合起来。原理并不难,难得的是作者对套话文章的揣摩和创意。

如果引入人工智能,效果会更好吗?

目前让机器写作,即自动文本生成,通常采用统计方法。先用大量语料训练神经网络,再让机器根据关键词不断预测接下来的词语,最后组成句子和段落。

这样生成的文本难免有逻辑错误、无中生有等问题,效果甚至不如僵硬的模版文本生成方法。

image

由于NLP 领域中只有小部分标注过的数据,而有大量的数据是未标注,如果只用标注数据将会大大影响深度学习的性能,所以为了充分利用大量未标注的原始文本数据,需要利用无监督学习来从文本中提取特征。

有更好的解决办法吗?

为了解决以上问题,2019 年OpenAI发表了论文《Language Models are Unsupervised Multitask Learners》,作者提出了 GPT 框架。

用一种半监督学习的方法来完成语言理解任务,GPT 的训练过程分为两个阶段:

用无监督学习的 Pre-training, 充分利用大量未标注的文本数据;用监督学习的 Fine-tuning 来适配具体的具体的 NLP 任务(如机器翻译),并在 12 个 NLP 任务中刷新了 9 个记录。

image

GPT-2,其模型结构与 GPT 相比几乎没有什么变化,只是让模型变得更大更宽,并且取消了 Fine-tuning 的步骤。也就是说 GPT-2 采用了一阶段的模型(预训练)代替了二阶段的模型(预训练+微调),并且在语言模型(文本摘要等)相关领域取得了不错的效果。

GPT-2能生成质量相当不错的英文文本,原因是数据集——它的训练语料是 800 万 Reddit 网友的高质量回复。面对 Reddit 讨论很多的主题,它能给出相当不错的输出。

GPT-2与BERT的区别

GPT-2 采用的 Transformer 的 Decoder 模块堆叠而成,而 BERT 采用的是 Transformer 的 Encoder 模块构建的。两者一个很关键的区别在于,GPT-2 采用的是传统的语言模型,一次只输出一个单词(多个 token)。

下图是一个训练好的模型来 “背诵” 机器人第一法则:

image

这种效果之所以好是因为采用了自回归机制(Auto-Regression):每生成一个新单词,该单词就被添加在生成的单词序列后面,这个序列会成为下一步的新输入。这个也是 RNN 的重要思想。

image

而 BERT 采用的是双向语言模型,虽然没有自回归,但也因为获得了结合上下文单词信息的能力,从而也取得了不错的效果。下图展示了 BERT 的 Self-Attention(左)和 GPT-2 的 Masked Self-Attention(右)的区别:

image

放一个 GPT-2 和 ELMo、Bert 的参数对比图:

image

NLP领域最新研究

自然语言处理无非是目前最大的风口,从Word2Vec、ElMo、GPT、Bert,ALBERT到XLNet, 我们见证了这个领域的高速发展以及未来的前景。互联网中大量的文本以及IOT时代赋予我们的全新交互带来了这个领域的爆发。

那怎么来学习上边提到的这些知识点呢?

美国南加州大学博士,人工智能、知识图谱领域专家。前凡普金科集团(爱钱进) 的首席数据科学家、美国亚马逊和高盛的高级工程师,负责过金融知识图谱、聊天机器人、量化交易、自适应教育系统等核心项目的李文哲先生设计了对标MIT人工智能博士学位的学习路线。

image
image

以上是部分需要学习的知识点,李文哲先生还亲自研发了对应的《高阶NLP课程》,并且写了配套的书籍教程。

如果你对这门课程感兴趣,可以加我了解:\color{green}{git1024}

高阶NLP

这门课有以下几个特点:

  • 前沿 课程不断迭代更新,保证不错过任何2周之内出现的重要技术

  • 细致 导师全程现场推导,让你学习有清晰的思路,深刻理解算法模型背后推导的每个细节。更重要的是可以清晰看到各种模型之间的关系!帮助你打通六脉!

  • 论文 每周1次paper reading session,帮助你复现论文

image

你需要具备的基础

  • 编程基础:用python写过工程项目,代码量在5000行以上

  • 机器学习:系统学习过机器学习基础,比如学习过《西瓜书》

你所面临的挑战

  • 写技术文章: 我们会要求学员在知乎、github、垂直公众号等平台,输出自己的技术文章,老师和助教会帮你优化

  • Project项目:除了文章,算法工程师立命的根本--项目代码,导师更是不会放过的。每次在Gitlab上布置的作业,导师们都会带领助教团队会予以详细的批改和反馈。并逼着你不断的优化!

image

如果你对这门课程感兴趣,可以加我了解:\color{green}{git1024}

你将收获

  • 工作能力可以对标阿里P8,你现在工作中遇到的问题,也可以请教老师和助教

  • 如果你需要出国留学,美国的硕博学位我们可以帮你写推荐信

  • 如果你需要发表论文,老师和助教团队可以给你一些帮助

如果这门课程能帮到你,你可以加我了解:\color{green}{git1024}

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容