[转载]验证码之父:Luis von Ahn

今天看到了一篇文章,介绍了一位神人,发明了验证码,并做了改进,还发明了高效学习外语的平台。我们一起来看看他的杰作吧。

路易斯·冯·安(英语:Luis von Ahn,1979年-),又译为路易斯·范·安、路易斯·梵阿纳,生于危地马拉,企业家与计算机科学家,是卡内基梅隆大学计算机科学系的副教授。他是CAPTCHA(http://www.captcha.net/) 的发明者之一,他也创立了reCAPTCHA公司,并于2009年将这家公司出售给Google。


验证码

看到CAPTCHA这个单词你熟悉么?嘿嘿,估计我们在编程的时候见过。其实它不是一个单词,它是一个缩略词,它是取 Completely Automated Public Turing Test To Tell Computers and Humans Apart 这几个单词的首写字母组成的(其实我也是刚刚搜出来的)。它翻译出来其实还挺拗口的,叫做全自动区分计算机和人类的图灵测试。

CAPTCHA其实在我们的网络生活中是随处可见,几乎每天都会碰到它。基本上我们所有的网站登录界面都会用到它。没错!它就是『验证码』。所以,验证码还有这个洋气的名字,叫做『全自动区分计算机和人类的图灵测试』。说到这个验证码,我们不得不来了解一下这个验证码背后的男人——Luis von Ahn。

验证码背后的男人

Luis von Ahn是一位卡内基梅隆大学的副教授,他其实最开始是研究加密的,后来开始研究如何区分在网络中人和计算机。

你可以想象一下在Luis von Ahn之前没有验证码的日子吗?买票的网站因为没有验证码几万张票被黄牛通过刷票程序全部买走?网站被人一次性注册几百万个垃圾帐号,然后产生各种垃圾信息,还可以操纵投票,使网站失去了公正性。

这还只是举了简单的几个例子。没有验证码的日子网络世界一片狼藉。Luis von Ahn觉得自己应该可以做点什么,要知道他是研究如何区分在网络中人和计算机的。上面两个例子就是因为有人使用计算机非法的对网站进行操作。

于是Luis von Ahn就想如果我能把人和计算机分开就好了,刚好他的研究里面就有一个方法可以区分计算机和人,那就是人可以用肉眼很容易的识别出图片里面的东西,但是计算机不能。Luis von Ahn就利用这个特性发明了CAPTCHA,也就是『全自动区分计算机和人类的图灵测试』,也就是『验证码』。

那么验证码是怎么让杜绝那些计算机对网站进行非法操作呢?很简单,首先计算机是可以像人一样去模拟登录的,但是当它碰到验证码的时候,计算机就傻眼了,它不认得这个验证码里面是什么东西,但是人的话就一眼认出来,然后输入验证码,就通过啦。就这么简单。人和计算机就被区分开来了。这个小小的发明为世界上的所有网站拦截了大部分的恶意注册和垃圾信息。

游戏还可以这样玩

其实在这之前 Luis von Ahn还有一个研究领域就是如果利用人在上网过程的中作用,说简单点就是如何让人在上网的同时不知不觉的还完成了一些不可思议的事情。于是他基于这个研究开发了一个图片游戏,这个游戏的玩法就是给任意随机的玩家A和B发送同一张图片,然后要A和B在有限的时间内对这个图片进行描述,当这个两个人的描述接近的时候就算这两个人匹配成功,然后获胜得分。

你能想到人在玩这个游戏的时候不知不觉的完成那些任务了么?就像上面说的那样,计算机是很难识别图片,但是人就可以很简单的识别图片,并对图片进行描述,于是乎,人们在玩这个游戏的时候不知不觉的就对这些图片进行了相当精确(因为是两个人同时在想,而且限时,而且必须描述相近)的标记。哈哈哈,想法是不是相当高明。认为这个想法高明的不止有你,还有当时的搜索巨头Google(谷歌)。Google当时就收购了这个游戏,并把这个想法应用到了Google的图片搜索。

验证码的升级版

Luis von Ahn在发明验证码之后,有一段时间变得很郁闷。为啥呢?因为他得到了一些数据——全世界的网民每天数据验证码将近2亿次,而每次验证码的输入时间将近10秒,这样算下来,每天网民要在验证码上面话费50万个小时。Luis von Ahn看着这些数字陷入了沉思,因为自己的发明,网民每天要多花这么多时间,有没有什么办法利用这些时间呢?

『有了!』Luis von Ahn突然在办公室跳起来,他想起之前被Google收购的那个游戏了,他知道该怎么做了。于是Luis von Ahn在CAPTCHA的基础上进一步改进,并把新的验证码叫做『reCAPTCHA』。『re』就是重新的意思嘛。

那么这次他是怎么改的呢?在我看来,Luis von Ahn的这次改进简直就是天才的想法。他的想法就是既然人们在输入验证码的时候有10秒钟的时间,那何不利用这10秒来讲那些古老的书籍或者图片的门牌号给识别出来。

这里需要说一下为什么要进行书籍的电子化。信息时代的一个特点就是要把我们生活的世界进行信息化,尽可能地把一切都可以索引。那么我们把书籍电子化就可以让人们更方便的去查找某一本书的某一句话,而不需要你翻烂一本书都找不到出处。

但是古老的书籍实在信息时代之前出现的,因此需要人为的进行电子化。但是电脑在扫描这些古老的书籍的时候总是错误率很高,根本不能用,这也是图书领域的一个大难题。不过,有了Luis von Ahn的天才想法,这些都不是问题。让我们来看看他是怎么解决这个问题的:

验证码升级版的验证过程

1、将古老书籍进行扫描(比如我们扫描《西游记》)

2、将扫描得到的图片分成单个词的片段 (将《西游记》扫描的图片按照单个字进行截取)

3、系统随机生成一个词A和扫描图片得到的词B组成一个验证码(假如随机生成的词A为『我』,扫描图片的词B为『俺老孙』,当然了用户是不知道『我』还是『俺老孙』哪一个是系统产生的)

4、当用户正确输入A之后就会被认为这是人在操作,那么B也就会被认为是人在认这个词(于是只要用户输入正确的A的答案为『我』,那么系统也会人会后面输入词就是扫描图片上面的词了)

5、然后B这个词就被人认出来了,以此类推,书就可以被全部认出来了。(以此类推,《西游记》就会被人在输入验证码的时候就被电子化了。)

说了这么多,咱们还是来看看真图(其中『morning』这个词是书里扫描出来的,后面这个『upon』是系统随机产生的,伪装的很像哈):

recaptcha-example.gif

升级版的验证码效果

那么这个升级版的验证码效果如何呢?当时是有35万个网站使用这个验证码,一天可以数字化1亿个单词,一年可以将250万本古老书籍电子化。这真的是一个功德无量的时候,它可以让老一辈的智慧通过电子化继续流传下去(用书的话说不定哪天就被烧了呢)。

这个天才的想法再次被Google收购。唉,Luis von Ahn是名副其实的人生赢家了。

地址:http://googleblog.blogspot.jp/2009/09/teaching-computers-to-read-google.html

Luis von Ahn在我看来是一个闲不下来的人。按理来说,这个家伙的做的东西两次被Google收购,还是国际顶级名校的副教授,吃穿都应该不愁了吧。可是人家的境界还是比我不知道高到哪里去了,他貌似又看到了一些新的东西。

再次出发,Duolingo教你学外语

Luis von Ahn有一次给他带的研究生出了一个问题——如何让一亿网民免费来将互联网的主要内容翻译成各个主要语种。后来Luis von Ahn带着他的研究生开启一个全新的项目,叫做『Duolingo』,中文名叫做『多邻国』。

这是一个什么样的项目呢? 在Luis von Ahn看来,现在的互联网的优质内容还主要集中在英语,如果想让全球人民来无障碍来享用这些优质内容,这些优质内容必须被翻译成他们相应的语言版本。同时其中一大部分还是很有热情去学习一门外语,甚至花钱都可以。

于是Luis von Ahn又想到一个两全其美的办法让人们即可以免费学习最正宗的外语,还能提供专业级的翻译。他是这样想的:

首先那些提供优质内容的网站(比如纽约时报,英国广播电台BBC,美国有线电视CNN)会付费把他们要翻译的内容提供给『Duolingo』。
有了语料之后,『Duolingo』会在相关语种的语法专家的帮助下将这些内容分解成『Duolingo』的学习材料。这些内容会被分成简单的小句子,而且句子中的每个单词的意思都会给出。
有了这些单词的意思,『Duolingo』的用户就可以使用这些单词的意思翻译自己的语言版本,在这个过程中你的翻译还会被系统进行评价,通过即可获得积分和等级。
『Duolingo』里面的积分和等级代表了你的外语能力,你的积分和等级越高,你要翻译的东西越复杂。于是在整个过程中,你通过翻译学习了英语,同时你还帮助『Duolingo』完成了企业客户提供的语料翻译。

那『Duolingo』的效率如何呢?还是来看数据吧——将维基百科翻译成西班牙语:在十万用户的前提下,5周可以翻译完成;在100万用户的前提下,80个小时就可以了。多么神奇的一个工具呀。

如果你想体验『Duolingo』学英语(还可以学西班牙语、日语、韩语)的感觉,直接去豌豆荚下载吧 :http://www.wandoujia.com/apps/com.duolingo

总算结束了

不容易,总算接近尾声了。Luis von Ahn在我看来完全是一个优质偶像啊,你看发明了验证码,又改进验证码,让人们在输验证码的时候顺便帮忙把那些古老的书籍电子化,让人类的文明得到更好的传承。后来看到大家很多人都在学外语,他通过『Duolingo』为人们免费提供高效的外语学习平台,同时还帮助把互联网的优质内容翻译成其他语言版本,让更多的人享受更优质的内容。在我看来牛逼的地方在于他的两次创业成果都被Google收购,而且他还不满足,继续着自己的奋斗!

最后我想给大家推荐一下Luis von Ahn在TED的这个经典演讲,内容基本概况的他的主要工作内容,更重要的是他的演讲能力也很好,很会与听众互动,知道如何幽默地演讲。

Luis von Ahn个人主页
https://www.cs.cmu.edu/~biglou/

Luis von Ahn wikipedia
http://www.wikiwand.com/en/Luis_von_Ahn

TED 演讲
http://www.ted.com/talks/luis_von_ahn_massive_scale_online_collaboration

本文系转载文章:http://greenrobot.me/my-thought/luis-von-ahn/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容

  • 基本上上过网的人,都知道验证码是个什么东西。这些歪歪扭扭的字母、数字和汉字每天都在各种网站上不断的刷新,挑战着网友...
    plus先生阅读 2,960评论 0 6
  • 我们阅读互联网的激荡十几年,看尽巨头之争、指点江山、群雄逐鹿。这些离我们又近又遥远:近是指的我们作为用户离的很近,...
    songshu阅读 332评论 0 3
  • 这两天登陆一个网站,总是要输入验证码,那种两个单词,一个清楚,一个模糊还加条横线,特难认,每次总错要输一两回。很烦...
    rllwml阅读 1,890评论 0 2
  • 我刚刚经历了一次非常危险的实验,是的,虽然简单,但却惊心动魄。 事情要从9天之前说起。 9天前,正是2016年的最...
    很虎很虎阅读 204评论 1 2
  • 不知在你小时候,有没有过这样的经历: 你考试考了一个蛮不错的成绩,高高兴兴地把试卷带回家,满以为父母也会很高兴,会...
    鱼鲜支阅读 815评论 4 9