一个自然语言处理炼丹师的自白
临近毕业,刚交完论文,自转研究室已一年有余。前天参加越南人社群 BBQ 时,去年这个时候 Chien 桑和熊孩子打闹的场景还历历在目。想想如今他都做了快一年CEO,我也快面临失业了就有点心塞。自己这一年一步一个坑地踩进了自然语言处理的大坑 ,又踩进了神经机器翻译的大坑。
一年来也算是学了些东西,作为经验谈,就想稍稍写点东西,也算给自己一年做个总结。那就写关于怎么入坑,有哪些学习资源,还有哪些需要注意的地方。
首先是前提,在之后学习中很有帮助的一些基础能力。其实没这些当然也可以硬着头皮上,但是却远远没有有了这些积累后的从容。我最初也没什么感觉,但之后不经意间才意识到这些基础的重要。如果有了很好的基础,有时碰到一些其他人不明白的地方,很可能对你来说如本能一般快速理解。
最开始想讲的是英文能力,虽然这个话题是老生常谈,但确实就是很重要。比如自然语言处理领域(其实不光这个领域),基本上很多前沿的东西都是用英文写的。一些很好的书籍,一些很好的博客,还有多如繁星的论文。英文好了,简直就像是打开了一个新世界。而且很多自然语言处理任务数据集都是英文的。
很庆幸我这样一个英文渣渣,在机缘巧合下通过不停学习,把英文还算是提高到了还行的地步。我也不清楚什么是学习英文最好的方法,只能说说自己的经验,给个借鉴。
单词
首先,最重要的是单词。单词不懂,什么都不用谈。前段时间做机器翻译,从英文到德语,结果教授让分析翻译结果。虽然也学过些德语,语法结构知道些,但单词却忘得一干二净,不停查字典,看到想崩溃,于是就毅然决然地选择还是重新训练模型吧,这次从德语到英文。
怎么背单词呢。一鼓作气,短时间内背大量单词,让自己掌握基本常用单词,不常用的也求混个脸熟。过了这个坎,之后只需要在阅读和使用中慢慢积累就好了。感觉像是当初学日语五十音一般,不管怎么说对于一个新领域,一些需要死记硬背的基础知识,最好是以最快速度一举拿下。
推荐《17天搞定GRE单词》上的那个方法。将一本单词书分成几部分,然后按那个方法在一段时间内不停的背。这个方法并不一定是17天,只要按照上面的方法,时间可以自己安排。而且网上也有可以直接生成计划表的网站。
单词书的话,可以随便找一本。当然得厚一点,背完才有成就感。我当时用的是考研单词书,厚厚一大本,各种奇怪词汇。入手后,开始撕书,按照自己的计划分成特定份数,装订成小份。这样子,一来方便携带,随时拿出来背;二来表决心,背完就扔,也不用想着留给学弟学妹们当传家宝了。
之后,就可以按照计划疯狂背单词了。我记得自己当时订了21天计划,然后天天背五六个小时,非常痛苦,但是成效也很明显。
阅读
关于阅读,我认为最主要的是养成对英文阅读的本能感。因为很多时候人是喜欢偷懒的,比如我现在也一样会觉得读英文比较费脑,还总想去读中文。
首先,可以去找一些英文杂志读,比如说 Economist (经济学人), 强迫自己每期读上几篇,不但锻炼了英文能力,还特别涨见识。
还有一个我特别喜欢的方法是,修自己很感兴趣的英文公开课,然后读英文原版书。记得自己当时学英文的一个分水岭就是在修完耶鲁大学 Craig 教授的《聆听音乐》,并且把配套原版书给啃完后。当时真的是花了几个月,从最早的格里戈利圣歌到二十世纪的现代音乐,一页页啃过来。
还有一个感觉很有用的方法就是多用谷歌,然后试着只用英文搜索自己想要的东西。一开始可能会比较别扭,但习惯后就会自然而然地把自己想的转化成英文。而且因为搜索到的网页都是英文,所以读着读着就会开始习惯英文。
其他
其实有了上面的英文阅读能力,搞研究肯定是没问题了,而且会在阅读专业文献中渐渐变得越来越熟练。
其他方面,关于写作方面能说的是,可以尝试一下托福的写作教程。不光可以让你学会英文写作,而且可以锻炼清晰思考的能力。
口语的话,这个可以说是最难,也可以说是最简单的一项了。关键一点是,要自己豁得出去(身边多少日本人就是怕丢脸,英语一直得不到提高)。先自己起个英文名,或是老歪们好记好叫的外号,然后上去就一套 hello,what's your name,where are you from 三连击。老铁,加个 messenger 呗,没有?what's up也可以啊。
一开始过了这个心理坎,就可以注意自己发音了。关于这方面的书,推荐《赖世雄美语音标》还有《美语发音13秘诀》。前一本比较基础,后一本比较进阶。
本来是想在第一篇写上三个部分的,结果自己比较话痨,光英文就写了一千多字,那么就把这当第一期吧。