六月份学习计划

上个月看知乎的时候，复旦大学邱教授发布的一个NLP初学者入门项目，包括NLP四大任务类型：分类、序列标注、文本匹配、文本生成。
https://github.com/FudanNLP/nlp-beginner
当时看了一下，发现似乎有点难，需要从numpy开始造轮子，然后慢慢转到深度学习，每个项目大概两周时间。刚好我的课程已经结束了，接下来要做的就是文献综述和编程学习。自己的编码能力依旧不行，所以还是从头再来一遍吧。
一共五个项目，对应的是《神经网络与深度学习》这本书，里面有ppt和相应的练习资源。涉及到的章节主要是2、3、6、7、11、15。我会阅读章节内容，完成课后习题，阅读参考论文，然后实现相应任务，看起来好头疼啊……
目前来看，唯一走对的路就是选择了pytorch……
六月份希望能够完成前三个任务……

任务说明页内容（https://github.com/FudanNLP/nlp-beginner）

任务一：基于机器学习的文本分类

实现基于logistic/softmax regression的文本分类

参考
1. 文本分类
2. 《神经网络与深度学习》第2/3章
数据集：Classify the sentiment of sentences from the Rotten Tomatoes dataset
实现要求：NumPy
需要了解的知识点：
1. 文本特征表示：Bag-of-Word，N-gram
2. 分类器：logistic/softmax regression，损失函数、（随机）梯度下降、特征选择
3. 数据集：训练集/验证集/测试集的划分
实验：
1. 分析不同的特征、损失函数、学习率对最终分类性能的影响
2. shuffle 、batch、mini-batch
时间：两周

任务二：基于深度学习的文本分类

熟悉Pytorch，用Pytorch重写《任务一》，实现CNN、RNN的文本分类；

参考
1. https://pytorch.org/
2. Convolutional Neural Networks for Sentence Classification https://arxiv.org/abs/1408.5882
3. https://machinelearningmastery.com/sequence-classification-lstm-recurrent-neural-networks-python-keras/
word embedding 的方式初始化
随机embedding的初始化方式
用glove 预训练的embedding进行初始化 https://nlp.stanford.edu/projects/glove/
知识点：
1. CNN/RNN的特征抽取
2. 词嵌入
3. Dropout
时间：两周

任务三：基于注意力机制的文本匹配

输入两个句子判断，判断它们之间的关系。参考ESIM（可以只用LSTM，忽略Tree-LSTM），用双向的注意力机制实现。

参考
1. 《神经网络与深度学习》第7章
2. Reasoning about Entailment with Neural Attention https://arxiv.org/pdf/1509.06664v1.pdf
3. Enhanced LSTM for Natural Language Inference https://arxiv.org/pdf/1609.06038v3.pdf
数据集：https://nlp.stanford.edu/projects/snli/
实现要求：Pytorch
知识点：
1. 注意力机制
2. token2token attetnion
时间：两周

任务四：基于LSTM+CRF的序列标注

用LSTM+CRF来训练序列标注模型：以Named Entity Recognition为例。

参考
1. 《神经网络与深度学习》第6、11章
2. https://arxiv.org/pdf/1603.01354.pdf
3. https://arxiv.org/pdf/1603.01360.pdf
数据集：CONLL 2003，https://www.clips.uantwerpen.be/conll2003/ner/
实现要求：Pytorch
知识点：
1. 评价指标：precision、recall、F1
2. 无向图模型、CRF
时间：两周

任务五：基于神经网络的语言模型

用LSTM、GRU来训练字符级的语言模型，计算困惑度

参考
1. 《神经网络与深度学习》第6、15章
数据集：poetryFromTang.txt
实现要求：Pytorch
知识点：
1. 语言模型：困惑度等
2. 文本生成
时间：两周

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,123评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,031评论 2赞 384
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,723评论 0赞 345
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,357评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,412评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,760评论 1赞 289
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,904评论 3赞 405
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,672评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,118评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,456评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,599评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,264评论 4赞 328
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,857评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,731评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,956评论 1赞 264
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,286评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,465评论 2赞 348