NLP学习HW1

NLP入门组队学习 题目理解

报名了NLP组队学习,这是第一天的学习。

赛题名称:

零基础入门NLP之新闻文本分类

赛题目标:

入门自然语言处理,熟悉相关机器学习和深度学习的方法和算法。

赛题任务:

对来自互联网的新闻文本进行分类,也是一个典型字符识别的问题。

学习目标

理解赛题背景与赛题数据
下载赛题数据,理解赛题的思路

赛题数据

赛题的数据报名后即可下载,数据为新闻文本,并且进行了字符级别的匿名处理。数据文本中包含14个类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、市政、体育、星座、游戏、娱乐。
赛题数据构成:训练集20w条样本,测试集A包含5w条样本,测试集B包括5w条样本。字符匿名处理是为了预防人工标注测试集。

数据标签

标签与类别对应关系如下:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘市政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}

评测指标

评价标准为类别f1_score的均值,将提交结果和实际类别进行对比,结果当然越大越好.多分类的F1_score 使用marco计算方式

当精确率和召回率都高,f1值就会很高。
使用sklearn的库函数可以完成f1值的计算

读取数据

使用Pandas库读取数据,方便后续进行

解题思路

赛题思路分析:赛题文本分类问题,根据每句的字符进行分类。这个题目已经帮助我们分好词了,由于数据匿名化的,不能直接使用中文分词,因此我们直接对匿名字符进行建模,涉及到特征提取和分类模型两个部分。
可能会用到的解题思路:

思路1:TF-IDF + 机器学习分类器
使用TF-IDF对文本提取特征,并使用分类器分类,分类器可以选择SVM、LR、或者XGboost

思路2:FastText
FastText是入门级的词向量,使用Facebook提供的FastText工具,快速构建分类器

思路3:WordVec + 深度学习分类器
WordVec是进阶级的词向量,深度学习分类网络有TextCNN、TextRNN以及BiLSTM。

思路4:Bert词向量
Bert是高配级词向量,建模学习能力更加强大

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,393评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,790评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,391评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,703评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,613评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,003评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,507评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,158评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,300评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,256评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,274评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,984评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,569评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,662评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,899评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,268评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,840评论 2 339