自然语言处理相关内容

前言:获得了知乎答案后,接下来就是分析了。何明科老师没有详细说明他的分析过程,我想大概对他这样的专家而言,这个过程太简单了,没有必要说。不过他提到了NLP的专业名词。于是我查询了NLP的意义。原来是大名鼎鼎的自然语言处理。网络上相关的博文不少,其中很多博文提到了NLTK这个工具。但是每个博文对NLTK的介绍却都有所出入。所以,我选择了阅读了官方的NLTK书籍(不过这书籍有点旧了,入门可以,建议有基础的同学们还是直接读英文的NLTK博客或其他网站)。
看了书之后,我决定不再专门介绍NLP和NLTK。毕竟书上讲的都很详细了,我建议大家直接看一下书。博文这里主要讲我的NLP分析过程。

image.png

一、安装NLTK
我是利用canopy的Package Manager来安装nltk(其他方法 我没有尝试过,建议直接登录nltk的官方网站阅读install过程http://www.nltk.org/install.html,非常详细,而且包是最新的)

image.png

打开available标签后,在搜索框中输入nltk,然后点击install即可,我这里已经安装好了,安装好的会显示重装或者卸载的选项。

image.png

二、安装NLTK数据包
在Canopy的IPython对话框中,输入
import nltk
再输入
nltk.download()
即可显示如下图的下载框

image.png

按照nltk的建议,将下载目录设置为C:\nltk_data
然后选择all-corpora和book下载,双击即可,最后选择all进行下载,我还逐个打开了其他的几个页面,按照status排序后,把所有没有安装的包都双击安装了。比如models页面

image.png

三、test
1)引入nltk自带的书籍资料,实际上就会把book模块中的一些书籍引入到编程环境中
from nltk.book import *
输入text1 将得到其对应的书籍 白鲸记
输入
text1.concordance("monstrous")
将会得到白鲸记中所有monstrous 对应的句子
输入
text1.similar("monstrous")
将会得到与monstrous具有类似上下文的其他单词
输入
text2.common_contexts(["monstrous","very"])
将会得到 "monstrous","very"两个词同样具有的上下文结构
text4.dispersion_plot(["citizens","duties", "freedom", "democracy", "America"])
len(text3)获得文本中包含的所有标识符数量
set(text3)获得文本中含有的所有词
sorted(set(text3) ) 将所有词按照数量排序
len(set(text3)) 所有不同词的数目
from future import division
len(text3) /len(set(text3)) 每个标识符平均使用次数
text3.count("smote") smote出现的次数
100 *text4.count('a') / len(text4) a出现的百分比
sent1 text1的第一句话 用列表表示

获得一个本文中标识符的频率分布
fdist1= FreqDist(text1) 获得文本1中每个词及其对应的出现次数 返回一个字典 key为词 value为词频
vocabulary1 = sorted(fdist1.items(),key = lambda x:x[1],reverse = True)
按照词频排序
输出前50个词
for
i, word_num
in
enumerate
(
vocabulary1):

 if i<50:
      print

i, word_num[0]

fdist1.plot(50,cumulative=True)
对前50个词的频率进行统计

image.png

fdist1.hapaxes() 输出低频词
低频词意义也不明显

长词 15个字母以上

V = set(text1)
long_words = [w for w in V if len(w) > 15]
sorted(long_words)

长词可以忽略一些断刺高频(the)

fdist5 = FreqDist(text5)

sorted([w for w in set(text5) if len(w) > 7 and fdist5[w] > 7])

多于7个字母的词 词频超过7个

====
马云的说法 没资源的人就要判断十年后的事情 提前布局 等人入局接盘 大数据 移动互联网 人工智能 新能源(不玩信用卡 直接互联网支付 换一条路 而不是弯道超车)

数据分析师以后就没有这个职业了 机器比人聪明 技术让世界普惠、公平、快乐 机器人工智能做我们做不了的东西 才牛逼 现在还是模仿人
互联网不是高科技 是基础设施
马化腾(阿法狗不公开论文 我们也做不出来 谷歌为什么分享?我现在学到的大多都是别人分享) 最牛逼的是 围棋可以疯狂的对弈(对战)自行发现规律
给人工智能一个现实模拟器 让他充分的去尝试 让他自己得出经验和规律
自学习的能力远超我们数据分析发现规律的能力
微软 沈向阳(7000工程师人工智能事业部 ) 20年找不到工作 现在遇上一个人就像疯狂给我钱 中间经历无数冬天
技术突破(深度神经网络 自学习能力突破) 硬件突破(more定律还有用 大数据 )
人类感知(计算机视觉、语音的发展)尚且不足的 人工智能认知(自然语言,知识获取,一般问题的思考方法,情感)
科研人员要冷静 保持平常心

朱明的演讲 中美人工智能的机会

短期的商机 哪些行业有了大量的数据 哪些人员不happy
目前来看 市场销售 人事部门 客户支持 所有的行业都会被颠覆

5年内最大的商机 每一个商业应用都会被颠覆掉

郭为( 智慧城市,6,7年时间 头破血流) 人工智能:计算能力 大数据出现 算法(三大突破)

计算能力 算法再学习美国 数据积累 是目前大量传统公司唯一有的

深网挖掘

大学是做算法 bat是计算能力 数据积累是很多公司和政府部门

2012年 和陆奇聊天 了解到深度学习即将实用化 回来研究 发现 深度学习潜力巨大 是未来技术爆发点
计算资源强大便宜 当年读书的时候教授告诉李彦宏 说学了人工智能没用 但现在条件变了 第一个建立深度学习研究院

除了算法 还要修改 芯片的结构 适应算法

互联网仅仅是人工智能的开胃菜 人工智能不是互联网的第三阶段 互联网仅仅是一个开端
人工智能是第三次工业革命的实质核心

人工智能 阿法狗 消耗2吨煤 人消耗2碗饭
功能替代 成本

搭配词 获取双连词 bigrams()
bigrams(['more', 'is', 'said', 'than', 'done'])

text4.collocations() 最常出现的连词

[len(w) for w in text1]
fdist = FreqDist([len(w) for w in text1]) 词的长度
fdist.keys()
fdist.items()
fdist.max()
fdist[3]
fdist.freq(3)

fdist.items() 获得 出现的次数 长度为1的词 次数

len(set([word.lower() for word in text1])) 可以把仅仅是大小写不同的词去掉
len(set([word.lower() for word in text1 if word.isalpha()]))

https://app.gumble.pw/jiebademo/ 结巴分词演示
https://github.com/fxsjy/jieba 官方github

主要功能:
1.分词
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

2.添加自定义词典
载入自定义词典
3.关键词提取
基于 TF-IDF 算法的关键词抽取
https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py
关键词权重
https://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py
基于 TextRank 算法的关键词抽取
test/demo.py

4.词性标注

实例

import jieba.posseg as pseg>>> words = pseg.cut("我爱北京天安门")>>> for word, flag in words:... print('%s %s' % (word, flag))...我 r爱 v北京 ns天安门 ns

5 并行分词 提高效率
https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py
6.Tokenize:返回词语在原文的起止位置
注意,输入参数只接受 unicode
默认模式

result = jieba.tokenize(u'永和服装饰品有限公司')for tk in result: print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

  1. ChineseAnalyzer for Whoosh 搜索引擎
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容