情感分析初战

from snownlp import SnowNLP
import pandas as pd
import numpy as np

traindata=pd.read_csv('/Users/xuyizhou/Desktop/trainData.csv')
  • 报错:
    UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 8: inva
    subline查看文件乱码,修改后不是乱码

  • 报错:
    ParserError: Error tokenizing data. C error: Expected 5 fields in line 17077, saw 7
    \r的错


try another way

df=pd.read_xlsx('/Users/xuyizhou/Desktop/trainData.xlsx')

wrong

df=pd.read_excel('/Users/xuyizhou/Desktop/trainData.xlsx')

fundamental operation

df.head()
df.head(1)
df.dtypes
df.index
df.describe
df.iloc[3:5,1:4]

NLP
object->string

eg.

import json
data = [ { 'a':'A', 'b':(2, 4), 'c':3.0 } ]
data_string = json.dumps(data)
print 'ENCODED:', data_string
decoded = json.loads(data_string)
print 'DECODED:', decoded
print 'ORIGINAL:', type(data[0]['b'])
print 'DECODED :', type(decoded[0]['b'])

take the content[1] for example

s.words
Out[68]: 
['热水器',
 '加',
 '热',
 '时间',
 '太',
 '长',
 ',',
 '安装',
 '费',
 '太',
 '贵',
 ',',
 '预留',
 '太阳能',
 '口',
 '摆设',
 ',',
 '根本',
 '用',
 '不',
 '到',
 ',',
 '没有',
 '水位',
 '指示器',
 ',',
 '加',
 '满',
 '热水',
 '的',
 '指示',
 '灯',
 '放在',
 '了',
 '最',
 '侧面',
 ',',
 '不',
 '方便',
 '用户',
 '看',
 '指示',
 '灯',
 ',',
 '必须',
 '斜',
 '着',
 '看',
 '才',
 '能',
 '看到',
 ',']

the train data use the

theme-主题                加热时间;安装费;用户;
sentiment_word-情感关键词      太长;太贵;不方便;

use a cycle

successfully split the words

..to be continue 1102

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 应该是夏天的尾巴了。阳光不再那么刺眼,风已经变得凌烈。那大片大片的玉米疯狂的生长,一如那年彼此的拥抱,不知所措……...
    素依是一只夜行的猫阅读 430评论 1 7
  • 图、文/简书小二 游戏,我想大家或多或少都有一点儿接触吧。现在几乎每家每户都有电脑,人手一部手机,难免会接触到各种...
    简书小二阅读 567评论 3 8
  • 分开以后我最大的领悟,不是我有多好也不是你有多坏,而是我看清了自己,更明白了两个人在一起的意义,好的爱情,永远是两...
    白色帆布鞋_702c阅读 578评论 0 1
  • 一个月总有那么几天情绪低落的时候。 比女生的大姨妈还准时。 这种情况不只是我的专利,很多人都有,达达令老师也有,不...
    动动笔记阅读 273评论 0 3
  • 直接上源码吧自己看这里是通过创建adapter的时候传进来的int数值来判断当前选中的是哪一个 这里主要是做了一个...
    人生刚开始阅读 7,122评论 1 1