完成相关视频章节学习:
2. 数据分析概况
是什么:用适当的分析方法,对收集的数据进行分析,总结规律,提取有价值的信息,形成有效结论的过程
企业中的作用:现状分析(过去:日报,周报,月报),原因分析(现在:现状为什么会发生 专题),预测分析(未来:预测下一年的销售量目标 制定季报,年报)
流程:明确目的和思路 -> 数据收集准备 -> 数据处理 ->数据分析 -> 数据展现 -> 报告撰写
数据一般来源:企业内部数据仓库,公开的出版物,互联网,市场调查报告
基础分析方法:对比分析,分组分析,结构分析,分布分析,交叉分析,矩阵分析
高级分析方法:回归分析,聚类分析,决策树,神经网络,因子分析,时间序列分析
3.Python概况
因自己非常熟悉,所以只看了视频,未做笔记
Why Python: 高效,开发包齐全
数据处理:pandas
数据挖掘:sklearn
数据可视化:matplotlib
4. 安装Anaconda
5. 使用Anaconda
6. 数据类型
变量命名规则:a-z, A-Z, digits, case sensitive,
no _ , no digit at beginnnig
数据类型:
1. Logical:True False 运算规则:&, |, not
2. Numeric
取整 //
求余 %
乘方 **
浮点数越界问题 Decimal('4,2') + Decimal('2.1') 对浮点数进行封装
3. Character
单引号,双引号,或三引号把字符串包起来
转义字符:\ or (r'xxxxxx')
表示换行: s = "abc \
efg" or 使用三引号:换行符等均会保留
7. 数据结构
数据结构是指相互之间存在一种或多种数据关系的数据集合
Pandas:
Series: 存储一行或一列的数据,以及与之相关的index的集合
DataFrame: 用于存储多行多列
默认索引都是从0开始的
切片:>=第一个索引,<第二个索引
8. 向量化运算
特殊的并行计算方式,同一时间进行多次操作
Pandas的基本数据结构:序列和数据框
等差数列:numpy.arange(start, end, step)
numpy.power(r, 5)
lambda匿名函数
四则运算:相同位置进行函数计算,函数返回结果保留在相同位置
向量化运算原则:1. 极可能避免for循环;2.过早的优化是魔鬼
9. 数据导入
数据存在形式:
1. 文件:pandas
CSV: 列与列之间用逗号分隔
read_csv(file, encoding),
TXT:没有列名,不需要分隔符,默认第一行作为表头
read_table(file, names=[列名1,列名2.。。], sep="", encoding="utf-8")
Excel:默认文件第一行作为列名
read_excel(fileName, sheetName, names)
2.数据库:MySQL, Access, SQL Server etc
10.数据导出
default:
to_csv(filePath, sep=",", index=TRUE, header=TRUE)