第一章
一. 数据的类型
- 表格数据
- 多维数据(矩阵)
- 多张表数据(主外键关联)
- 时间序列
二. 重要的Python库
- NumPy 基础数据结构和函数
- pandas 高级数据结构和函数
- matplotlib 二维数据可视化
- IPython和Jupyter 交互
- Scipy 科学计算领域
- scikit-learn 机器学习包
- statsmodels 统计分析包
第二章 Python基础 略
第三章 NumPy
第四章 pandas
- 最简单数据清理:
import pandas as pd
df = pd.read_csv("./API_CHN_DS2_zh_csv_v2_10578406.csv", ',')
print("清除删除无用列")
df.pop("Country Name")
df.pop("Unnamed: 63")
df.pop("2018")
print("清除部分无用数据")
new_df = df.dropna(thresh=61) //确保每条数据至少61
print("写入到文件")
new_df.to_csv("./test.csv", index=False)
如上:最简单的数据清理,只取完整的数据。