《Python机器学习手册:从数据预处理到深度学习》学习笔记
作者:【美】克里斯·阿尔本(Chris Albon)
2.1 加载样本数据集
scikit-learn库预置了一些常见数据集。这些数据集小且干净,被称为“玩具toy数据集”。包括:
- load_boston :503个波士顿房价的观察值
- load_iris :150个鸢尾花尺寸的观察值
- load_digits :1797个手写数字图片的观察值
from sklearn import datasets
digits=datasets.load_digits()
features=digits.data
target=digits.target
2.2 创建仿真数据集
scikit-learn库提供了很多创建仿真数据集的方法,常用的有三个:
- make_regression :线性回归
- make_classification : 分类
- make_blobs :聚类处理
2.3 加载CSV文件
使用pandas库的read_csv来加载一个本地或远端的CSV文件。
2.4 加载Excel文件
使用pandas库的read_excel来加载一个Excel文件。
2.5 加载JSON文件
使用pandas库的read_json来加载一个JSON文件。
2.6 查询SQL数据库
使用pandas库的read_sql_query在数据库中执行一个SQL语句并加载结果。
import pandas as pd
from sqlalchemy import create_engine
database_connection=create_engine('sqlite:///sample.db')
dataframe=pd.read_sql_query('select * from data',database_connection)
dataframe.head(2) #查看前两行数据