Python_part 1

一、python基本操作

1、jupyter快捷键:a和b添加新行;m是转换为Markdown模式,y是code模式。执行:shift+enter;自动补全:tab;帮助文档:shift+tab。

2、三剑客:numpy/pandas/matplotlib【最好管理员模式安装,此时jupyter notebook出来是英文,且很卡;以普通用户身份打开,为中文版,且很顺畅】

3、数组和列表的区别:①字符串》浮点型》整型;②数组中存储的数据元素必须是统一类型。

4、三种方式返回数组:

① array();

② matplotlib.pyplot 【读取图片使用.imread(读入)和.imshow(显示)】;

③ zero()、one()、linspace()、arange()、random系列。

5、numpy的常用属性:shape(行数,列数,颜色数)/ndim/size/dtype('元素类型')

6、切片操作:切前两行/列 =》将图片上下左右翻转,arr[行切片,列切片],arr[::-1,::-1] #将数组的行列倒置;

7、reshape(行数,列数):数组内数据行列变形。

8、级联操作:将多个numpy数组进行横向或纵向的拼接 =》将图片上下左右拼接,numpy.concatenate((数组1,数组2),axis=1),为横向拼接;axis=0,为纵向拼接。若有数组3,即三维数组,则有axis=2。必须同一维度!

9、常用的聚合操作:sum、max、min、mean

10、常用的数学函数:三角函数(sin/cos/tan)、numpy.around(数组,decimals),返回指定数字的四舍五入值,decimals:舍入的小数位数(默认为0,若为负,整数将四舍五入到小数点左侧的位置)。

11、矩阵相关

① numpy.eye() 返回一个单位矩阵。

② array.T 返回该数组转置后的矩阵。

③ numpy.dot(数组1,数组2) 返回数组乘法之后的矩阵。


二、pandas基本操作

(1) Series(values, index), values:一组数据;index:相关数据的索引标签。由列表/numpy/字典创建。仅为一维数据源。

(2) DataFrame(values,columes,index)是一个表格型的数据结构,按照一定顺序排列的多列数据组成。有行和列索引及值,以此扩展series,是多维。 由ndarray或字典创建。

DataFrame的属性:values、columns、index、shape,无dtype。

DataFrame的索引操作:对行、队列、元素进行索引。iloc:隐式索引;loc:显式索引。

DataFrame的切片操作:对行、列进行切片。

- 索引:

  - df[col]:取列

  - df.loc[index]:取行

  - df.iloc[index,col]:取元素

- 切片:

  - df[index1:index3]:切行

  - df.iloc[:,col1:col3]:切列

(3) 时间数据类型的转换:pd.to_datetime(col);将某一列设置为行索引:df.set_index()。


三、实践

1、需求:股票分析

① 使用tushare包(财经类)获取某股票的历史行情数据。

df=tushare.get_k_data(code,start)   #获取网上数据,股票代码和开始时间

df.to_XXX  # 将网上数据存到本地

df=pd.read_csv('./XXX.xxx')   #将本地数据读入到df

② 输出该股票所有收盘比开盘上涨3%以上的日期。

df[(df['close']-df['open'])/df['open']>=0.03].index

③ 输出该股票所有开盘比前日收盘跌幅超过2%的日期。

df[(df['open']-df['close'].shift(1))/df['close'].shift(1)<=-0.02].index

④ 假如从2010年1日1日开始,每月第一个交易日买入1手股票,每年最后一个交易日卖出所有股票,到今天为止,收益如何?

df.resample('M').first()   #数据重新取样,每月第一个交易日

2、双均线策略

① 均线的计算分析

② 金叉&死叉

③ 练习:假如我从2010年1月1日开始,厨师资金为10万元,金叉尽量买入,死叉全部卖出,则到今天为止,我的炒股收益率如何?

3、清洗缺失值、空值、重复值、异常值

① 处理丢失数据:None和np.nan(NaN),区别:np.nan是float类型;None是NoneType类型。

注:数据分析中常常使用某些形式的运算来处理原始数据,若原数据中的空值为NAN的形式,则不会干扰或中断运算;NAN可以参与运算;None不可以参与运算。在pandas中,若遇到None形式的空值,则会强制转换成NAN形式。

② 处理空值:isnull连用any,notnull连用all,dropna(可直接删除缺失的行或列),fillna(覆盖缺失值)。

③ 去重:df[列索引].unique,该列中有哪些不同的元素。

④ 处理异常值:若占比小,则删除;若样本量很小,可考虑使用均值或其他统计量取代;将其视为缺失值,利用统计模型填补。

4、DateFrame的级联&合并操作

区别:merge需要依据某一共同列来合并,使用pd.merge()时,会自动根据两者相同column名称的那一列,作为key来进行合并;注:每一列元素的顺序不要求一致。

map是series的方法,只能被series调用。

排序实现的随机抽样:take()【只能使用隐式索引】、np.random.permutation() 【随机排列序列】。


四、pandas的高级操作:

① 映射:创建一个映射关系列表,把values元素和一个特定的标签或字符串绑定(给一个元素值提供不同的表现形式)。

② 分组聚合:groupby()函数,查看分组情况;

高级数据聚合:使用groupby分组后,也可使用transform和apply提供的自定义函数实现更多的运算。

df.groupby('item')['price'].sum() === df.groupby('item')['price'].apply(sum)

③ 透视表:一种可以对数据动态排布并分类汇总的表格格式。

pivot_table(index,values,columns,aggfunc),index参数是分类汇总的分类条件。

优点:灵活性高,操作性强,脉络清晰易理解。

练习:查看哈登对阵每个队伍的得分,则需对每个队伍进行分类并计算其各类得分的平均值;想看对阵同一对手在不同主客场下的数据,分类条件为对手和主客场。

④ 交叉表:是一种用于计算分组的特殊透视图,对数据进行汇总。

pd.crosstab(index,colums),index:分类数据,交叉表的行索引;columns:列索引。

df.describ(),将有数据的列统计出均值,最大最小值等数据。

df[列索引].value_counts():统计列中各元素出现的次数。

⑤ plt.plot(x,y):绘制线性图(单条/多条),设置坐标系的比例plt.figure(figsize=(a,b)),设置图例legend()和轴的标识;图例保存,figure.savefig()。

柱状图:plt.bar(索引,数据值,条形宽度);

散点图:scatter(x,y,s,c),s指标量,c指颜色;

饼图:pie(x);

直方图:hist(bins,normed,color,orientation)。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352

推荐阅读更多精彩内容