kaggle-Predict Future Sales

一、概述

1 预测目的

预测测试集在每个商店中出售的产品总数。

2 预测方法

2.1平稳性检测

假定某个时间序列由某一随机过程(stochastic process)生成,即假定时间序列{Xt}(t=1, 2, …)的每一个数值都是从一个概率分布中随机得到的。
如果经由该随机过程所生成的时间序列满足下列条件:

  • 均值E(Xt)=m是与时间t 无关的常数;
  • 方差Var(Xt)=s^2是与时间t 无关的常数;
  • 协方差Cov(Xt,Xt+k)=gk 是只与时期间隔k有关,与时间t 无关的常数;

则称经由该随机过程而生成的时间序列是(弱)平稳的(stationary)。该随机过程便是一个平稳的随机过程(stationary stochastic process)。平稳性检测的目的就是保证时间序列的某种趋势是可以延续的,这样未来的数据才可以被预测。白噪声(white noise)过程就是平稳的。

2.2白噪声检测

白噪声是一个只包含随机因素的时间序列,他平稳的随机波动,但是不具有被预测的价值,所以对时间序列进行白噪声检测也是必要的,这决定了是否有必要进行下面的预测。

2.3时间序列包含的因素

1、长期趋势
长期趋势指的是统计指标在相当长的一段时间内,受到长期趋势影响因素的影响,表现出持续上升或持续下降的趋势,通常用字母T表示。例如,随着国家经济的发展,人均收入将逐渐提升;随着科学技术的发生,劳动生产率也不断提高。

2、季节因素
季节因素是指由于季节的转变使得指标数值发生周期性变动。由此可见,指标数值的季节变动是以年为周期的,一般以月、季、周为时间单位,不能以年作单位,通常用S表示。引起季节变动的因素有自然因素,也有人为因素。例如,蔬菜食品价格,棉衣销售量都会随着季节气温的变化而周期变化;每年的长假(五一、十一、春节)都会引起出行人数的大量增加。

3、周期因素
周期因素与季节因素不同,周期性因素通常以若干年为周期,在曲线图上表现为波浪式的周期变动。这种周期变动的特征变现为增加和减少交替出现。最典型的周期案例就是市场经济的商业周期。

4、随机因素
由某些随机因素导致的数值变化,这些因素的作用是不可预知和没有规律性的,因此对数值的变化影响变形为随机的。

2.4时间序列分析方法

1、传统的时间序列分析方法,研究时间序列是否能被分解成上面介绍的四种变动,并解析引起每种变动的影响因素。看因素之间是否有叠加效果,采用加法模型或者乘法模型。

  • yt=St + Tt + Et
  • yt=St x Tt x Et

2、时间序列的模型解析法,常用时间序列模型有自回归(AR)模型、滑动平均(MA)模型、自回归滑动平均(ARMA)模型等。

二、数据准备

1 数据处理

1.1 数据写入

因为我比较习惯在数据库操作,将数据写入数据库

#!/usr/bin/python3
# -*- encoding: utf-8 -*-
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import random as rd # generating random numbers
import datetime # manipulating date formats
import pandas as pd
import sqlalchemy
from sqlalchemy import create_engine

def append_csv():
    engine = create_engine('mysql+pymysql://root:Lzy814841@localhost:3306/kaggle')
    #数据写入数据库
    sales=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/sales_train.csv")
    #日期格式转换
    sales.date=sales.date.apply(lambda x:datetime.datetime.strptime(x, '%d.%m.%Y'))
    sales.to_sql('sales', engine, index= False)

    item_cat=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/item_categories.csv")
    item_cat.to_sql('item_cat', engine, index= False)

    item=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/items.csv")
    item.to_sql('item', engine, index= False)

    shops=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/shops.csv")
    shops.to_sql('shops', engine, index= False)

    test=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/test.csv")
    test.to_sql('test', engine, index= False)
数据已经存入数据库

1.2 清洗数据

数据清洗思路

(1)异常值

销量数item_cnt_day为负数7356条
#状态改为删除
update sales  set status =0 where item_cnt_day <0 

  • (2)离群点
update sales  set status =0  where  item_price >=100000
update sales  set status =0  where  item_cnt_day >=1001

  • (3)异常值

item_price 为负数,用均值修正

select AVG(item_price) from sales where shop_id=32 and item_id=2973  and date_block_num=4 and item_price>0

update sales set item_price=1874 where item_price<0
  • (4)去除/修正不正常的数据
    检查商店月度销售数据(放在excel比较直观)
select
t.shop_id,s.shop_name,
GROUP_CONCAT(distinct date_block_num) as sale_month ,
if(t1.shop_id is null,'不需要预测' ,'预测')
from sales t
left join shops s
on t.shop_id=s.shop_id
left join test t1
on t.shop_id=t1.shop_id
group by t.shop_id

观察数据和商店名称

修正数据

update sales set shop_id=57 where shop_id=0

update sales set shop_id=58 where shop_id=1

update sales set shop_id=10 where shop_id=11

1.3 观察数据特征

1、商品汇总统计

三、数据预测

1、只有33月的商店,直接用33月的结果预测34

 select 
t.ID,t.item_id,t.shop_id,sum(item_cnt_day) as item_cnt_month
 from
 test t
 left join sales sa
 on t.item_id=sa.item_id
 and t.shop_id=sa.shop_id
 where t.shop_id=36
 and sa.date_block_num=33
 group by sa.date_block_num,t.ID,t.item_id,t.shop_id
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355