网站数据挖掘--从零开始建立数据分析师个人成长体系

标签(空格分隔): 数据挖掘 python 数据可视化


对于任何一个企业,经验丰富、技巧娴熟的分析师都是企业的优秀资产。但一切都不是天生的,良好的个人规划是保障数据分析师迅速成长的关键。

数据理解

1、数据采集

1、了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。很大程度上可以避免"垃圾数据进导致垃圾数据出"的问题。

例子:当用户在离线状态下使用APP时,数据因无法联网而不能发出,导致正常时间内的数据统计分析延迟。直到该设备下次联网时,数据才能被发出并归入当时的时间,就产生了不同时间看相同历史时间的数据时会有出入

2、数据存储

  • 数据存储系统是Mysql,Oracle,sql server,还是其他系统。
  • 数据仓库结构及各库表如何关联,星型、雪花型,还是其他。
  • 生产数据库接收数据时是否有一定的规则,比如只接收特定类型的字段。
  • 生产数据库面对异常值如何处理,是强制转换、留空,还是返回错误。
  • 生产数据库及数据仓库系统如何存储数据,名称,含义,类型,长度,精度,是否可以为空,是否唯一,字符编码以及约束条件规则是什么?
  • 接触到的数据是原始数据还是ETL后的数据,ETL规则是什么?
  • 数据仓库数据的更新机制是什么?是全量更新还是增量更新?
  • 不同数据库和库表之间的同步规则是什么?哪些因素会造成数据差异?如何处理差异?等等。

在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断地进行动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候因软硬件、内外部环境问题无法得到保证,这些都会导致后期数据的应用问题。

  • 什么是数据仓库
  • 什么是ETL

3、数据提取

数据提取是将数据取出的过程。数据提取的核心环节是从哪取?何时取?如何取?

  • 从哪取?数据来源 --- 不同的数据源得到的数据结果未必一致。
  • 何时取?提取时间 --- 不同时间取出来的数据结果未必一致。
  • 如何取?提取规则 --- 不同提取规则下的数据结果很难一致。

数据提取阶段,首先要求数据分析师具备数据提取能力。常用的Select From 语句是SQL查询和提取的必备技能,但即使是简单的提取数据工作也有不同的层次。

1、第一层是从单张数据库中按条件提取数据的能力
2、第二层是掌握跨库表提取数据的能力,不同的join有不同的用法;
3、第三层是优化SQL语句,通过优化嵌套,筛选的逻辑层次和遍历次数等,减少浪费个人时间和消耗系统资源。

数据分析师必须具备理解业务需求的能力,比如业务需要“销售额”这个字段,相关字段至少有产品销售额和产品订单金额,其中的差别在于是否含优惠券、运费等折扣和费用。订单金额包含了应用优惠券等因素,计算逻辑是在产品销售额(产品单价*数量)的基础上增加运费,再减去优惠券、促销折扣后的价格,该价格是用户应该支付的金额。

4、数据挖掘

数据挖掘是面向海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则:

  • 没有最好的算法,只有最合适的算法,算法选择的原则是兼具准确性、可操作性、可理解性、可应用性。
  • 没有一种算法能解决所有的问题,但是精通一门算法可以解决很多问题。
  • 在挖掘算法中最难的是算法调优,同一种算法在不同场景下的参数设定相同。实践是获得调优经验的重要途径。

需要掌握的与数据挖掘相关的能力:
一是数据挖掘、统计学、数学基本原理和常识;
二是熟练使用一门数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序员出身也可以选择编程实现;
三是需要了解常用的数据挖掘算法,以及每种算法的应用场景和优劣差异点。

5、数据分析

相对于数据挖掘,数据分析更多地偏向于业务应用和解读,在经数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义?如何将挖掘结果反馈到业务操作过程中以便业务理解和实施是关键。

6、数据展现

数据展现即数据可视化的部分,也就是数据分析师如何把数据观点展示给业务的过程。

7、数据应用

数据应用是数据具有落地价值的具体体现,这个过程需要数据分析师具有数据沟通能力,业务推动能力和项目工作能力。

  • 数据沟通能力。深入浅出的数据报告、言简意赅的数据结论更利于业务理解和接受,打比方、举例子都是非常实用的技巧。
  • 业务推动能力。在业务理解数据的基础上,推动业务落地实现数据建议。从业务最重要、最紧急、最能产生效果的环节开始是个好方法,同时要考虑到业务落地的客观环境,即好的数据结论需要具备客观的落地条件。
  • 项目工作能力。数据项目工作是循序渐进的过程,无论是一个数据分析项目还是数据产品项目,都需要数据分析师具备计划、领导、组织、控制的项目工作能力。

对与网站数据分析师的具体要求如下:

  • 了解基本的网站数据分析和数据工具,网站分析工具如Google Analytics 、百度同级、Adobe Analytics、Webtrekk等;数据分析工具如Excel、SPSS、Clementinel、SAS、R等,了解不同工具有哪些功能及差异点。
  • 了解网站分析及数据分析的基本概念、定义和规则,比如需要清楚UV、PV、Visit、IP的区别以及数据差异的影响因素。
  • 了解互联网工作的基本机制,掌握基本的HTML语言、编程语言规则和JavaScript规则,如果还能了解一些Cookie、缓存机制、HTTP信息会更有利于后期的发展。
  • 了解所服务的业务对象、如营销业务、网站运营业务、会员相关业务等,理顺各种业务的具体含义、范畴、流程等,并且能把数据与业务工作关联起来。

数据分析师的5点建议
1、数据是有立场的,立场决定解读
(数据对于业务来讲既是KPI的衡量标杆,又是业务的行动指南。有立场的数据直接影响数据解读,影响着业务的行动趋势。)
2、数据质量永远是数据分析立项后首先要考虑的
(数据质量验证:
1、理解数据来源、数据统计和收集逻辑,以及数据入库处理逻辑;
2、理解数据在数据仓库中存放的细节,包括字段类型、小数点位数、取值范围、规则约束等;
3、明确数据的取数逻辑,尤其是在过程中是否对数据有转换或者重新定义;
4、第一时间对数据做数据审查,包括数据有效性验证、取值范围、空值和异常值验证,确定其是否与原始数据原则一致等。)
5、业务应用能力和工具应用能力都重要,不要迷信算法和模型
很多数据分析师会过度关注算法和模型在数据分析过程中的作用。但其实在面向业务类的实际工作中,业务要的不是多少种算法或模型,而是要面对业务问题的解决方案。
6、业务需求是数据分析的起点,但之前需要培养业务的数据意识
业务需求是数据分析的起点,很多时候数据分析师在“等”业务方提出需求,然后通过数据支撑业务方更好地开展工作。但实际情况却是业务方不需要数据,这种现象既可能是传统习惯造成的,也可能是公司文化影响的,甚至可能是个人因素导致的。

数据分析师不能要求业务方必须懂数据、理解数据,但是需要告诉业务方数据能解决什么问题、带来哪些改进与提升,如何帮助他们解决实际问题等数据价值告知业务,如何能用数据证明其提升价值会更有说服力。这样业务方才会相信数据的有效性、真实性、准确性。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345

推荐阅读更多精彩内容