之前对于SQL的掌握一直处于基础的状态。日常简单的关联查询会使用并可读懂报表中的复杂SQL即可,造成自己丧失了自己独立写复杂SQL的能力。在学习MySQL必知必会之前,先看了一下秦路的《mysql,从入门到熟练》,听着名字好像不太靠谱,但学习之后发现自己对于sql的思维还是有的,只是缺乏串联和练习。
补漏开始:
1、将 if 和 count(distinct A)结合
接下来学习逻辑判断,SQL也有if函数,和Excel的用法一摸一样,通过它我们能进行复杂的运算。比如我想统计各个城市中有多少数据分析职位,其中,电商领域的职位有多少,在其中的占比?
industryField是公司的行业领域,虽然我们能用where like 计算出有几个电商的数据分析师,但是占比的计算会比较麻烦,此时可以用if。
select if (industryField like'%电子商务%',1,0) from DataAnalyst
上面的公式利用if判断出哪些是电商行业的数据分析师,哪些不是。if函数中间的字段代表为true时返回的值,不过因为包含重复数据,我们需要将其改成positionId。图片中第二个count我漏加distinct了。之后,用它与group by 组合就能达成目的了。
select city,count(distinct positionId),count(distinct if(industryField like'%电子商务%',positionId,null))from DataAnalyst group by city
第一列数字是职位总数,第二列是电商领域的职位数,相除就是占比。记住,count是不论0还是1都会纳入计数,所以第三个参数需要写成null,代表不是电商的职位就排除在计算之外。
总结:日常工作中使用的是BDP和Tableau工具,上述方法在我们工作中就是新建字段,字段中包含if条件,然后可视化的时候将该字段去重计数。现在需要将自己的思维进行SQL转化。
2、where 和 having 的区别
where限制条件会被用到某些行上,并把不满足的行给抛弃掉。并且,这能够用到各种数据类型中,包括numbers、strings,or dates
where nmbr > 5; where strng ='Skywalker';where dte ='2017-01-01';
having语句在SQL中的主要作用与Where语句作用是相同的,但是having是过滤聚合值,count,sum,。having和group by一起使用,having在group by 中相当于where
select country ,sum(area) from country_data group by country having sum(area) >100000
找出各个城市,数据分析师岗位数量在500以上的城市有哪些。
1.having
select city,count(distinct positionId )from DataAnalyst group by city having count(distinct positionId )>=500
2.嵌套子查询
select * from(select city,count(distinct positionId)as counts from DataAnalyst group by city order by counts)as t1 where counts >= 500
3、日期类
怎么对时间进行加减法呢?这时候靠date_add函数出马。我们可以改变1为负数,达到减法的目的,也能更改day为week、year等,进行其他时间间隔的运算。如果是求两个时间的间隔,则是datediff (date1,date2)或者 timediff (time1,time2)。
select date_add(date(now()),interval 1 day)
时间函数也包含各种参数,比如week,因为中西方计算第几天是不一样的,西方把周日算作一周中的第一天,而我们习惯周一
select week(now(),0)
4、数据清洗类函数
select left(salary,1)from DataAnalyst
MySQL支持left、right、mid等函数,这里又和Excel一样。我们通过salary计算数据分析师的工资吧(这一步骤,在曾经的文章中已经用Excel和BI多次讲解,所以我就不多赘述了,只讲过程,不熟悉的同学可以看历史内容)。
首先利用locate函数查找第一个k所在的位置。
select locate("k",salary),salary from DataAnalyst
然后使用left函数截取薪水的下限。
select left(salary,locate("k",salary)-1),salary from DataAnalyst
为了获得薪水的上限,要用substr函数,或者mid,两者等价。
substr(字符串,从哪里开始截,截取的长度)
薪水上限的开始位置是「-」位置往后推一位。截取长度是整个字符串减去「-」所在位置,刚好是后半段我们需要的内容,不过这个内容是包含「K」的,所以最后结果还得再减去1。
这里不了解不要紧,可以将计算过程分步骤运行。基本上,了解了上面写法的含义,文本清洗这块就没有问题了(not like用来清洗乱七八糟的薪水,我简单处理了)。再然后计算不同城市不同工作年限的平均薪资。
select city,workYear,avg((bottomSalary+topSalary)/2) as avgSalary from (select left(salary,locate("K",salary)-1) as bottomSalary, substr(salary,locate("-",salary)+1,length(salary)-locate("-",salary)-1) as topSalary,city,positionId,workYear from DataAnalyst where salary notlike'%以上%') as t1 group by city,workYear orderby city,avgSalary