最近,因为发现以前使用的数据查询语句的效率越来越差,导致每次进行大量数据的操作都需要耗一个小时以上.这速度实在是太龟慢了,简直是无法忍受了.本人决定亲自拿把杀猪刀砍向它,好给它颜色瞧瞧.经过一系列的测试后发现,原来罪灰祸手是查询数据时因为语句的组合方式不对导致了数据库查询慢,当时那个泪崩啊,感觉这实在是太坑爹了.
因此,我就借此机会把我所知道的能提高查询效率的方法整理了一下,并分享出来和大家共同学习.
一. 书写顺序方面
我们常常会在写oracle语句后发现该语句的执行时间过长,效率低下的问题.然而我们有没有想过怎么会发生这样的情况呢?
我大致归纳为两个方面:
第一: 不了解oracle的解析器解析sql语句的顺序
a. 数据表的处理顺序
oracle 在解析一个查询语句FROM后面的一系列数据表是按照从右往左的顺序进行的.也就是说最后的数据表将是最先被oracle处理的,所以我们在写多个表关联的查询语句时,把数据量最小的表或者是经过条件筛选后得到数据量最小的表放到最后,数据量大的表就放在最前面.
select col1, col2 from t1, t2 where t1.id = t2.id and t2.sex = 'male';
上面的语句中数据表t2是第一个被oracle处理的数据表,然后就是t1.
b.where 条件的处理顺序
oracle 在解析查询语句制定执行计划时,针对where后面的查询条件的解析是按照从下往上的顺序进行的.也就说查询的子条件越处于where的后面,它被oracle处理优先级就越高.所以我们可以把能过滤大量数据的条件放到最后,让oracle优先处理它从而返回一个最小数据集,好让oracle在后续的过滤工作基于该最小数据集进行,来缩小整个查询时间.
select col1, col2 from t1, t2 where t1.id = t2.id and t2.sex = 'male' and t2.etime>=trunc(sysdate-1) and t2.etime
上面语句中的查询条件t2.channel = '0' 将会被oracle最先解析.
第二:查询方式的错误选择导致效率低下
平时工作下来积累的一些优化建议如下:
1. where 后面的条件尽量避免涉及null值得判断,为什么呢?那是因为一旦涉及到了null的判断,oracle将不会走该字段所涉及的索引而触发全表扫描.
select col1 from t where t.servid is not null; --效率低
如果t表的servid中有索引的话,那么本次查询将抛弃索引,走全表扫描.建议如果真的需要判断的话,可以定义该字段的默认值为0或者其它值.
2. where 后面尽量不要使用多个or把条件组合起来, 可以使用union/union all来实现
select col3, col5 from t where (t.servid = 5 or t.servid = 90) and t.channel = 1; --效率低
select col3, col5 from t where t.servid = 5 and t.channel = 1
union
select col3, col5 from t where t.servid = 90 and t.channel = 1; --效率高
3. 条件中尽量避免给有索引的字段进行不等操作(!=或<>),因为一旦进行不等操作,oracle将不会走现有的索引转而走全表扫描.
4. 返回结果使用具体的列名来代替星号(*),因为oracle 遇到星号 需要另外去查对应的字典从而把所有的列名给转换出来,这导致了需要消耗时间.
5. 访问数据表的次数尽量少
6. 使用exists 来代替in , not exists 代替not in 来提交数据的访问速度
7. 不要对有索引的字段进行函数操作或者运算操作,不然会导致这些字段不会走索引
select col1 from t where (t.servid * 2) = 10; --效率低下
select col1 from t where t.servid = 10/ 2; --效率高
8. 当需要删除大量数据的时候,如果条件允许的话,可以使用truncate 来代替delete. 因为delete 时数据库时需要维护一系列的信息以便进行回滚等操作,而truncate 则不是要额外维护这些信息,直接高效清空数据库表.
9. 如果表有分区的话,尽量使用分区进行查询.因为同类的数据都集中在一个分区(数据块)里面,查询是不需要跨块查询,从而效率较高
10. 比较大小时尽量使用等于号来提高效率
select col1 from t where t.servid > 60; --效率比较低下,因为dml会直接跳到60这个记录上,然后在往前扫大于60的记录,额外的动作,额外的消耗.
select col1 from t where t.servid >= 61; --效率高
11. 判断是否存在某条记录时,使用exists 来提高效率,它可以避免进行全表扫描
select count(*) from t where t.name = 'Gavin'; --效率低下,进行全表扫描
select count(1) from dual where exists(select null from t where t.name='Gavin'); --效率高
12. union all 效率高于union ,因为union 相对于union all 来说多了一个去重的操作
13. 可以使用视图来加速结果的搜索
14. 如果对有索引的字段进行模糊搜索时,尽量使用单右边模糊匹配查询,这样就可以使它能有效的使用对应的索引.
select col5 from t where t.name like '%Ga%'; --效率低,不走索引
select col5 from t where t.name like 'Ga%'; --效率高,走索引