10 | MySQL为什么有时候会选错索引?

一、优化器选错索引

MySQL 选错索引,导致执行速度慢。表里 a、b 两个字段,分别建索引:

插入 10 万行记录,递增,即:(1,1,1),(2,2,2),(3,3,3) 到(100000,100000,100000)。

存储过程插入数据

分析SQL:mysql> select  * from t where a between 10000 and 20000;

a 上有索引,肯定要用。explain 执行情况。

图 1 使用 explain 命令查看语句执行情况

符合预期,优化器选择了索引 a。10 万行数据表,再做如下操作。

图 2 session A 和 session B 的执行流程

session A 开启事务。session B 数据删除,又调用idata 存储过程,插入10 万行数据。

这时,session B 的查询语句 select * from t where a between 10000 and 20000 不再选索引 a 。慢查询日志(slow log)看具体执行情况。

增加对照用 force index(a) 让优化器强制用索引 a。实验过程:

set  long_query_time=0;//将慢查询日志阈值= 0,线程接下来语句都会被记录入慢查询日志中;

select * from t  where a between 10000 and 20000; /*Q1*/

select * from t  force index(a) where a between 10000 and 20000;/*Q2*/

图 3 slow log 结果

Q1 扫描10 万行(全表),40 毫秒。Q2 扫描 10001 行,21 毫秒。没用 force index 时候,MySQL 用错索引,导致执行时间长。

例子对应删除历史数据和新增数据。

二、优化器的逻辑

选择索引是优化器的工作。

扫描行数越少,访问磁盘越少,消耗 CPU 资源越少。

扫描行数不是唯一判断标准,临时表是否排序等因素

2.1扫描行数是怎么判断的?

执行语句前,不能精确知道,根据统计估算。

统计信息就是索引“区分度”索引不同值越多(“基数”cardinality),区分度越好

show index看索引基数。三个字段值一样,基数值不同,其实都不准。

图 4 表 t 的 show index 结果

2.2怎样得到索的基数?

MySQL 采样统计方法:InnoDB 默认选择 N 个数据页,统计不同值,得平均值 * 索引页面数 = 索引基数

表持续更新,变更数据行 > 1/M:重新索引统计(自动触发)。

两种存储索引统计的方式,innodb_stats_persistent :

on ,持久化存储。默认的 N 是 20,M 是 10。

off ,只在内存中。默认的 N 是 8,M 是 16。

不精确,大体差不的,选错索引还有别的原因。优化器判断语句本身要扫描多少行。

图 5 意外的 explain 结果

rows 预计扫描行数。Q1符合预期:104620;Q2 : 37116,偏差大了。图 1 看到10001 行,偏差误导优化器

优化器 37000 不用,选择100000 执行计划?

用索引 a,从索引 a 拿到值,回主键索引上查出整行(也是代价)。

扫描 10 万行,主键索引上扫描的,没额外代价。

选择并不是最优的。普通索引需要把回表代价算进去,图 1 选择是对的。

MySQL 选错索引,还是没准确判断出扫描行数

三、修正统计信息analyze table t

图 6 执行 analyze table t 命令恢复的 explain 结果

explain结果预估rows 值跟实际差距大,只是索引统计 analyze 可解决

mysql> select  * from t where (a between 1 and 1000) 

  and (b between 50000 and 100000) order by b limit 1; 返回空集合。

选择哪索引?

图 7 a、b 索引的结构图

a( 快) ,扫描前 1000 个,取到对应id,再到主键索引查每行,根据b 过滤。

b,扫描最后 50001 个值,回到主键索引上取值再判断

 explain  select * from t where (a between 1 and 1000) and (b between 50000 and 100000)  order by b limit 1;

图 8 使用 explain 方法查看执行计划 2  

优化器选择 b:估计值依然不准确;MySQL 又选错了索引(小概率)。

四、索引选择异常和处理

优化器选错怎么办?

(1)force index 强行选择索引

图 9 使用不同索引的语句执行耗时

 force index,不优美,索引改名字,语句也改。迁移库,语法不兼容。

变更及时性。通常不会先写上 force index。修改还要测试和发布,不够敏捷。

最好还是在数据库内部解决

(2)引导 MySQL 用期望索引

把“order by b limit 1” 改成 “order by b,a limit 1” 优化器选索引 a。

图 10 order by b,a limit 1 执行结果  

优化器索引 b 可以避免排序,代价小。

不是通用手段,只是刚好有 limit 1, order by b limit 1 和 order by b,a limit 1 返回 b 都是最小行,逻辑一致。

mysql> select  * from  (select * from t where (a between 1 and 1000)  and (b between  50000 and 100000) order by b limit 100)alias limit 1;

图 11 改写 SQL 的 explain

(3)新建索引,或删掉误用索引

新增索引:情况少,尤其DBA 索引优化过库,找更合适索引难。

删掉索引 b,业务如果不需要

小结

优化器可能选错索引

索引统计信息不准确analyze table 解决。

优化器误判解决办法:1.应用端用 force index 强行指定索引,2.修改语句引导优化器3.增加或者删除索引避开。

例子没说明原理。因为面对的是 MySQL 的 bug。知道解决方法有思路就ok。

思考题

平时处理 MySQL 优化器 bug 的时候有什么别的方法?

例子1中,索引由a变成b的原因?

通过 session A 的配合,让 session B 删除后又重新插入了一遍数据,explain 结果中,rows 字段从 10001 变成 37000 多。

没有 session A 配合,只是单独执行 delete from t call idata()、explain 这三句话, rows 字段其实还是 10000 左右。


A 事务没提交,数据不能删除的。索引 a 上数据有两份,旧版本delete 之前,新版本 deleted

主键直接按照行数估计。行数,优化器用show table status 值。

 IO 能力差,做验证时,可以把innodb_flush_log_at_trx_commit sync_binlog 都设置成 0

评论1

1.a改为(50001,51000),扫描行数没变。优化器给扫描行数有问题执行器没结束循环?(必须执行器上过滤数据,不能在索引上过滤数据)

作者回复: 1. 加了limit 1 减少扫描多少行优化器也不确定,执行才知道,按照“最多可能扫多少行”来显示。

评论2

500万表 分页查询慢。

select * from table where

    create_time and create_time>=时间戳 

    and create_time<=时间戳 

    and subtype='xx' 

    and type='xx' 

    and company_id =x 

order by create_time limited 90,30 ;

建立组合索引 union_index包括 create_time ,subtype, type, company_id

explain 走了create_time索引

语句里加了一个use index(union_index) ,立马好了,真正的解决了客户的实际问题啊。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 优化器的逻辑 优化器没有选择正确的索引,force index 起到了“矫正”的作用。 纠正索引:analyze ...
    那年_匆匆阅读 269评论 0 0
  • 1 使用存储过程生成假数据 2 会走索引 select * from t where a between 1000...
    carlclone阅读 440评论 0 0
  • 今天看到一位朋友写的mysql笔记总结,觉得写的很详细很用心,这里转载一下,供大家参考下,也希望大家能关注他原文地...
    信仰与初衷阅读 4,760评论 0 30
  • 本文主要总结了工作中一些常用的操作及不合理的操作,在对慢查询进行优化时收集的一些有用的资料和信息,本文适合有MyS...
    Chting阅读 614评论 0 1
  • [TOC] MySQL索引和SQL调优 本文有参考网上其他相关文章,本文最后有附参考的链接 MySQL索引 MyS...
    AllenWu阅读 2,612评论 0 43