mysql实战(四)深入浅出索引(上)

  索引的出现是为了提高数据查询效率,就像一本书的目录。

一、索引的常见类型
  1. 哈希表
  2. 有序数组
  3. 搜索树

1、哈希表
  哈希表是一种键-值存储数据的结构,通过哈希函数把key转换成数组中一个确定的位置,然后把value放到这个位置。不同key得到相同位置时,一种解决方法是拉出一个链表,查找该值时遍历该链表。
  但是可以想象,做区间查询时速度会很慢,需要扫描全部的数据。因此,哈希表这种结构适用于只有等值查询的场景,比如Memcached及其他一些NoSQL引擎。

2、有序数组
  有序数组在等值查询和范围查询场景中的性能都很优秀。可以通过二分法O(log(N))快速查到一个递增数组中的值。仅看查询效率,有序数组是最好的数据结构。但是,更新数据时,往中间插入一个记录就必须挪动后面所有的记录,成本太高。因此,有序数组适用用静态存储引擎,如2017年某个城市的人口信息。

3、搜索树
  二叉搜索树的特点是每个节点的左儿子小于父节点,父节点小于右节点。查询时间复杂度为O(log(N))。为了维护O(log(N))的复杂度,要保证这棵树为平衡二叉树,更新的时间复杂度也是O(log(N))
  树有二叉,也有多叉。二叉树搜索效率最高,然而大多数数据库存储不使用二叉。因为索引不只存在内存中,还要写到磁盘上。想象下一颗100万节点的平衡二叉树,树高20,一次查询可能需要访问20个数据块。机械硬盘时代,从磁盘读一数据块需要10ms左右的寻址时间,访问一个100万行的表如果用二叉树存储,可能需要20*10ms毫秒的时间,可真够慢的。
  为了让一个查询尽量少读磁盘,就必须让查询过程访问尽量少的数据块,因此使用'N叉'
  InnoDB的整数字段索引,这个N差不多是1200。当树高为4时,1200的三次方已经可以存储17亿行数据了。考虑到树根总在内存中,一个10亿行表上的整数字段索引,查找一个值最多只需要访问三次磁盘。其实第二层很大概率也在内存中,因此访问磁盘的平均次数就更少了。

二、InnoDB的索引引擎

  InnoDB中,表都是根据主键顺序以索引的形式存放的,这种存储方式的表称为索引组织表。InnoDB使用B+树索引模型,所有的数据都是存在B+树中的。
  每个索引在InnoDB里对应一颗B+树,一张表就是1或者几个B+树组成的。
  如下表:

mysql> create table T(
id int primary key, 
k int not null, 
name varchar(16),
index (k))engine=InnoDB;

  表中 R1~R5 的 (ID,k) 值分别为 (100,1)、(200,2)、(300,3)、(500,5) 和 (600,6),两棵树的示例示意图如下。


InnoDB的索引组织结构

  索引类型根据叶子节点的内容,分为主键索引和非主键索引
  主键索引叶子结点存的是整行数据,主键索引也称为聚簇索引(clustered index)。
  非主键索引叶子结点存的是主键的值,非主键索引也称为二级索引(secondary index)。

基于主键索引和普通索引的查询有什么区别?

  • 如果语句是 select * from T where ID=500,即主键查询方式,则只需要搜索 ID 这棵 B+ 树;
  • 如果语句是 select * from T where k=5,即普通索引查询方式,则需要先搜索 k 索引树,得到 ID 的值为 500,再到 ID 索引树搜索一次。这个过程称为回表
      基于非主键索引的查询需要多扫描一颗索引树,因此应尽量使用主键索引。
三、索引维护

  B+ 树为了维护索引有序性,在插入新值的时候需要做必要的维护。以上面这个图为例,如果插入新的行 ID 值为 700,则只需要在 R5 的记录后面插入一个新记录。如果新插入的 ID 值为 400,则需要逻辑上挪动后面的数据,空出位置。

  而更糟的情况是,如果 R5 所在的数据页已经满了,根据 B+ 树的算法,这时候需要申请一个新的数据页,然后挪动部分数据过去。这个过程称为页分裂。在这种情况下,性能自然会受影响。页分裂操作还影响数据页的利用率。原本放在一个页的数据,现在分到两个页中,整体空间利用率降低大约 50%。

  当相邻两个页由于删除了数据,利用率很低之后,会将数据页做合并。合并的过程,可以认为是分裂过程的逆过程。

为什么往往推荐使用自增主键?
  自增主键的插入数据模式,正符合了我们前面提到的递增插入的场景。每次插入一条新记录,都是追加操作,都不涉及到挪动其他记录,也不会触发叶子节点的分裂。

除了考虑性能外,我们还可以从存储空间的角度来看。

  假设你的表中确实有一个唯一字段,比如字符串类型的身份证号。
  由于每个非主键索引的叶子节点上都是主键的值。如果用身份证号做主键,那么每个二级索引的叶子节点占用约 20 个字节,而如果用整型做主键,则只要 4 个字节,如果是长整型(bigint)则是 8 个字节。

  显然,主键长度越小,普通索引的叶子节点就越小,普通索引占用的空间也就越小。
  所以,从性能和存储空间方面考量,自增主键往往是更合理的选择。**

本文是对极客时间中林晓斌老师的《Mysql实战45讲》的笔记总结,长期更新。
如有侵权,请联系我立刻删除。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容

  • 索引 数据库中的查询操作非常普遍,索引就是提升查找速度的一种手段 索引的类型 从数据结构角度分 1.B+索引:传统...
    一凡呀阅读 2,905评论 0 8
  • 原文:MySQL系统学习(03):深入浅出索引 前言 数据库的索引在日常工作中经常会接触到,重要性我们都很清楚。但...
    程序员网址导航阅读 333评论 2 0
  • 前言 索引,一种强大的存在;不管是什么行业,数据都是根基,终将落盘固化,提供各方检索查询,之前整理了一篇[《深入浅...
    码农戏码阅读 1,519评论 1 43
  • 这篇文章主要涉及到MySQL的知识点: 索引(包括分类及优化方式,失效条件,底层结构) sql语法(join,un...
    一根薯条阅读 2,707评论 0 8
  • 【像藤萝攀缘的触须, 像向日葵旋形环绕的花蕊, 嗯,是那样的, 指向你时, 我...
    刘君眉阅读 267评论 0 5