欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 创投人物 > MySQL查询执行(二):order by工作原理

MySQL查询执行(二):order by工作原理

2024/11/30 9:49:51 来源:https://blog.csdn.net/weixin_47156401/article/details/140738444  浏览:    关键词:MySQL查询执行(二):order by工作原理

假设你要查询城市是“杭州”的所有人名字, 并且按照姓名排序返回前1000个人的姓名、 年龄。

假设这个表的部分定义是这样的:

-- 创建表t
CREATE TABLE `t` (`id` int(11) NOT NULL,`city` varchar(16) NOT NULL,`name` varchar(16) NOT NULL,`age` int(11) NOT NULL,`addr` varchar(128) DEFAULT NULL,
PRIMARY KEY (`id`),
KEY `city` (`city`)) ENGINE=InnoDB;

这时, 你的SQL语句可以这么写:

select city, name, age from t where city='杭州' order by name limit 1000;

全字段排序


为避免全表扫描, 我们需要在city字段加上索引。在city字段上创建索引之后, 我们用explain命令来看看这个语句的执行情况。

Extra这个字段中的“Using filesort”表示的就是需要排序, MySQL会给每个线程分配一块内存用于排序, 称为sort_buffer。

为了说明这个SQL查询语句的执行过程, 我们先来看一下city这个索引的示意图。

通常情况下, 这个语句执行流程如下所示(即全字段排序流程):

1)初始化sort_buffer, 确定放入name、 city、 age这三个字段;

2)从索引city找到第一个满足city='杭州’条件的主键id, 也就是图中的ID_X;

3)到主键id索引取出整行, 取name、 city、 age三个字段的值, 存入sort_buffer中;

4)从索引city取下一个记录的主键id;

5)重复步骤3、 4直到city的值不满足查询条件为止, 对应的主键id也就是图中的ID_Y;

6)对sort_buffer中的数据按照字段name做快速排序;

7)按照排序结果取前1000行返回给客户端。

全字段排序示意图:

注:图中“按name排序”这个动作, 可能在内存中完成, 也可能需要使用外部排序, 这取决于排序所需的内存和参数sort_buffer_size。

sort_buffer_size, 就是MySQL为排序开辟的内存(sort_buffer) 的大小。 如果要排序的数据量小于sort_buffer_size, 排序就在内存中完成。 但如果排序数据量太大, 内存放不下, 则不得不利用磁盘临时文件辅助排序。

问1:什么是sort_buffer?

答:sort buffer是MySQL Server层的一种优化。

1)MySQL会给每个线程分配一块内存用于排序,称为sort_buffer。

2)sort_buffer_size:决定sort_buffer的大小,默认:256KB。

  • 如果要排序的数据量小于sort_buffer_size,排序就在内存中完成。
  • 如果排序数据量太大,内存放不下,则不得不利用磁盘临时文件辅助排序。

3)max_sort_length:决定了放入sort_buffer的一行数据的最大长度,默认:1KB。

4)判断策略:MySQL根据 sort_buffer_size / max_sort_length 估算出sort_buffer可容纳的行数;然后与实际待排序的行数比较,如果待排序行数小于该行数,则在内存排序。

5)可通过HINT显式指定一个语句的sort_buffer大小,比如:

select /*+ SET_VAR(sort_buffer_size = 10M)*/  host, user from mysql.user orderby user desc;

问2:sort_buffer和innodb_sort_buffer的区别是什么?

  1. innodb_sort_buffer:是在执行DML语句时,执行数据更新时,对数据进行排序,然后写入磁盘,以此使得数据能够尽可能”按顺序”插入B+树,以提升性能。
  2. innodb_sort_buffer_size:决定了innodb_sort_buffer的大小,默认:1MB。

问3:如何确定一个排序语句是否使用了临时文件?

答:

/* 打开optimizer_trace,只对本线程有效 */
SET optimizer_trace='enabled=on'; /* @a保存Innodb_rows_read的初始值 */
select VARIABLE_VALUE into @a from  performance_schema.session_status where variable_name = 'Innodb_rows_read';/* 执行语句 */
select city, name, age from t where city='杭州' order by name limit 1000; /* 查看 OPTIMIZER_TRACE 输出 */
SELECT * FROM `information_schema`.`OPTIMIZER_TRACE`\G/* @b保存Innodb_rows_read的当前值 */
select VARIABLE_VALUE into @b from performance_schema.session_status where variable_name = 'Innodb_rows_read';/* 计算Innodb_rows_read差值 */
select @b-@a;

这个方法是通过查看 OPTIMIZER_TRACE 的结果来确认的, 你可以从 number_of_tmp_files中看到是否使用了临时文件。

number_of_tmp_files表示的是, 排序过程中使用的临时文件数。 你一定奇怪, 为什么需要12个文件? 内存放不下时, 就需要使用外部排序, 外部排序一般使用归并排序算法。 可以这么简单理解, MySQL将需要排序的数据分成12份, 每一份单独排序后存在这些临时文件中。 然后把这12个有序文件再合并成一个有序的大文件。

如果sort_buffer_size超过了需要排序的数据量的大小, number_of_tmp_files就是0, 表示排序可以直接在内存中完成。否则就需要放在临时文件中排序。 sort_buffer_size越小, 需要分成的份数越多, number_of_tmp_files的值就越大。

注1:当sort_buffer_size小于需要排序的数据量的大小时,排序流程为:

  1. 把待排序的数据读入sort_buffer,直到读满为止。
  2. 对sort_buffer中的数据进行排序,并把排好序的数据存在一个临时文件中(每一份单独排序后的数据存放到一个临时文件中)。
  3. 清空sort_buffer,继续往sort_buffer中读入剩余待排序数据。
  4. 跳转至步骤二(直至处理完所有数据)。
  5. 最后,对所有临时文件使用归并排序方法进行排序。

注2:对于InnoDB表来说, 执行全字段排序会减少磁盘访问, 因此会被优先选择。

rowid排序


全字段排序算法只对原表的数据读了一遍, 剩下的操作都是在sort_buffer和临时文件中执行的。 但这个算法有一个问题, 就是如果查询要返回的字段很多的话, 那么sort_buffer里面要放的字段数太多, 这样内存里能够同时放下的行数很少, 要分成很多个临时文件, 排序的性能会很差。

问1:如果MySQL认为排序的单行长度太大会怎么做呢?

答:如果MySQL认为单行太大, 它会换一个算法。什么时候换算法由参数max_length_for_sort_data决定。

max_length_for_sort_data, 是MySQL中专门控制用于排序的行数据的长度的一个参数。 它的意思是, 如果单行的长度超过这个值, MySQL就认为单行太大, 要换一个算法。

假设city、 name、 age这三个字段的定义总长度是36, 我把max_length_for_sort_data设置为16(如下所示), 我们再来看看计算过程有什么改变。

// 把用于排序的行数据长度设为16
SET max_length_for_sort_data = 16;

新算法放入sort_buffer的字段, 只有要排序的列( 即name字段) 和主键id。

但这时, 排序的结果就因为少了city和age字段的值, 不能直接返回了, 整个执行流程就变成如下所示的样子(rowid排序):

1)初始化sort_buffer, 确定放入两个字段, 即name和id;

2)从索引city找到第一个满足city='杭州’条件的主键id, 也就是图中的ID_X;

3)到主键id索引取出整行, 取name、 id这两个字段, 存入sort_buffer中;

4)从索引city取下一个记录的主键id;

5)重复步骤3、 4直到不满足city='杭州’条件为止, 也就是图中的ID_Y;

6)对sort_buffer中的数据按照字段name进行排序;

7)遍历排序结果, 取前1000行, 并按照id的值回到原表中取出city、 name和age三个字段返回给客户端。

rowid排序示意图:

问2:根据这个说明过程和图示, 你可以想一下, 这个时候执行select @b-@a, 结果会是多少呢?

rowid排序的OPTIMIZER_TRACE部分输出:

图中的examined_rows的值还是4000, 表示用于排序的数据是4000行。 但是select @b- @a这个语句的值变成5000了。因为排序后需要输出的1000行数据都需要回表操作,所以多了1000行。

注:

  1. sort_mode变成了, 表示参与排序的只有name和id这两个字段。
  2. number_of_tmp_files变成10了, 是因为这时候参与排序的行数虽然仍然是4000行, 但是每一行都变小了, 因此需要排序的总数据量就变小了, 需要的临时文件也相应地变少了。

全字段排序 VS rowid排序


因为rowid排序涉及回表,因此在内存够用的情况下优先选择全字段排序。

这也是MySQL的一个设计思想:如果内存够用,就要多利用内存,尽量减少磁盘访问。

对于InnoDB表来说, rowid排序会要求回表多造成磁盘读, 因此不会被优先选择。

由此得出MySQL做排序是一个成本比较高的操作。

问:是不是所有的order by都需要排序操作呢?

答:并不是所有的order by语句, 都需要排序操作的。

从上面分析的执行过程, 我们可以看到, MySQL之所以需要生成临时表, 并且在临时表上做排序操作, 其原因是原来的数据都是无序的。

如果能够保证从city这个索引上取出来的行, 天然就是按照name递增排序的话,那么就不用再排序了。

利用索引减少排序

就前面的表t而言,可以在该表上创建一个city和name的联合索引, 对应的SQL语句是:

alter table t add index city_user(city, name);

作为与city索引的对比, 我们来看看这个索引的示意图。

在联合索引下,只要city的值是杭州, name的值就一定是有序的。

整个查询过程如下:

  1. 从索引(city, name)找到第一个满足city='杭州’条件的主键id。
  2. 到主键id索引取出整行, 取name、 city、 age三个字段的值, 作为结果集的一部分直接返回。
  3. 从索引(city, name)取下一个记录主键id。
  4. 重复步骤2、 3, 直到查到第1000条记录, 或者是不满足city='杭州’条件时循环结束。

联合索引查询示意图:

可以看到, 这个查询过程不需要临时表, 也不需要排序。 接下来, 我们用explain的结果来印证一下。

从图中可以看到, Extra字段中没有Using filesort了, 也就是不需要排序了。 而且由于(city,name)这个联合索引本身有序, 所以这个查询也不用把4000行全都读一遍, 只要找到满足条件的前1000条记录就可以退出了。 也就是说, 在我们这个例子里, 只需要扫描1000次。

覆盖索引减少回表

虽然上述联合索引可以避免排序,但仍存在回表操作,仍会有磁盘IO消耗。

针对这个查询, 我们可以创建一个city、 name和age的联合索引, 对应的SQL语句就是:

alter table t add index city_user_age(city, name, age);

这时, 对于city字段的值相同的行来说, 还是按照name字段的值递增排序的, 此时的查询语句也就不再需要排序了。

这样整个查询语句的执行流程就变成了:

  1. 从索引(city,name,age)找到第一个满足city='杭州’条件的记录, 取出其中的city、 name和age这三个字段的值, 作为结果集的一部分直接返回;
  2. 从索引(city,name,age)取下一个记录, 同样取出这三个字段的值, 作为结果集的一部分直接返回;
  3. 重复执行步骤2, 直到查到第1000条记录, 或者是不满足city='杭州’条件时循环结束。

覆盖索引查询执行示意图:

再来看看explain的结果

可以看到, Extra字段里面多了“Using index”, 表示的就是使用了覆盖索引, 性能上会快很多。

注:并不是说要为了每个查询能用上覆盖索引, 就要把语句中涉及的字段都建上联合索引, 毕竟索引还是有维护代价的。 这是一个需要权衡的决定。

小结:思考题


假设你的表里面已经有了city_name(city, name)这个联合索引, 然后你要查杭州和苏州两个城市中所有的市民的姓名, 并且按名字排序, 显示前100条记录。 如果SQL查询语句是这么写的 :

select * from t where city in ('杭州',"苏州") order by name limit 100;

思考1:这个语句执行的时候会有排序过程吗?

答:有排序。虽然有(city,name)联合索引, 对于单个city内部, name是递增的。 但是由于这条SQL语句不是要单独地查一个city的值, 而是同时查了"杭州"和" 苏州 "两个城市, 因此所有满足条件的name就不是递增的了。 也就是说, 这条SQL语句需要排序。

思考2:如何避免排序?

答:用到(city,name)联合索引的特性, 把这一条语句拆成两条语句(将结果集在业务端排序,取前100条), 执行流程如下:

1)执行select * from t where city=“杭州” order byname limit 100; 这个语句是不需要排序的, 客户端用一个长度为100的内存数组A保存结果。

2)执行select * from t where city=“苏州” order byname limit 100; 用相同的方法, 假设结果被存进了内存数组B。

3)现在A和B是两个有序数组, 然后你可以用归并排序的思想, 得到name最小的前100值, 就是我们需要的结果了。

思考3:如果有分页需求,要显示第101页,即语句最后要改成 “limit 10000,100”,如何实现?

分别执行如下两条语句,将结果集在业务端排序,取前100条;

select * from t where city in ('杭州') order by name limit 10100;
select * from t where city in ("苏州") order by name limit 10100;

这时候数据量较大, 可以同时起两个连接一行行读结果, 用归并排序算法拿到这两个结果集里,按顺序取第10001~10100的name值, 就是需要的结果了。

当然这个方案有一个明显的损失, 就是从数据库返回给客户端的数据量变大了。所以, 如果数据的单行比较大的话, 可以考虑把这两条SQL语句改成下面这种写法:

select id, name from t where city="杭州" order by name limit 10100;
select id, name from t where city="苏州" order by name limit 10100;

然后, 再用归并排序的方法取得按name顺序第10001~10100的name、 id的值, 然后拿着这100个id到数据库中去查出所有记录。

上面这些方法, 需要你根据性能需求和开发的复杂度做出权衡。

思考4:无条件的order by语句是否走索引?

场景1)只有order by create_time,即便create_time上有索引,也不走。

因为优化器认为走二级索引再去回表成本比全表扫描排序更高。所以选择走全表扫描,然后根据前述两种排序方式选择一种来排序。

场景2)order by create_time limit m,如果m值较小,可以走索引。

因为优化器认为根据索引有序性去回表查数据,然后得到m条数据,就可以终止循环,那么成本比全表扫描小,则选择走二级索引。

即便没有二级索引,mysql针对order by limit也做了优化,采用堆排序。

注:说白了都是基于CBO的考量。

思考5:使用group by语句是否走索引?

场景1)如果是group by a,a上不能使用索引,则走rowid排序。

场景2)如果是group by limit,不能使用索引,则走堆排序。

场景3)如果是只有group by a,a上有索引,则根据选取值不同,索引的扫描方式不同:

  1. select * from t group by a -- 走索引全扫描。
  2. select a from t group by a --走的是索引松散扫描,也就说只需要扫描每组的第一行数据即可,不用扫描每一行的值。

思考6:bigint/int类型,在其后加数字是否影响其占用空间大小?

答:不影响,bigint(1)和bigint(19)都能存储2^64-1范围内的值,int是2^32-1。只是有些前端会根据括号里来截取显示而已。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com