首页 文章资讯内容详情

MySQL SQL优化

2026-05-31 5 花语

本文内容纲要:

-前言 -优化目标 -优化方法 -常见误区 -基本原则

前言

有人反馈之前几篇文章过于理论缺少实际操作细节,这篇文章就多一些可操作性的内容吧。

注:这篇文章是以MySQL为背景,很多内容同时适用于其他关系型数据库,需要有一些索引知识为基础。

优化目标

1.减少IO次数

IO永远是数据库最容易瓶颈的地方,这是由数据库的职责所决定的,大部分数据库操作中超过90%的时间都是IO操作所占用的,减少IO次数是SQL优化中需要第一优先考虑,当然,也是收效最明显的优化手段。

2.降低CPU计算

除了IO瓶颈之外,SQL优化中需要考虑的就是CPU运算量的优化了。orderby,groupby,distinct…都是消耗CPU的大户(这些操作基本上都是CPU处理内存中的数据比较运算)。当我们的IO优化做到一定阶段之后,降低CPU计算也就成为了我们SQL优化的重要目标

优化方法

改变SQL执行计划

明确了优化目标之后,我们需要确定达到我们目标的方法。对于SQL语句来说,达到上述2个目标的方法其实只有一个,那就是改变SQL的执行计划,让他尽量“少走弯路”,尽量通过各种“捷径”来找到我们需要的数据,以达到“减少IO次数”和“降低CPU计算”的目标

常见误区

1.count(1)和count(primary_key)优于count(*)

很多人为了统计记录条数,就使用count(1)和count(primary_key)而不是count(*),他们认为这样性能更好,其实这是一个误区。对于有些场景,这样做可能性能会更差,应为数据库对count(*)计数操作做了一些特别的优化。

2.count(column)和count(*)是一样的

这个误区甚至在很多的资深工程师或者是DBA中都普遍存在,很多人都会认为这是理所当然的。实际上,count(column)和count(*)是一个完全不一样的操作,所代表的意义也完全不一样。

count(column)是表示结果集中有多少个column字段不为空的记录

count(*)是表示整个结果集有多少条记录

3.selecta,bfrom…比selecta,b,cfrom…可以让数据库访问更少的数据量

这个误区主要存在于大量的开发人员中,主要原因是对数据库的存储原理不是太了解。

实际上,大多数关系型数据库都是按照行(row)的方式存储,而数据存取操作都是以一个固定大小的IO单元(被称作block或者page)为单位,一般为4KB,8KB…大多数时候,每个IO单元中存储了多行,每行都是存储了该行的所有字段(lob等特殊类型字段除外)。

所以,我们是取一个字段还是多个字段,实际上数据库在表中需要访问的数据量其实是一样的。

当然,也有例外情况,那就是我们的这个查询在索引中就可以完成,也就是说当只取a,b两个字段的时候,不需要回表,而c这个字段不在使用的索引中,需要回表取得其数据。在这样的情况下,二者的IO量会有较大差异。

4.orderby一定需要排序操作

我们知道索引数据实际上是有序的,如果我们的需要的数据和某个索引的顺序一致,而且我们的查询又通过这个索引来执行,那么数据库一般会省略排序操作,而直接将数据返回,因为数据库知道数据已经满足我们的排序需求了。

实际上,利用索引来优化有排序需求的SQL,是一个非常重要的优化手段

延伸阅读:MySQLORDERBY的实现分析,MySQL中GROUPBY基本实现原理以及MySQLDISTINCT的基本实现原理这3篇文章中有更为深入的分析,尤其是第一篇

5.执行计划中有filesort就会进行磁盘文件排序

有这个误区其实并不能怪我们,而是因为MySQL开发者在用词方面的问题。filesort是我们在使用explain命令查看一条SQL的执行计划的时候可能会看到在“Extra”一列显示的信息。

实际上,只要一条SQL语句需要进行排序操作,都会显示“Usingfilesort”,这并不表示就会有文件排序操作。

基本原则

1.尽量少join

MySQL的优势在于简单,但这在某些方面其实也是其劣势。MySQL优化器效率高,但是由于其统计信息的量有限,优化器工作过程出现偏差的可能性也就更多。对于复杂的多表Join,一方面由于其优化器受限,再者在Join这方面所下的功夫还不够,所以性能表现离Oracle等关系型数据库前辈还是有一定距离。但如果是简单的单表查询,这一差距就会极小甚至在有些场景下要优于这些数据库前辈。

2.尽量少排序

排序操作会消耗较多的CPU资源,所以减少排序可以在缓存命中率高等IO能力足够的场景下会较大影响SQL的响应时间。

对于MySQL来说,减少排序有多种办法,比如:

上面误区中提到的通过利用索引来排序的方式进行优化

减少参与排序的记录条数

非必要不对数据进行排序

3.尽量避免select*

很多人看到这一点后觉得比较难理解,上面不是在误区中刚刚说select子句中字段的多少并不会影响到读取的数据吗?

是的,大多数时候并不会影响到IO量,但是当我们还存在orderby操作的时候,select子句中的字段多少会在很大程度上影响到我们的排序效率,这一点可以通过我之前一篇介绍MySQLORDERBY的实现分析的文章中有较为详细的介绍。

此外,上面误区中不是也说了,只是大多数时候是不会影响到IO量,当我们的查询结果仅仅只需要在索引中就能找到的时候,还是会极大减少IO量的。

4.尽量用join代替子查询

虽然Join性能并不佳,但是和MySQL的子查询比起来还是有非常大的性能优势。MySQL的子查询执行计划一直存在较大的问题,虽然这个问题已经存在多年,但是到目前已经发布的所有稳定版本中都普遍存在,一直没有太大改善。虽然官方也在很早就承认这一问题,并且承诺尽快解决,但是至少到目前为止我们还没有看到哪一个版本较好的解决了这一问题。

5.尽量少or

当where子句中存在多个条件以“或”并存的时候,MySQL的优化器并没有很好的解决其执行计划优化问题,再加上MySQL特有的SQL与Storage分层架构方式,造成了其性能比较低下,很多时候使用unionall或者是union(必要的时候)的方式来代替“or”会得到更好的效果。

6.尽量用unionall代替union

union和unionall的差异主要是前者需要将两个(或者多个)结果集合并后再进行唯一性过滤操作,这就会涉及到排序,增加大量的CPU运算,加大资源消耗及延迟。所以当我们可以确认不可能出现重复结果集或者不在乎重复结果集的时候,尽量使用unionall而不是union。

7.尽量早过滤

这一优化策略其实最常见于索引的优化设计中(将过滤性更好的字段放得更靠前)。

在SQL编写中同样可以使用这一原则来优化一些Join的SQL。比如我们在多个表进行分页数据查询的时候,我们最好是能够在一个表上先过滤好数据分好页,然后再用分好页的结果集与另外的表Join,这样可以尽可能多的减少不必要的IO操作,大大节省IO操作所消耗的时间。

8.避免类型转换

这里所说的“类型转换”是指where子句中出现column字段的类型和传入的参数类型不一致的时候发生的类型转换:

人为在column_name上通过转换函数进行转换

直接导致MySQL(实际上其他数据库也会有同样的问题)无法使用索引,如果非要转换,应该在传入的参数上进行转换

由数据库自己进行转换

如果我们传入的数据类型和字段类型不一致,同时我们又没有做任何类型转换处理,MySQL可能会自己对我们的数据进行类型转换操作,也可能不进行处理而交由存储引擎去处理,这样一来,就会出现索引无法使用的情况而造成执行计划问题。

9.优先优化高并发的SQL,而不是执行频率低某些“大”SQL

对于破坏性来说,高并发的SQL总是会比低频率的来得大,因为高并发的SQL一旦出现问题,甚至不会给我们任何喘息的机会就会将系统压跨。而对于一些虽然需要消耗大量IO而且响应很慢的SQL,由于频率低,即使遇到,最多就是让整个系统响应慢一点,但至少可能撑一会儿,让我们有缓冲的机会。

10.从全局出发优化,而不是片面调整

SQL优化不能是单独针对某一个进行,而应充分考虑系统中所有的SQL,尤其是在通过调整索引优化SQL的执行计划的时候,千万不能顾此失彼,因小失大。

11.尽可能对每一条运行在数据库中的SQL进行explain

优化SQL,需要做到心中有数,知道SQL的执行计划才能判断是否有优化余地,才能判断是否存在执行计划问题。在对数据库中运行的SQL进行了一段时间的优化之后,很明显的问题SQL可能已经很少了,大多都需要去发掘,这时候就需要进行大量的explain操作收集执行计划,并判断是否需要进行优化。

原文地址:http://isky000.com/database/mysql-performance-tuning-sql

本文内容总结:前言,优化目标,优化方法,常见误区,基本原则,

原文链接:https://www.cnblogs.com/ggjucheng/archive/2012/11/11/2765465.html