探讨select in 在postgresql的效率问题

更新时间：2016年04月06日 09:56:41 作者：db2zos

这篇文章主要介绍了探讨select in 在postgresql的效率问题的相关资料,需要的朋友可以参考下

在知乎上看到这样一个问题：

MySQL 查询 select * from table where id in (几百或几千个 id) 如何提高效率？修改

电商网站，一个商品属性表，几十万条记录，80M，索引只有主键id，做这样的查询如何提高效率？

select * from table where id in (几百或几千个id)

这些id没啥规律，分散的。。。。

看了一下答案，感觉有好多不靠谱的，但是口说无凭，所以在我的电脑上写了几个查询测试一下。我用的是Postgresql9.4，但感觉mysql应该也差不多，首先创建一个简单表，只有简单的3列，在这个问题的下面好多人提到了需要看表的大小，其实这个问题和表大小无关，只和index的大小有关，因为是index是建立在int上的，所以只和纪录数目有关。

Table "public.t9"
Column | Type | Modifiers
--------+----------------+-----------
c1 | integer |
c2 | character(100) |
c3 | character(200) |
Indexes:
"i1" UNIQUE, btree (c1)insert into t9 values(generate_series(1000,500000,1),repeat('a',90),repeat('b',180));

之后生成一些随机数，Mac上用jot，Linux上用shuf

for ((i=0;i<100000;i++))
do
jot -r 1 1000 600000 >>rand.file
done

然后根据rand.file 生成查询语句：

select * from t9 where c1 in (
494613,
575087,
363588,
527650,
251670,
343456,
426858,
202886,
254037,
...
1
);

分别生成3个sql文件，in内变量的数目分别是100，1000和10000个，执行这3个sql文件，看看时间

try psql study -f test_100.sql -o /dev/null
LOG: duration: 2.879 ms
try psql study -f test_1000.sql -o /dev/null
LOG: duration: 11.974 ms
try psql study -f test_10000.sql -o /dev/null
LOG: duration: 355.689 ms

可以看到只有在in内数据到了10，000个的时候数据时间会有比较大的变化，但也不过是在300多ms内完成。

那如果按照有些回答那样，先建一个临时表，然后用in subquery，并且希望这时候可以两表join呢？为了简单我直接用两表join了

drop table t_tmp;
create table t_tmp(id int);
insert into t_tmp (id) values
(494613),
(575087),
(363588),
(345980),...
(1);
select t9.* from t9, t_tmp
where t9.c1 = t_tmp.id;

时间如何呢？

try psql study -f test_create_10000.sql -o /dev/null
LOG: duration: 2.078 ms
LOG: duration: 1.233 ms
LOG: duration: 224.112 ms
LOG: duration: 322.108 ms

除去drop和create的时间，依然花费了500+的时间，这里的前提还是我用的ssd盘，所以写LOG的时间会快很多。为什么会这么慢呢？用explain看一下，这时候数据量较大，直接走Merge join 了

那1000行数据的效率如何呢？

try psql study -f test_create_1000.sql -o exp.out
LOG: duration: 2.476 ms
LOG: duration: 0.967 ms
LOG: duration: 2.391 ms
LOG: duration: 8.780 ms

100行的数据如下：

try psql study -f test_create_100.sql -o /dev/null
LOG: duration: 2.020 ms
LOG: duration: 1.028 ms
LOG: duration: 1.074 ms
LOG: duration: 1.912 ms

可以看到在100个值和1000个值的情况下create table的方式不会比直接在in里面写所有的变量好多少，explain看的话是在用NLJ了。但在数据量更大（按照原问题，这里in的数量其实无法预知）的情况下效率只会更低，再加上额外的表维护成本和多余的SQL语句，DBA肯定不喜欢的，还是相信数据库，放心大胆直接用in list来搞定这些问题吧。

以上内容是针对select in 在postgresql的效率问题，希望对大家有所帮助！

您可能感兴趣的文章:

SQL Server 数据库分离与附加(图文教程)
SQL Server 数据库分离与附加(图文教程)，需要的朋友可以参考一下
2013-05-05
SQL Server误区30日谈第8天有关对索引进行在线操作的误区
在线索引操作会在操作开始时和操作结束时对资源上短暂的锁。这有可能导致严重的阻塞问题
2013-01-01
整理一下SQLSERVER的排序规则
整理一下SQLSERVER的排序规则...
2006-09-09
SQL Server中使用判断语句（IF ELSE/CASE WHEN ）案例
这篇文章主要介绍了SQL Server中使用判断语句（IF ELSE/CASE WHEN ）案例,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
2021-07-07
详解SQL Server 中 JSON_MODIFY 的使用
SQL Server 从 2016 开始支持了一些 JSON操作，最近的项目里也是好多地方字段直接存成了 JSON，需要了解一下怎么在SQL Server 中操作 JSON.这篇文章主要介绍了SQL Server 中 JSON_MODIFY 的使用,需要的朋友可以参考下
2019-11-11
关于if exists的用法及说明
这篇文章主要介绍了关于if exists的用法及说明，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-09-09
一文教会你在sqlserver中创建表
在使用SQL server新建数据库后,接下来我们就需要新建表了,下面这篇文章主要给大家介绍了关于在sqlserver中创建表的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
2022-04-04
SQL Server中锁的用法
这篇文章介绍了SQL Server中锁的用法，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-05-05
SQL Server中索引的用法详解
本文详细讲解了SQL Server中索引的用法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-05-05
SQL Server实现group_concat功能的详细实例
group_concat函数能将相同的行组合起来,下面这篇文章主要给大家介绍了关于SQL Server实现group_concat功能的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-08-08

探讨select in 在postgresql的效率问题

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具