Python批量写入数据到PostgreSQL三种主流方案对比详解

更新时间：2026年01月30日 08:19:22 作者：detayun

本文对比了Python结合PostgreSQL三种主流方案（executemany()、COPY命令、pandas.to_sql()）在百万级和千万级数据写入场景下的性能,并提出了优化建议,包括预处理语句、多线程并行写入等,需要的朋友可以参考下

一、性能测试环境

硬件配置：AWS EC2 r5.4xlarge实例（16核64GB内存）
数据库版本：PostgreSQL 17.0
数据规模：单表1000万条记录（每条记录含10个字段，总大小约1.2GB）
测试指标：写入速度（条/秒）、内存占用、CPU利用率

二、三种主流方案深度对比

方案1：executemany()批量插入（基础方案）

import psycopg2
from psycopg2.extras import execute_values

def executemany_insert(data):
    conn = psycopg2.connect(...)
    cursor = conn.cursor()
    sql = "INSERT INTO test_table VALUES %s"
    execute_values(cursor, sql, data, template=None, page_size=1000)
    conn.commit()

性能表现：

写入速度：约8,200条/秒
内存占用：峰值12GB（处理1000万条数据时）
CPU利用率：单核满载（约100%）

适用场景：

数据量较小（<10万条）
简单字段类型（无JSON/数组等复杂类型）
开发环境快速验证

优化建议：

调整page_size参数（实测500-2000为最佳区间）
配合连接池使用（如DBUtils.PooledDB）

方案2：COPY命令（高性能方案）

from io import StringIO
import pandas as pd

def copy_insert(df):
    conn = psycopg2.connect(...)
    cursor = conn.cursor()
    output = StringIO()
    df.to_csv(output, sep='\t', header=False, index=False)
    output.seek(0)
    cursor.copy_from(output, 'test_table', null='')
    conn.commit()

性能表现：

写入速度：约19,500条/秒（PostgreSQL官方实测数据）
内存占用：峰值8GB（处理1000万条数据时）
CPU利用率：多核并行（约300%利用率）

关键优势：

绕过SQL解析层，直接写入数据文件
支持事务批量提交（减少I/O操作）
天然支持复杂数据类型（JSONB/数组等）

注意事项：

数据格式要求严格（需处理特殊字符转义）
错误处理较复杂（需捕获psycopg2.DataError）
不支持ON CONFLICT等高级SQL语法

方案3：pandas.to_sql()（便捷方案）

from sqlalchemy import create_engine
import pandas as pd

def pandas_insert(df):
    engine = create_engine('postgresql://...')
    df.to_sql('test_table', engine, if_exists='append', index=False, chunksize=5000)

性能表现：

写入速度：约3,200条/秒
内存占用：峰值15GB（处理1000万条数据时）
CPU利用率：单核中等负载（约60%）

适用场景：

数据预处理复杂（需大量pandas操作）
开发效率优先
小批量数据更新

性能瓶颈：

逐条生成INSERT语句
频繁的客户端-服务器通信
缺乏连接复用机制

三、进阶优化方案

1. 预处理语句（Prepared Statements）

def prepared_insert(data_batches):
    with connection.cursor() as cursor:
        pg_conn = cursor.connection
        pg_cursor = pg_conn.cursor()
        pg_cursor.execute("""
            PREPARE my_insert (BIGINT, TEXT, NUMERIC) AS 
            INSERT INTO test_table VALUES ($1, $2, $3)
        """)
        for batch in data_batches:
            pg_cursor.execute("BEGIN")
            for row in batch:
                pg_cursor.execute("EXECUTE my_insert (%s, %s, %s)", row)
            pg_cursor.execute("COMMIT")

性能提升：

解析开销降低70%
适合重复执行相同结构的插入操作
支持ON CONFLICT等复杂逻辑

2. 多线程并行写入

from concurrent.futures import ThreadPoolExecutor

def parallel_copy(df_list):
    def process_chunk(df):
        conn = psycopg2.connect(...)
        cursor = conn.cursor()
        output = StringIO()
        df.to_csv(output, sep='\t', header=False, index=False)
        output.seek(0)
        cursor.copy_from(output, 'test_table', null='')
        conn.commit()
    
    with ThreadPoolExecutor(max_workers=4) as executor:
        executor.map(process_chunk, df_list)

性能表现：

4线程时写入速度达28,000条/秒
需注意：
- 数据库连接数限制
- 事务隔离级别设置
- 磁盘I/O成为新瓶颈

四、实测数据对比

方案	写入速度（条/秒）	内存占用	CPU利用率	复杂度
executemany()	8,200	12GB	100%	★☆☆
COPY命令	19,500	8GB	300%	★★☆
pandas.to_sql()	3,200	15GB	60%	★★★
预处理语句	14,000	10GB	150%	★★☆
多线程COPY	28,000	12GB	400%	★★★★

五、最佳实践建议

百万级数据：优先使用COPY命令，配合连接池管理
千万级数据：采用多线程COPY方案，注意：
- 调整max_prepared_transactions参数
- 增大shared_buffers（建议设为物理内存的25%）
- 优化checkpoint_completion_target（建议0.9）
实时更新场景：预处理语句+连接池组合
复杂ETL流程：pandas预处理+COPY最终写入

六、性能调优参数

# postgresql.conf 关键参数
max_connections = 200
shared_buffers = 16GB
work_mem = 64MB
maintenance_work_mem = 1GB
max_wal_size = 4GB
checkpoint_completion_target = 0.9
bgwriter_lru_maxpages = 1000

结语

在PostgreSQL 17.0的测试环境中，COPY命令展现出碾压性优势，其写入速度是传统executemany()方案的2.4倍。对于超大规模数据导入，结合多线程与预处理语句的混合方案可将性能提升至接近理论极限。实际生产环境中，建议根据数据特征（字段复杂度、更新频率等）选择最适合的方案，并通过监控工具（如pgBadger）持续优化。

以上就是Python批量写入数据到PostgreSQL三种主流方案对比详解的详细内容，更多关于Python写入数据到PostgreSQL的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python第三方库face_recognition在windows上的安装过程
今天为大家介绍下face recognition在Windows系统上安装与使用，但在Windows平台上face recognition性能会有所下降
2019-05-05
基于django channel实现websocket的聊天室的方法示例
这篇文章主要介绍了基于基于django channel实现websocket的聊天室的方法示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2019-04-04
在 pytorch 中实现计算图和自动求导
这篇文章主要介绍了在 pytorch 中实现计算图和自动求导，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
2022-06-06
使用Python进行数据清洗和预处理的实现代码
Python作为数据科学领域的热门编程语言,提供了丰富的库和工具来处理和清洗数据,本文将介绍如何使用Python进行数据清洗和预处理,并提供相应的代码示例,需要的朋友可以参考下
2024-05-05
python3.3实现乘法表示例
这篇文章主要介绍了python3.3实现乘法表示例,需要的朋友可以参考下
2014-02-02
Python中将图像转换为PDF的方法实现
本文主要介绍了Python中将图像转换为PDF的方法实现,主要使用img2pdf和PyPDF2软件包,具有一定的参考价值,感兴趣的可以了解一下
2023-08-08
pycharm下查看python的变量类型和变量内容的方法
今天小编就为大家分享一篇pycharm下查看python的变量类型和变量内容的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-06-06
python利用winreg生成桌面路径及实现扫描二维码图片返回相关信息
这篇文章主要介绍了python生成桌面路径及实现扫描二维码图片返回相关信息，winreg是python的一个标准库，用来对windows注册表的操作，更多相关内容需要的小伙伴可以参考一下
2022-06-06
关于Django外键赋值问题详解
这段时间用django 做程序用到了一对多的关系的操作，下面分享一些心得体会，这篇文章主要给大家介绍了关于Django外键赋值问题的相关资料，需要的朋友可以参考借鉴，下面来一起看看吧。
2017-08-08
详解Python为什么不用设计模式
今天给大家带来的是关于Python的相关知识,文章围绕着为什么Python不用设计模式展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
2021-06-06