Pandas使用SQLite3实战

 更新时间:2025年04月02日 10:09:04   作者:老哥不老  
本文主要介绍了Pandas使用SQLite3实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

让数据分析更高效!用 Pandas 直接读写 SQLite3 数据,告别手动拼接 SQL 语句!

1 环境准备

确保已安装 pandas 和 sqlite3(前者需单独安装,后者是 Python 内置):

pip install pandas

2 从 SQLite3 读取数据到 DataFrame

基础用法:读取整个表

import pandas as pd
import sqlite3

# 连接到数据库
conn = sqlite3.connect('test.db')

# 读取 users 表到 DataFrame
df = pd.read_sql('SELECT * FROM users', conn)
print(df.head())  # 查看前5行数据

# 关闭连接
conn.close()

高级用法:筛选和聚合

query = '''
    SELECT 
        name, 
        AVG(age) as avg_age   -- 计算平均年龄
    FROM users 
    WHERE age > 20 
    GROUP BY name
'''
df = pd.read_sql(query, conn)
print(df)

3 将 DataFrame 写入 SQLite3

基本写入(全量覆盖)

# 创建一个示例 DataFrame
data = {
    'name': ['David', 'Eve'],
    'age': [28, 32],
    'email': ['david@test.com', 'eve@test.com']
}
df = pd.DataFrame(data)

# 写入到 users 表(全量覆盖)
df.to_sql(
    name='users',     # 表名
    con=conn,         # 数据库连接
    if_exists='replace',  # 如果表存在,直接替换(慎用!)
    index=False       # 不保存 DataFrame 的索引列
)
conn.commit()

追加数据(增量写入)

df.to_sql(
    name='users',
    con=conn,
    if_exists='append',  # 追加到现有表
    index=False
)
conn.commit()

4 实战场景:数据清洗 + 入库

假设有一个 CSV 文件 dirty_data.csv,需要清洗后存入 SQLite3:

id,name,age,email
1, Alice,30,alice@example.com
2, Bob , invalid, bob@example.com  # 错误年龄
3, Charlie,35,missing_email

步骤 1:用 Pandas 清洗数据

# 读取 CSV
df = pd.read_csv('dirty_data.csv')

# 清洗操作
df['age'] = pd.to_numeric(df['age'], errors='coerce')  # 无效年龄转为 NaN
df = df.dropna(subset=['age'])                        # 删除年龄无效的行
df['email'] = df['email'].fillna('unknown')            # 填充缺失邮箱
df['name'] = df['name'].str.strip()                   # 去除名字前后空格

print(df)

步骤 2:写入数据库

with sqlite3.connect('test.db') as conn:
    # 写入新表 cleaned_users
    df.to_sql('cleaned_users', conn, index=False, if_exists='replace')
    
    # 验证写入结果
    df_check = pd.read_sql('SELECT * FROM cleaned_users', conn)
    print(df_check)

5 性能优化:分块写入大数据

处理超大型数据时(如 10 万行),避免一次性加载到内存:

# 分块读取 CSV(每次读 1 万行)
chunk_iter = pd.read_csv('big_data.csv', chunksize=1000)

with sqlite3.connect('big_db.db') as conn:
    for chunk in chunk_iter:
        # 对每个块做简单处理
        chunk['timestamp'] = pd.to_datetime(chunk['timestamp'])
        # 分块写入数据库
        chunk.to_sql(
            name='big_table',
            con=conn,
            if_exists='append',  # 追加模式
            index=False
        )
    print("全部写入完成!")

6 高级技巧:直接执行 SQL 操作

Pandas 虽然强大,但复杂查询仍需直接操作 SQL:

# 创建临时 DataFrame
df = pd.DataFrame({'product': ['A', 'B', 'C'], 'price': [10, 200, 150]})

# 写入 products 表
df.to_sql('products', conn, index=False, if_exists='replace')

# 执行复杂查询(连接 users 和 orders 表)
query = '''
    SELECT 
        u.name,
        p.product,
        p.price
    FROM users u
    JOIN orders o ON u.id = o.user_id
    JOIN products p ON o.product_id = p.id
    WHERE p.price > 10
'''
result_df = pd.read_sql(query, conn)
print(result_df)

7 避坑指南

数据类型匹配问题

  • SQLite 默认所有列为 TEXT,但 Pandas 会自动推断类型。
  • 写入时可用 dtype 参数手动指定类型:
    df.to_sql('table', conn, dtype={'age': 'INTEGER', 'price': 'REAL'})
    
  • 主键和索引

    • Pandas 不会自动创建主键或索引,需提前用 SQL 语句定义表结构。
  • 性能瓶颈

    • 写入大量数据时,关闭事务自动提交可提速:
      with conn:
          df.to_sql(...)  # 使用上下文管理器自动提交
      

8 总结

通过 Pandas + SQLite3 的组合,你可以:
✅ 快速导入/导出数据:告别手动拼接 SQL 语句。
✅ 无缝衔接数据分析:清洗、计算、可视化后直接入库。
✅ 处理海量数据:分块读写避免内存爆炸。

下一步建议

  • 尝试将 Excel/CSV 文件自动同步到 SQLite3 数据库。
  • 学习使用 sqlalchemy 库增强 SQL 操作能力。

到此这篇关于Pandas使用SQLite3实战的文章就介绍到这了,更多相关Pandas使用SQLite3内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家! 

相关文章

  • Python中json常见四种用法举例

    Python中json常见四种用法举例

    这篇文章主要给大家介绍了关于Python中json常见四种用法举例的相关资料,众所周知JSON是一种轻量级的数据交换格式,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2023-08-08
  • 详解python中的生成器、迭代器、闭包、装饰器

    详解python中的生成器、迭代器、闭包、装饰器

    这篇文章主要介绍了python中的生成器、迭代器、闭包、装饰器的相关知识,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-08-08
  • python模块之StringIO使用示例

    python模块之StringIO使用示例

    这篇文章主要介绍了python模块之StringIO使用示例,本文直接给出示例代码,需要的朋友可以参考下
    2015-04-04
  • Python下载的11种姿势(小结)

    Python下载的11种姿势(小结)

    这篇文章主要介绍了Python下载的11种姿势(小结),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11
  • Python + Streamlit项目部署方案超详细教程(非Docker版)

    Python + Streamlit项目部署方案超详细教程(非Docker版)

    Streamlit是一款强大的Python框架,专为机器学习及数据可视化打造,这篇文章主要介绍了Python + Streamlit项目部署方案(非Docker版)的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2025-11-11
  • Python 实现简单的客户端认证

    Python 实现简单的客户端认证

    这篇文章主要介绍了Python 如何实现简单的客户端认证,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • Python实现npy/mat文件的保存与读取

    Python实现npy/mat文件的保存与读取

    除了常用的csv文件和excel文件之外,我们还可以通过Python把数据保存文npy文件格式和mat文件格式。本文为大家展示了实现npy文件与mat文件的保存与读取的示例代码,需要的可以参考一下
    2022-04-04
  • Python的线程之线程同步

    Python的线程之线程同步

    这篇文章主要为大家介绍了Python线程同步,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2021-12-12
  • Python调用百度AI实现人像分割详解

    Python调用百度AI实现人像分割详解

    本文主要介绍了如何通过Python调用百度AI从而实现人像的分割与合成,文中的示例代码对我们的工作或学习有一定的帮助,需要的朋友可以参考一下
    2021-12-12
  • python Cartopy的基础使用详解

    python Cartopy的基础使用详解

    这篇文章主要介绍了python Cartopy的基础使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11

最新评论