Pandas如何连接数据库_read_sql()与SQLAlchemy读取MySQL数据

1次阅读

根本原因是未传入有效的数据库连接对象；pd.read_sql()需SQLAlchemy Engine实例，而非URL字符串或Connection对象，且须确保字符集（utf8mb4）、时区配置正确，并用chunksize分块处理大表。

为什么 `pd.read_sql()` 读 mysql 总是报 `TypeError: 'NoneType' Object is not callable`

根本原因是没传对数据库连接对象——pd.read_sql() 要的是一个能执行 SQL 的“连接句柄”，不是 SQLAlchemy 的 Engine 或 Connection 对象本身，更不是字符串 URL。

常见错误写法：pd.read_sql("select * FROM users", "mysql://user:pass@localhost/db") —— 这里第二个参数是 URL 字符串，但 read_sql() 不会自动解析它，直接当连接对象用就崩了。

正确做法：必须先用 SQLAlchemy 创建 Engine，再把它传进去（Engine 支持 connect() 方法，所以被接受）
不推荐用 create_engine(...).connect() 后的结果传入：那是 Connection 对象，虽然能用，但容易漏关连接、引发连接泄漏
如果用的是 PyMySQL 或 mysqlclient 底层驱动，确保已安装对应包（pip install PyMySQL），否则 create_engine 会静默 fallback 到不兼容的驱动

from sqlalchemy import create_engine import pandas as pd <p>engine = create_engine("mysql+pymysql://user:pass@localhost:3306/db") df = pd.read_sql("SELECT id, name FROM users LIMIT 10", engine)

`read_sql_query()` 和 `read_sql_table()` 该选哪个？

二者底层都调用 read_sql()，但语义和限制不同，选错会导致意外行为或报错。

read_sql_query()：只接受 SQL 查询字符串，比如 SELECT、带 WHERE 或子查询的语句；不能填表名，否则报 DatabaseError: Execution failed on sql...
read_sql_table()：只接受表名（字符串），内部拼 SELECT * FROM {table}；不支持 JOIN、WHERE、别名，也不能读视图（部分数据库不支持）
性能上没本质区别，但 read_sql_table() 在某些方言下会额外查元数据（比如字段类型），略慢一点；而复杂查询必须用 read_sql_query()

如果你要加条件、分页、聚合，老老实实用 read_sql_query()；如果只是全量导出一张小表，read_sql_table() 写起来少几个字符，但别指望它更高效。

MySQL 中文乱码、datetime 字段变 NaT 怎么办？

这不是 Pandas 的锅，是连接层编码和时区没对齐。SQLAlchemy 默认不强制设置字符集和时区，MySQL 客户端协议一松懈，数据就变形。

在连接 URL 末尾加上 ?charset=utf8mb4（不是 utf8！MySQL 的 utf8 实际是 utf8mb3，不支持 emoji）
显式指定时区：URL 加 &timezone=UTC，或创建 engine 时传 connect_args={"timezone": "UTC"}
如果 MySQL 服务端时区是 +08:00，而 Python 环境默认 UTC，DATETIME 字段可能被错误转换成 NaT，尤其配合 parse_dates 参数时
pd.read_sql(..., parse_dates=["created_at"]) 对 NULL 值敏感，字段含空值时建议先用 dtype 指定为 String，再手动转

engine = create_engine(     "mysql+pymysql://user:pass@localhost:3306/db?charset=utf8mb4&timezone=UTC" )

大表怎么读才不 OOM？

直接 read_sql("SELECT * FROM huge_table", engine) 很容易把内存吃光，尤其字段多、文本长的时候。Pandas 本身不支持流式读取，得靠分块绕过去。

用 chunksize 参数（单位是行数），返回的是 TextFileReader 迭代器，每次只载入一块：
别用 for df in pd.read_sql(..., chunksize=10000) 然后拼 pd.concat——这等于又全加载进内存了
真正省内存的做法：每块单独处理（比如清洗后存 CSV / 写数据库 / 统计中间结果），不保留原始块
注意：chunksize 对 read_sql_table() 有效，但对含 ORDER BY 或 LIMIT 的 read_sql_query() 无效（SQL 层无法分块）

如果真要分页查大表，得自己写带 OFFSET/LIMIT 的循环，或者用主键范围（如 id BETWEEN ? AND ?）来切片，避免深分页性能坍塌。

发表于：运维

近一天内

复制链接

Linux系统下对新磁盘进行格式化及卷标设置操作流程详解

Linux进程间通信方式_pipe与socket解析【教程】

Linux nfd 的 node-feature 标签与调度器 predicate 匹配实践

HTML5拖拽API怎么实现文件上传_拖放事件监听用法【教程】

宝塔面板下如何配置服务器自动备份面板配置到邮箱？

Pandas如何连接数据库_read_sql()与SQLAlchemy读取MySQL数据

为什么 `pd.read_sql()` 读 mysql 总是报 `TypeError: 'NoneType' Object is not callable`

`read_sql_query()` 和 `read_sql_table()` 该选哪个？

MySQL 中文乱码、datetime 字段变 NaT 怎么办？

大表怎么读才不 OOM？

mysql权限管理自动化工具有哪些_mysql运维实践分享

CSS框架Water.css实战_针对纯HTML页面的无感知美化

c++如何获取类的大小_c++ sizeof计算类内存对齐【面试】

如何在 React 中为侧边栏菜单项实现点击切换图标与文字颜色

网页设计vscode怎么添加一个css

Go语言中tls.Conn的并发安全性详解

Java中Apache利用mod_cache_disk实现持久化存储优化

币an注册入口 Binan登录币安官方交易平台地址

composer怎么更新指定厂商包_composer怎么批量更新某个作者【技巧】

Nginx 中实现 URL 路径与实际 PHP 文件路径解耦的完整指南

Pandas如何连接数据库_read_sql()与SQLAlchemy读取MySQL数据

为什么 pd.read_sql() 读 mysql 总是报 TypeError: 'NoneType' Object is not callable

read_sql_query() 和 read_sql_table() 该选哪个？

MySQL 中文乱码、datetime 字段变 NaT 怎么办？

大表怎么读才不 OOM？

为什么 `pd.read_sql()` 读 mysql 总是报 `TypeError: 'NoneType' Object is not callable`

`read_sql_query()` 和 `read_sql_table()` 该选哪个？