今天练习Python导入csv数据到MySQL,使用代码如下:
import pandas as pd
from sqlalchemy import create_engine
# MySQL的用户:user, 密码:password, 端口:3306,数据库:test
engine = create_engine('mysql+pymysql://user:password@localhost:3306/test')
# 用pd.read_csv导入文件
df = pd.read_csv(filepath,sep=',',names=['字段名A','字段名B'])
# 将新建的DataFrame储存为MySQL中的数据表,不储存index列
df.to_sql(tablename, engine, if_exists='append',index= False)
第一次报错:
OSError: Initializing from file failed
网上查了一些相关文章,发现由于read_csv默认使用engine='C'来解析数据,路径中含有中文字符时就会报错,解决方法有三种:
1.最简单的,更改路径中的中文部分。
2.更改解析引擎为python。
df = pd.read_csv(filepath,sep=',',names=['字段名A','字段名B'],engine='python')
3.先通过open打开文件,再读入已打开的数据。
df = pd.read_csv(open(filepath),sep=',',names=['字段名A','字段名B'])
在尝试最后一种方法时又出现了新的报错:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xb3 in position 4: illegal multibyte sequence
这里编码出现错误,正确做法是更换编码方式,尝试utf8成功:
df = pd.read_csv(open(filepath,encoding='utf8'),sep=',',names=['字段名A','字段名B'])
未必所有的编码问题都可以通过更改为utf8解决,可以多试一些不同编码,常见如utf8、gbk、gb18030。
前两个问题都解决之后我又在数据导入上遇到了新的问题:
MySQL server has gone away
2M的小文件导入没有问题,但20M的文件连续两次都出现了上面的报错,由此我猜测问题可能和文件大小有关。
一番搜索之后我发现MySQL有个max_allowed_packet配置,用来限制MySQL服务端接收到的数据大小,而默认值仅有4M,导入20M的文件时显然会因为文件过大而导致MySQL server has gone away~
解决方法就是在MySQL终端更改全局变量(global) max_allowed_packet的值:
set global max_allowed_packet=209715200;
这里我们就把max_allowed_packet的值改成了200M。
可以查看确认更改结果。
show global variables like 'max_allowed_packet';
再运行python程序就可以成功导入文件了。
还有一种方法是找到my.ini文件直接修改文件中的配置,workbench下的my.ini文件是在C盘的隐藏文件夹ProgramData下,详细路径是:
因此,在命令行进行的配置修改是临时的,每次重启服务器又会从本地配置文件中读取数据更新配置,想要永久修改配置需要更新本地文件。