Python数据分析基础ReadingDay6_MySQL

reading Foundations for Analysis with Python Day 6

《Python数据分析基础》封面

上一篇笔记通过 sqlite3 创建了内存上的数据库，或者是在硬盘上的小数据库，然后对创建的数据库分别进行批量增加数据、更新表中记录、查询相关记录、删除特定记录。简单说就是增/删/改/查的内容，这些是本篇笔记的基础内容。回顾这部分内容请戳Python数据分析基础ReadingDay5_sqlite3。本篇笔记通过连接和操纵MySQL实现增/删/改/查。

MySQL简介

MySQL 是一个关系型数据库，由瑞典 MySQL AB 公司开发，目前属于 Oracle 旗下公司。MySQL 是最流行的关系型数据库管理系统。在开源数据库中它占着最大的份额。可以参考下面的数据库排名：

db_engines_ranking

实时排名可以参考DB_Ranking。

在Python3中一般连接和操作MySQL的方式是用mysqlclient库，书中说“如果你安装了 Anaconda Python，那么你就已经安装了这个扩展包”，但实际直接 import MySQLdb 时会报错： ModuleNotFoundError: No module named 'MySQLdb' ，通过pip安装一下就好。

anaconda_mysqldb_no_find.png

该库可以使 Python 与数据库进行交互，所以我们使用它与在本节中创建的 MySQL 数据表进行交互。本篇笔记需要有MySQL数据库系统，《Python数据分析基础》在附录A中简要说明了MySQL的安装，如果没有安装MySQL建议看本书附录或者网上参照教程安装好环境。

pip_install_mysqlclient

向表中插入新记录

def csvDataToMySQL(input_file): #输入为csv文件路径
    import csv
    import MySQLdb
    import sys
    from datetime import datetime, date

    # 连接MySQL数据库
    con = MySQLdb.connect(host='localhost', port=3306, db='my_suppliers', user='用户名', passwd='数据库密码')
    c = con.cursor()

    # 向Suppliers表中插入数据 
    file_reader = csv.reader(open(input_file, 'r'), delimiter=',')
    header = next(file_reader) #读取数据
    for row in file_reader:
        data = []
        for column_index in range(len(header)):
            if column_index < 4:
                data.append(str(row[column_index]).lstrip('$').replace(',', '').strip())
                #压制成格式化的data
            else: 
                a_date = datetime.date(datetime.strptime(str(row[column_index]), '%m/%d/%Y'))
                # %Y: year is 2016; %y: year is 15
                a_date = a_date.strftime('%Y-%m-%d')
                data.append(a_date)
        print(data)
        c.execute("""INSERT INTO Suppliers VALUES (%s, %s, %s, %s, %s);""", data)
    con.commit()

    # 查询Suppliers表，输出结果
    c.execute("SELECT * FROM Suppliers")
    rows = c.fetchall()
    for row in rows:
        row_list_output = [] #循环输出
        for column_index in range(len(row)):
            row_list_output.append(str(row[column_index]))
        print(row_list_output)

csvDataToMySQL('supplier_data.csv')

上面的代码将数据从 CSV 文件中插入到MySQL的数据表中，然后展示表中的数据。MySQLdb 模块的 connect() 方法用于连接存在的数据库 my_suppliers，MySQL 建立的数据库就像一台独立计算机（服务器），你可以向数据库请求连接、发送数据和请求数据。在连接时，需要指定一些通用参数，包括计算机主机名、端口号、输入用户名和密码。代码中的datetime 库用于处理输入文件中最后一列的日期数据进行处理和格式化。str(row[column_index]).lstrip('$').replace(',', '').strip() 部分处理掉美元符号$使得价格能变成数字格式。之后的代码和上一篇笔记非常相似，比较容易理解。

查询一个表并将输出写入CSV文件

数据表中有了数据之后，最常见的下一个步骤就是使用查询从表中取出一组数据，用来进行分析或满足某种商业需求。书中举的例子是：

你可能想知道哪些客户提供了最多的利润，或者哪些费用超过了具体的阈值。我们想找出 Cost 列中的值大于 1000.00的所有记录，并将这些记录所有列中的值输出。

下面的代码基于这个需求：

def mysqlDataToCsvFile(outFile):
    import csv
    import MySQLdb

    # 连接MySQL数据库 my_suppliers
    con = MySQLdb.connect(host='localhost', port=3306, db='my_suppliers',user='root', passwd='my_password')
    c = con.cursor()

    # 创建写文件的对象， 并写入标题行 
    filewriter = csv.writer(open(outFile, 'w', newline=''), delimiter=',')
    header = ['Supplier Name','Invoice Number','Part Number','Cost','Purchase Date']
    filewriter.writerow(header)

    # 执行查询，写入csv
    c.execute("""SELECT * FROM Suppliers WHERE Cost > 700.0;""")
    rows = c.fetchall()
    for row in rows:
        filewriter.writerow(row)
    filewriter.close()
    
mysqlDataToCsvFile('mysqlToCSVout2018.csv')

更新表中记录

说明两个例子讲了读取csv写入到数据库和读取数据库特定行到csv，用到了增加数据和查询数据的SQL，有些时候，我们不需要向表中加载新数据或做查询，而是需要更新表中已有的行。这个需求也比较容易实现，整体代码框架可以不变，只需要把INSERT 语句改变为 UPDATE 语句。具体是读取csv时，对于 CSV 输入文件中的每一行数据运行一次 SQL 语句进行对应和更新。还是关键要熟悉 UPDATE 语句，其他可以使用向表中插入新记录节的框架。

def updateMySQL(input_file):
    import csv
    import MySQLdb
    #连接 my_suppliers
    con = MySQLdb.connect(host='localhost', port=3306, db='my_suppliers',user='root', passwd='password')
    c = con.cursor()

    #读入csv
    file_reader = csv.reader(open(input_file, 'r', newline=''), delimiter=',')
    header = next(file_reader, None)
    for row in file_reader:
        data = []
        for column_index in range(len(header)):
            data.append(str(row[column_index]).strip())
        print(data)
        c.execute("""UPDATE Suppliers SET Cost=%s, Purchase_Date=%s WHERE Supplier_Name=%s;""", data)
    con.commit()

updateMySQL('input_suppliers.csv')

MySQL的操作就记录到这里，对于数据分析师来说，一般会更经常地在命令行或者通过GUI用SQL语句操作数据库，当然通过Python等能更好地自动化查询和更新，因此本篇笔记是很重要的。回顾之前的内容，这系列笔记通过4篇笔记从简单到复杂讲了csv/Excel文件以及数据库的读取和写入。数据的输入和保存基本就是这些内容，理解实现这些目标的思路很重要。

本篇笔记的GitHub同步项目于readingForDS。关于本系列笔记有任何建议欢迎留言讨论。

最后编辑于：2018.03.18 17:44:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,386评论 6赞 479
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,939评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,851评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,953评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,971评论 5赞 369
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,784评论 1赞 283
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,126评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,765评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,148评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,744评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,858评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,479评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,080评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,053评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,278评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,245评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,590评论 2赞 343

Python数据分析基础ReadingDay6_MySQL

Python数据分析基础ReadingDay6_MySQL

目录

MySQL简介

向表中插入新记录

查询一个表并将输出写入CSV文件

更新表中记录

推荐阅读更多精彩内容