数据存储(JSON,CSV,Excel,mysql)

JSON

JSON支持数据格式:

1. 对象(字典)。使用花括号。 

2. 数组(列表)。使用方括号。 

3. 整形、浮点型、布尔类型还有null类型。 

4. 字符串类型(字符串必须要用双引号,不能用单引号)。

多个数据之间使用逗号分开。 注意:json本质上就是一个字符串。

字典和列表转JSON:

import json

books = [    

{        

    'title': '钢铁是怎样练成的',        

    'price': 9.8   

 },  {        

    'title': '红楼梦',        

    'price': 9.9   

} ]

json_str = json.dumps(books,ensure_ascii=False)

print(json_str)

因为 json 在 dump 的时候,只能存放 ascii 的字符,因此会将中文进行转义,这时候我们可以使 用 ensure_ascii=False 关闭这个特性。 在 Python 中。只有基本数据类型才能转换成 JSON 格式的字符串。也

即: int 、 float 、 str 、 list 、 dict 、 tuple 。

将json数据直接 dump 到文件中:

json 模块中除了 dumps 函数,还有一个 dump 函数,这个函数可以传入一个文件指针,直接将字 符串 dump 到文件中。示例代码如下:

books = [    {        

    'title': '钢铁是怎样练成的',        

    'price': 9.8    

},    {        

    'title': '红楼梦',        

    'price': 9.9    

} ] 

with open('a.json','w') as fp:    

    json.dump(books,fp)

将一个json字符串load成Python对象:

json_str = '[{"title": "钢铁是怎样练成的", "price": 9.8}, {"title": "红楼梦", "price": 9. 9}]' 

books = json.loads(json_str,encoding='utf-8') 

print(type(books))

print(books)

直接从文件中读取json:

import json 

with open('a.json','r',encoding='utf-8') as fp:    

    json_str = json.load(fp)    

    print(json_str)

csv文件处理 

读取csv文件:

import csv

with open('stock.csv','r') as fp:    

    reader = csv.reader(fp)    

    titles = next(reader)    

    for x in reader:        

    print(x)

这样操作,以后获取数据的时候,就要通过下表来获取数据。如果想要在获取数据的时候通过标题 来获取。那么可以使用 DictReader 。示例代码如下:

import csv

with open('stock.csv','r') as fp:

    reader = csv.DictReader(fp)

    for x in reader:        

    print(x['turnoverVol'])

写入数据到csv文件:

写入数据到csv文件,需要创建一个 writer 对象,主要用到两个方法。一个是 writerow ,这个是 写入一行。一个是 writerows ,这个是写入多行。示例代码如下:

import csv

headers = ['name','age','classroom'] 

values = [    ('zhiliao',18,'111'),    ('wena',20,'222'),    ('bbc',21,'111') ] 

with open('test.csv','w',newline='') as fp:

    writer = csv.writer(fp)

    writer.writerow(headers)

    writer.writerows(values)

也可以使用字典的方式把数据写入进去。这时候就需要使用 DictWriter 了。示例代码如下:

import csv

headers = ['name','age','classroom'] 

values = [    {"name":'wenn',"age":20,"classroom":'222'},    {"name":'abc',"age":30,"classroom":'333'} ]

with open('test.csv','w',newline='') as fp:

    writer = csv.DictWriter(fp,headers)

    writer = csv.writeheader()

    writer.writerow({'name':'zhiliao',"age":18,"classroom":'111'})

    writer.writerows(values)

Excel:

在爬虫开发中,我们主要关注 Excel 文件的读写,不会过多关心 Excel 中的一些样式。如果想要 读写 Excel 文件,需要借助到两个库 xlrd 和 xlwt ,其中 xlrd 是用于读的, xlwt 是用于写 的,安装命令如下:

pip install xlrd 

pip install xlwt

读取Excel文件:

import xlrd

workbook = xlrd.open_workbook("成绩表.xlsx") 

sheet_names = workbook.sheet_names() 

print(sheet_names) #打印所有的sheet的名称

获取 Sheet :

一个 Excel 中可能有多个 Sheet ,那么可以通过以下方法来获取想要的 Sheet 信息:

1.  sheet_names :获取所有的 sheet 的名字。 

2.  sheet_by_index :根据索引获取 sheet 对象。 

3.  sheet_by_name :根据名字获取 sheet 对象。 

4.  sheets :获取所有的 sheet 对象。 

5.  sheet.nrows :这个 sheet 中的行数。

6.  sheet.ncols :这个 sheet 中的列数。

示例代码如下:

import xlrd

workbook = xlrd.open_workbook("成绩表.xlsx") 

sheet_names = workbook.sheet_names() 

print(sheet_names) #打印所有的sheet的名称

# 根据索引获取

sheet sheet = workbook.sheet_by_index(0)

print(sheet.name)

# 根据名称获取

sheet sheet = workbook.sheet_by_name("1班成绩")

print(sheet.name)

# 获取所有的sheet对象 

sheets = workbook.sheets() 

for sheet in sheets:

    print(sheet.name)

# 获取这个sheet中的行数和列数 

nrows = sheet.nrows 

ncols = sheet.ncols

获取Cell及其属性:

每个 Cell 代表的是表格中的一格。以下方法可以方便获取想要的 cell :

1.  sheet.cell(row,col) :获取指定行和列的 cell 对象。 

2.  sheet.row_slice(row,start_col,end_col) :获取指定行的某几列的cell对象。 

3.  sheet.col_slice(col,start_row,end_row) :获取指定列的某几行的cell对象。 

4.  sheet.cell_value(row,col) :获取指定行和列的值。 

5.  sheet.row_values(row,start_col,end_col) :获取指定行的某几列的值。 

6.  sheet.col_values(col,start_row,end_row) :获取指定列的某几行的值。

示例代码如下:

sheet = workbook.sheet_by_index(0)

# 使用cell方法获取指定的cell对象 

for col in range(sheet.ncols):

    for row in range(sheet.nrows):

        print(sheet.cell(row,col))

# 使用row_slice获取第0行的1-2列的cell对象 

cells = sheet.row_slice(0,1,3) # 使用col_slice获取第0列的1-2行的cell对象 

cells = sheet.col_slice(0,1,3)

另外在 Cell 上面也有一些常用的属性:

1.  cell.value :这个 cell 里面的值。 

2.  cell.ctype :这个 cell 的数据类型。

Cell的数据类型:

1.  xlrd.XL_CELL_TEXT(Text) :文本类型。 

2.  xlrd.XL_CELL_NUMBER(Number) :数值类型。 

3.  xlrd.XL_CELL_DATE(Date) :日期时间类型。

4.  xlrd.XL_CELL_BOOLEAN(Bool) :布尔类型。 

5.  xlrd.XL_CELL_BLANK :空白数据类型。

写入Excel:

写入 Excel 步骤如下:

1. 导入 xlwt 模块。 

2. 创建一个 Workbook 对象。 

3. 创建一个 Sheet 对象。 

4. 使用 sheet.write(row,col,data) 方法把数据写入到 Sheet 下指定行和列中。如果想要在原 来 workbook 对象上添加新的 cell ,那么需要调用 put_cell 来添加。 

5. 保存成 Excel 文件。

示例代码如下:

import xlwt import random

workbook = xlwt.Workbook(encoding='utf-8') 

sheet = workbook.add_sheet("成绩表") 

# 添加表头 

fields = ['数学','英语','语文'] 

for index,field in enumerate(fields):

    sheet.write(0,index,field)

# 随机的添加成绩 

for row in range(1,10):

    for col in range(3):

        grade = random.randint(0,100)

        sheet.write(row,col,grade)

workbook.save("abc.xls")

另外,如果想要在原来已经存在的 Excel 文件中添加新的行或者新的列,那么需要采 用 put_cell(row,col,type,value,xf_index) 来添加进去,最后再放到 xlwt 创建的 workbook 中, 然后再保存进去。示例代码如下:

import xlrd import xlwt

workbook = xlrd.open_workbook("成绩表.xlsx") 

rsheet = workbook.sheet_by_index(0)

# 添加总分成绩 

rsheet.put_cell(0,4,xlrd.XL_CELL_TEXT,"总分",None) 

for row in range(1,rsheet.nrows):

    grade = sum(rsheet.row_values(row,1,4))

    rsheet.put_cell(row,4,xlrd.XL_CELL_NUMBER,grade,None)

# 添加每个科目的平均成绩 

total_rows = rsheet.nrows 

total_cols = rsheet.ncols 

for col in range(1,total_cols):

    grades = rsheet.col_values(col,1,total_rows)

    avg_grade = sum(grades)/len(grades)

    print(type(avg_grade))

    rsheet.put_cell(total_rows,col,xlrd.XL_CELL_NUMBER,avg_grade,None)

# 重新写入一个新的excel文件数据

wwb = xlwt.Workbook(encoding="utf-8") 

wsheet = wwb.add_sheet("1班学生成绩") 

for row in range(rsheet.nrows):

    for col in range(rsheet.ncols):

        wsheet.write(row,col,rsheet.cell_value(row,col))

wwb.save("abc.xls")


MySQL数据库操作 

安装mysql:

1. 在官网:https://dev.mysql.com/downloads/windows/installer/5.7.html 2. 如果提示没有 .NET Framework 框架。那么就在提示框中找到下载链接,下载一个就可以了。 3. 如果提示没有 Microsoft Virtual C++ x64(x86) ,那么百度或者谷歌这个软件安装即可。 4. 如果没有找到。那么私聊我。

navicat:

navicat是一个操作mysql数据库非常方便的软件。使用他操作数据库,就跟使用excel操作数据是 一样的。

安装驱动程序:

Python要想操作MySQL。必须要有一个中间件,或者叫做驱动程序。驱动程序有很多。比如 有 mysqldb 、 mysqlclient 、 pymysql 等。在这里,我们选择用 pymysql 。安装方式也是非常简 单,通过命令 pip install pymysql 即可安装。

数据库连接:

数据库连接之前。首先先确认以下工作完成,这里我们以一个 pymysql_test 数据库.以下将介绍连 接 mysql 的示例代码:

 import pymysql

 db = pymysql.connect(        host="127.0.0.1",        user='root',        password='root',        database='pymysql_test',        port=3306    )    

cursor = db.cursor()    

cursor.execute("select 1")    

data = cursor.fetchone()    

print(data)    

db.close()

插入数据:

import pymysql

db = pymysql.connect(    host="127.0.0.1",    user='root',    password='root',    database='pymysql_test',    port=3306 ) 

cursor = db.cursor() 

sql = """ insert into user(    id,username,gender,age,password  )  values(null,'abc',1,18,'111111'); """ cursor.execute(sql) 

db.commit() db.close()

如果在数据还不能保证的情况下,可以使用以下方式来插入数据:

sql = """ insert into user(    id,username,gender,age,password  )  values(null,%s,%s,%s,%s); """

cursor.execute(sql,('spider',1,20,'222222'))

查找数据:

使用 pymysql 查询数据。可以使用 fetch* 方法。

1.  fetchone() :这个方法每次之获取一条数据。 2.  fetchall() :这个方法接收全部的返回结果。 3.  fetchmany(size) :可以获取指定条数的数据。 示例代码如下:

cursor = db.cursor()

sql = """ select * from user """

cursor.execute(sql) 

while True:

    result = cursor.fetchone()

    if not result:

        break

    print(result) db.close()

或者是直接使用 fetchall ,一次性可以把所有满足条件的数据都取出来:

cursor = db.cursor()

sql = """ select * from user """

cursor.execute(sql) 

results = cursor.fetchall() 

for result in results:

    print(result) db.close()

或者是使用 fetchmany ,指定获取多少条数据:

cursor = db.cursor()

sql = """ select * from user """

cursor.execute(sql) 

results = cursor.fetchmany(1) 

for result in results:

    print(result) db.close()

删除数据:

cursor = db.cursor()

sql = """ delete from user where id=1 """

cursor.execute(sql) 

db.commit() 

db.close()

更新数据:

conn = pymysql.connect(host='localhost',user='root',password='root',database='pymysql_d emo',port=3306) cursor = conn.cursor()

sql = """ update user set username='aaa' where id=1 """ 

cursor.execute(sql) 

conn.commit()

conn.close()

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容