JSON
JSON支持数据格式:
1. 对象(字典)。使用花括号。
2. 数组(列表)。使用方括号。
3. 整形、浮点型、布尔类型还有null类型。
4. 字符串类型(字符串必须要用双引号,不能用单引号)。
多个数据之间使用逗号分开。 注意:json本质上就是一个字符串。
字典和列表转JSON:
import json
books = [
{
'title': '钢铁是怎样练成的',
'price': 9.8
}, {
'title': '红楼梦',
'price': 9.9
} ]
json_str = json.dumps(books,ensure_ascii=False)
print(json_str)
因为 json 在 dump 的时候,只能存放 ascii 的字符,因此会将中文进行转义,这时候我们可以使 用 ensure_ascii=False 关闭这个特性。 在 Python 中。只有基本数据类型才能转换成 JSON 格式的字符串。也
即: int 、 float 、 str 、 list 、 dict 、 tuple 。
将json数据直接 dump 到文件中:
json 模块中除了 dumps 函数,还有一个 dump 函数,这个函数可以传入一个文件指针,直接将字 符串 dump 到文件中。示例代码如下:
books = [ {
'title': '钢铁是怎样练成的',
'price': 9.8
}, {
'title': '红楼梦',
'price': 9.9
} ]
with open('a.json','w') as fp:
json.dump(books,fp)
将一个json字符串load成Python对象:
json_str = '[{"title": "钢铁是怎样练成的", "price": 9.8}, {"title": "红楼梦", "price": 9. 9}]'
books = json.loads(json_str,encoding='utf-8')
print(type(books))
print(books)
直接从文件中读取json:
import json
with open('a.json','r',encoding='utf-8') as fp:
json_str = json.load(fp)
print(json_str)
csv文件处理
读取csv文件:
import csv
with open('stock.csv','r') as fp:
reader = csv.reader(fp)
titles = next(reader)
for x in reader:
print(x)
这样操作,以后获取数据的时候,就要通过下表来获取数据。如果想要在获取数据的时候通过标题 来获取。那么可以使用 DictReader 。示例代码如下:
import csv
with open('stock.csv','r') as fp:
reader = csv.DictReader(fp)
for x in reader:
print(x['turnoverVol'])
写入数据到csv文件:
写入数据到csv文件,需要创建一个 writer 对象,主要用到两个方法。一个是 writerow ,这个是 写入一行。一个是 writerows ,这个是写入多行。示例代码如下:
import csv
headers = ['name','age','classroom']
values = [ ('zhiliao',18,'111'), ('wena',20,'222'), ('bbc',21,'111') ]
with open('test.csv','w',newline='') as fp:
writer = csv.writer(fp)
writer.writerow(headers)
writer.writerows(values)
也可以使用字典的方式把数据写入进去。这时候就需要使用 DictWriter 了。示例代码如下:
import csv
headers = ['name','age','classroom']
values = [ {"name":'wenn',"age":20,"classroom":'222'}, {"name":'abc',"age":30,"classroom":'333'} ]
with open('test.csv','w',newline='') as fp:
writer = csv.DictWriter(fp,headers)
writer = csv.writeheader()
writer.writerow({'name':'zhiliao',"age":18,"classroom":'111'})
writer.writerows(values)
Excel:
在爬虫开发中,我们主要关注 Excel 文件的读写,不会过多关心 Excel 中的一些样式。如果想要 读写 Excel 文件,需要借助到两个库 xlrd 和 xlwt ,其中 xlrd 是用于读的, xlwt 是用于写 的,安装命令如下:
pip install xlrd
pip install xlwt
读取Excel文件:
import xlrd
workbook = xlrd.open_workbook("成绩表.xlsx")
sheet_names = workbook.sheet_names()
print(sheet_names) #打印所有的sheet的名称
获取 Sheet :
一个 Excel 中可能有多个 Sheet ,那么可以通过以下方法来获取想要的 Sheet 信息:
1. sheet_names :获取所有的 sheet 的名字。
2. sheet_by_index :根据索引获取 sheet 对象。
3. sheet_by_name :根据名字获取 sheet 对象。
4. sheets :获取所有的 sheet 对象。
5. sheet.nrows :这个 sheet 中的行数。
6. sheet.ncols :这个 sheet 中的列数。
示例代码如下:
import xlrd
workbook = xlrd.open_workbook("成绩表.xlsx")
sheet_names = workbook.sheet_names()
print(sheet_names) #打印所有的sheet的名称
# 根据索引获取
sheet sheet = workbook.sheet_by_index(0)
print(sheet.name)
# 根据名称获取
sheet sheet = workbook.sheet_by_name("1班成绩")
print(sheet.name)
# 获取所有的sheet对象
sheets = workbook.sheets()
for sheet in sheets:
print(sheet.name)
# 获取这个sheet中的行数和列数
nrows = sheet.nrows
ncols = sheet.ncols
获取Cell及其属性:
每个 Cell 代表的是表格中的一格。以下方法可以方便获取想要的 cell :
1. sheet.cell(row,col) :获取指定行和列的 cell 对象。
2. sheet.row_slice(row,start_col,end_col) :获取指定行的某几列的cell对象。
3. sheet.col_slice(col,start_row,end_row) :获取指定列的某几行的cell对象。
4. sheet.cell_value(row,col) :获取指定行和列的值。
5. sheet.row_values(row,start_col,end_col) :获取指定行的某几列的值。
6. sheet.col_values(col,start_row,end_row) :获取指定列的某几行的值。
示例代码如下:
sheet = workbook.sheet_by_index(0)
# 使用cell方法获取指定的cell对象
for col in range(sheet.ncols):
for row in range(sheet.nrows):
print(sheet.cell(row,col))
# 使用row_slice获取第0行的1-2列的cell对象
cells = sheet.row_slice(0,1,3) # 使用col_slice获取第0列的1-2行的cell对象
cells = sheet.col_slice(0,1,3)
另外在 Cell 上面也有一些常用的属性:
1. cell.value :这个 cell 里面的值。
2. cell.ctype :这个 cell 的数据类型。
Cell的数据类型:
1. xlrd.XL_CELL_TEXT(Text) :文本类型。
2. xlrd.XL_CELL_NUMBER(Number) :数值类型。
3. xlrd.XL_CELL_DATE(Date) :日期时间类型。
4. xlrd.XL_CELL_BOOLEAN(Bool) :布尔类型。
5. xlrd.XL_CELL_BLANK :空白数据类型。
写入Excel:
写入 Excel 步骤如下:
1. 导入 xlwt 模块。
2. 创建一个 Workbook 对象。
3. 创建一个 Sheet 对象。
4. 使用 sheet.write(row,col,data) 方法把数据写入到 Sheet 下指定行和列中。如果想要在原 来 workbook 对象上添加新的 cell ,那么需要调用 put_cell 来添加。
5. 保存成 Excel 文件。
示例代码如下:
import xlwt import random
workbook = xlwt.Workbook(encoding='utf-8')
sheet = workbook.add_sheet("成绩表")
# 添加表头
fields = ['数学','英语','语文']
for index,field in enumerate(fields):
sheet.write(0,index,field)
# 随机的添加成绩
for row in range(1,10):
for col in range(3):
grade = random.randint(0,100)
sheet.write(row,col,grade)
workbook.save("abc.xls")
另外,如果想要在原来已经存在的 Excel 文件中添加新的行或者新的列,那么需要采 用 put_cell(row,col,type,value,xf_index) 来添加进去,最后再放到 xlwt 创建的 workbook 中, 然后再保存进去。示例代码如下:
import xlrd import xlwt
workbook = xlrd.open_workbook("成绩表.xlsx")
rsheet = workbook.sheet_by_index(0)
# 添加总分成绩
rsheet.put_cell(0,4,xlrd.XL_CELL_TEXT,"总分",None)
for row in range(1,rsheet.nrows):
grade = sum(rsheet.row_values(row,1,4))
rsheet.put_cell(row,4,xlrd.XL_CELL_NUMBER,grade,None)
# 添加每个科目的平均成绩
total_rows = rsheet.nrows
total_cols = rsheet.ncols
for col in range(1,total_cols):
grades = rsheet.col_values(col,1,total_rows)
avg_grade = sum(grades)/len(grades)
print(type(avg_grade))
rsheet.put_cell(total_rows,col,xlrd.XL_CELL_NUMBER,avg_grade,None)
# 重新写入一个新的excel文件数据
wwb = xlwt.Workbook(encoding="utf-8")
wsheet = wwb.add_sheet("1班学生成绩")
for row in range(rsheet.nrows):
for col in range(rsheet.ncols):
wsheet.write(row,col,rsheet.cell_value(row,col))
wwb.save("abc.xls")
MySQL数据库操作
安装mysql:
1. 在官网:https://dev.mysql.com/downloads/windows/installer/5.7.html 2. 如果提示没有 .NET Framework 框架。那么就在提示框中找到下载链接,下载一个就可以了。 3. 如果提示没有 Microsoft Virtual C++ x64(x86) ,那么百度或者谷歌这个软件安装即可。 4. 如果没有找到。那么私聊我。
navicat:
navicat是一个操作mysql数据库非常方便的软件。使用他操作数据库,就跟使用excel操作数据是 一样的。
安装驱动程序:
Python要想操作MySQL。必须要有一个中间件,或者叫做驱动程序。驱动程序有很多。比如 有 mysqldb 、 mysqlclient 、 pymysql 等。在这里,我们选择用 pymysql 。安装方式也是非常简 单,通过命令 pip install pymysql 即可安装。
数据库连接:
数据库连接之前。首先先确认以下工作完成,这里我们以一个 pymysql_test 数据库.以下将介绍连 接 mysql 的示例代码:
import pymysql
db = pymysql.connect( host="127.0.0.1", user='root', password='root', database='pymysql_test', port=3306 )
cursor = db.cursor()
cursor.execute("select 1")
data = cursor.fetchone()
print(data)
db.close()
插入数据:
import pymysql
db = pymysql.connect( host="127.0.0.1", user='root', password='root', database='pymysql_test', port=3306 )
cursor = db.cursor()
sql = """ insert into user( id,username,gender,age,password ) values(null,'abc',1,18,'111111'); """ cursor.execute(sql)
db.commit() db.close()
如果在数据还不能保证的情况下,可以使用以下方式来插入数据:
sql = """ insert into user( id,username,gender,age,password ) values(null,%s,%s,%s,%s); """
cursor.execute(sql,('spider',1,20,'222222'))
查找数据:
使用 pymysql 查询数据。可以使用 fetch* 方法。
1. fetchone() :这个方法每次之获取一条数据。 2. fetchall() :这个方法接收全部的返回结果。 3. fetchmany(size) :可以获取指定条数的数据。 示例代码如下:
cursor = db.cursor()
sql = """ select * from user """
cursor.execute(sql)
while True:
result = cursor.fetchone()
if not result:
break
print(result) db.close()
或者是直接使用 fetchall ,一次性可以把所有满足条件的数据都取出来:
cursor = db.cursor()
sql = """ select * from user """
cursor.execute(sql)
results = cursor.fetchall()
for result in results:
print(result) db.close()
或者是使用 fetchmany ,指定获取多少条数据:
cursor = db.cursor()
sql = """ select * from user """
cursor.execute(sql)
results = cursor.fetchmany(1)
for result in results:
print(result) db.close()
删除数据:
cursor = db.cursor()
sql = """ delete from user where id=1 """
cursor.execute(sql)
db.commit()
db.close()
更新数据:
conn = pymysql.connect(host='localhost',user='root',password='root',database='pymysql_d emo',port=3306) cursor = conn.cursor()
sql = """ update user set username='aaa' where id=1 """
cursor.execute(sql)
conn.commit()
conn.close()