本文可以学习到以下内容:
- 使用 pandas 中的 to_excel 生成 excel 数据
- 使用 pandas 中的 read_excel 读取 excel数据
- 使用 pandas 中的 map 函数加密手机号的身份证号
- 使用 hashlib 库对数据进行 md5、sha加密
数据及源码地址:https://gitee.com/myrensheng/data_analysis
项目背景
小凡公司金融业务需要在客户申请后对客户进行资质判定,这天小凡和经理一起考察第三方公司。经过一番交流,决定先测试一些客户的数据,看一下三方的数据是否有用。需要用到80%的好客户,20%的违约客户。
在对接三方数据时,需要将客户的身份证、手机号等数据进行md5加密处理,用excel处理起来会很麻烦,于是小凡决定使用Python对客户的手机号和身份证号进行加密。
获取数据
数据保存在 sqlite3 数据库中,用户表 users 中保存的数据有:用户id(user_id)、用户姓名(username)、用户年龄(age)、用户手机号(mobile)以及用户身份证(idcard)。
小凡通过下面代码获取数据库中的数据:
import os
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
# 数据库地址:数据库放在上一级目录下
db_path = os.path.join(os.path.dirname(os.getcwd()), "data.db")
engine_path = "sqlite:///" + db_path
# 创建数据库引擎
engine = create_engine(engine_path)
sql = """
select
*
from
users
"""
df = pd.read_sql(sql, engine)
# 生成excel文件
df.to_excel("./md5加密数据.xlsx",index=False)
# 读取生成的Excel文件
md5_excel_df = pd.read_excel("./md5加密数据.xlsx")
数据预览:
加密函数
在对接不同的第三方公司,需要的加密方式也不同,小凡为了节省时间,将常用的加密方式封装为函数(encryption_str)。
函数需要传入以下参数:加密的字符串(string)、加密算法(encry_model)、加密类型(encry_style),该函数返回加密后的字符串。
加密函数如下:
def encryption_str(string, encry_model="md5_32", encry_style=True):
import hashlib
# 加密为 utf-8 编码
utf_8_str = str(string).encode("utf8")
# 函数字典
param_dict = {
"md5_32": hashlib.md5(utf_8_str),
"md5_16": hashlib.md5(utf_8_str),
"sha1": hashlib.sha1(utf_8_str),
"sha224": hashlib.sha224(utf_8_str),
"sha256": hashlib.sha256(utf_8_str),
"sha512": hashlib.sha512(utf_8_str)
}
encry_result = param_dict[encry_model].hexdigest()
if encry_model == 'md5_16':
encry_result = encry_result[8:-8]
# 返回结果
return encry_result if encry_style == "小写" else encry_result.upper()
数据加密
使用 pandas 中的map方法对手机号(mobile)和身份证号(idcard)列进行加密。
md5_excel_df["mobile_md5"] = md5_excel_df["mobile"].map(lambda x:encryption_str(x))
md5_excel_df["idcard_md5"] = md5_excel_df["idcard"].map(lambda x:encryption_str(x,"md5_16","大写"))
数据加密结果如下:
结尾
小凡使用 pandas中的to_excel方法将加密后的数据保存到Excel中,代码如下:
md5_excel_df.to_excel("./md5加密数据已完成.xlsx",index=False)
小凡将加密后的excel通过邮箱发送给三方公司的负责人,待其返回结果,对数据进行评估。