Python实战——济南信息安全行业数据分析

笔者为信息安全行业一入门小白，最近对数据分析行业饶有兴致，借此机会对笔者所在区域（济南）信息安全行业进行一数据分析，数据源自智联，数据中所涉及公司数据均为已公开数据，比起说涉及贵司利益，贵司对这份数据更有兴致一些吧。

数据获取

数据分析的第一步自然是获取数据，刚准备对智联动手的我发现github上已有开源的python脚本了，貌似还是挺受欢迎的。但这个脚本写的比较早，智联网站已经采用了api接口的形式返回数据，之前的脚本已经完全不能用了，无奈，只能自己写了。

早期接口采用以下形式，即搜索功能GET请求直接获取内容，然而现在数据包并不在此返回。

早期接口

而现在的接口则采用fe-api返回json类型的数据：

当前接口

我们来简单分析下，智联在此的涉及相当于对早期地址进行了一个转换：
https://sou.zhaopin.com/?p=1&jl=702&kw=信息安全
https://fe-api.zhaopin.com/c/i/sou?pageSize=90&cityId=702&kw=信息安全
其实新地址中还有一个pagestart参数，pageSize的单位是90，简单理解就是一页的内容为90个size，如果我们查看第五页的内容，则就是pagestart=360&pageSize=90，而如果我们直接扩大pageSize=900，则就是从第一页开始请求了十页的数据，理解了这个新版的设定，我们就开工了。

#生成地址列表
def get_urls():
    urls=[]
    for keyword in job_name:
        for i in place_name:
            url = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=1800' + '&cityId=' + str(i) + '&kw=' + str(keyword) + '&kt=3'
            urls.append(url)
    return urls

在此涉及了请求20页数据，顺便表扬一句，早期脚本有封IP防爬的风险，而现在不会了，因为我只请求了一次，只是数据量大些罢了。如果你所在的城市是北京等一线城市，请自行调整pagesize大小。
为了方便调整参数，我将配置内容放到了脚本最开始的地方：

#首先根据您的需求配置如下信息:
place_name = ['济南']
job_name = ['渗透测试', '网络安全', '信息安全']

在深思熟虑之后，在此决定获取职业名称、薪资、公司名称、地点、学历要求、工作经验六项内容，创建对应数据库、表，此处使用MySQL。

#创建数据表
def CreateTable():
    mydb = Connect()
    mycursor = mydb.cursor()
    create_sql = "CREATE TABLE if not exists `zhilian`.`zhilian`  (  `id` int(0) NOT NULL,  `jobName` varchar(255) NULL,  `salary` varchar(255) NULL,  `company` varchar(255) NULL,  `city` varchar(255) NULL,  `eduLevel` varchar(255) NULL,  `workingExp` varchar(255) NULL,  PRIMARY KEY (`id`))"
    mycursor.execute(create_sql)
    mydb.close()
    print ('数据表创建成功')
    logging.info('数据表创建成功')

#写入数据表
def AddTable(re1,re2, re3, re4, re5, re6):
    for i in range(len(re1)):
        mydb = Connect()
        mycursor = mydb.cursor()
        sql = "INSERT INTO zhilian (jobName,salary,company,city,eduLevel,workingExp) VALUES (%s,%s,%s,%s,%s,%s)"
        val = [(re1[i],re2[i],re3[i],re4[i],re5[i],re6[i])]
        mycursor.executemany(sql,val)
        mydb.close()
        print ('数据添加成功')
        logging.info('数据添加成功')

最终拿到我们想要的数据，没必要打码了吧，就当免费打广告了。接下来我们拿这些数据做点有价值的分析。

数据

数据分析

首先一个公司的活跃度从招聘热度上是可以看出来的，于是我们对手头的数据进行了词频分析，并挑选了前38名公司做了一个词云：
唉？为什么是38？因为38名图刚好好看吖！

公司词云

片段如下，主要用了collections词频分析库和wordcloud词云库：

# 词频统计
word_counts = collections.Counter(words) # 对分词做词频统计

# 词频展示
mask = np.array(Image.open('python.jpg')) # 定义词频背景
wc = wordcloud.WordCloud(
    font_path='C:/Windows/Fonts/simhei.ttf', # 设置字体格式
    mask=mask, # 设置背景图
    max_words=38, # 最多显示词数
    max_font_size=28 # 字体最大值
)

类似的我们来分析下薪资：

薪资词云

还是忍不住为济南信息安全行业捏了把汗，但并不影响信息安全行业成为主流的现实。

过完了词云的瘾我们来看下具体数据：
学历要求主要分为6档：不限、中专、大专、本科、硕士、博士
首先借助词频统计进行数据整理：

# 词频统计
word_counts = collections.Counter(words)
word_counts_top10 = word_counts.most_common(10)
print (word_counts_top6)

然后进行绘图，主要使用2D绘图库matplotlib：

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签

labels = ['不限','中专', '大专','博士', '本科', '硕士']
fracs = [12.5,0.35, 39,0.35, 45.6,2.2]
explode = [0,0,0,0,0.1,0]
plt.axes(aspect=1)
plt.pie(x=fracs, labels=labels, explode=explode, autopct='%3.1f %%',
        shadow=True, labeldistance=1.1, startangle=90, pctdistance=0.6
        )
plt.show()

得到如下学历需求饼状图：

学历需求饼状图

我们可以看到，济南信息安全行业对于学历相对宽松，本科学历基本可以自由选择，不会在学历门槛上绊倒。

接下来想到一个问题，个人习惯性称呼渗透测试工程师的职业在各HR手中是如何命名的呢？显然，这个数据有助于我们进行职业检索：

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']

def job_num():
    job =[]
    fr=open('job.txt','r',encoding="UTF-8")
    jobs=fr.readlines()
    fr.close()
    for i in range(len(jobs)):
        job.append(jobs[i])

    salary=[]
    fr=open('num.txt','r',encoding="UTF-8")
    salarys=fr.readlines()
    fr.close()
    for i in range(len(salarys)):
        salary.append(salarys[i])

    plt.barh(job,salary)
    plt.show()

if __name__ == '__main__':
    job_num()

这一刻着实有点意外，渗透测试工程师的称呼貌似在济南并不流行，正在找工作的小伙伴们注意啦，试着搜下信息安全工程师吧~

职业名称

接下来，对于不了解济南的人讲，肯定会好奇信息安全行业在济南是如何分布的呢？
我们首先进行词频统计，过半的公司只标注了济南，未具体到具体区县，本次不列入统计。然后借助封装了百度开源图表库echarts的pyecharts库来进行地图定位：

from pyecharts import Map

attr = ['高新区', '历下区', '市中区', '历城区', '天桥区', '槐荫区','商河县','济阳县','章丘区','长清区','平阴县']
values = [61, 11, 7, 7, 4, 2, 0, 0, 0, 0, 0]

map = Map("济南地图",'济南', width=1200, height=600)
map.add("济南", attr, values, visual_range=[1, 10], maptype='济南', is_visualmap=True,
    visual_text_color='#000')
map.render(path="JN.html")

这一块我的内心是崩溃的，今年高新区是后来加的，从历城区历下区各拿出了一块拼凑的，但是百度地图显然没有将高新区作为一个行政区对待，emmmm，高新区的数据崩掉了鸭，这完了鸭！
出于私心，将高新区的数据历城区历下区七三分成，勉强作为最终数据。

终章

emmm，最终恭喜历城历下区夺得冠亚军！咳咳，说到底，信息安全行业重心出现在高新区也是完全合乎情理的。

什么？少了工资排行，咳咳，这么敏感的小东西感兴趣还是私下py吧。作为python数据分析的初体验，就到这里~

最后奉上2019版最新智联招聘信息获取脚本，找到工作的小伙伴记得给小心心~

https://github.com/rabbitmask/ZLinfo

嘤~