银狐DevNet系列会持续将网络运维工作中python的应用进行场景化的分享,因为每个单独的模块网上都有详细的教学,这里就不深入讲解模块基础了,内容主要以思路和示例为主,并将碰到的问题汇总提出注意事项。
主要是因为网络工程师和网络运维工作者编程基础不强,加上网上对于这个领域的python资料又少,传统的分享方式(每个章节仅单纯分享一个知识点)对于很多网工来说各个知识点相对独立且割裂的,很难进行一个知识的融合,现实工作中也很难直接应用,大家学习的难度就会很大,也会导致大部分人刚入门就放弃。所以我将这些内容进行场景化,根据特定场景由浅入深不断优化,从而带出更多知识点,希望对大家有所帮助。
这些分享都是我本人真实的学习路径,一方面是帮助自己梳理网络自动化相关知识,另一方面也希望可以通过分享我微不足道的学习过程和实战经验,帮助更多想要了解NetDevOps而苦于没有资料和环境被劝退的人,进而找到同行之人互相交流、互相提升。
1、使用场景:
前面5个小节由浅入深分享了调用excel内容,通过netmiko批量抓取华为网络设备配置,并存入本地。目前来看已可以正常在企业内进行配置备份工作,但现实情况下有个不可避免的问题,如果要批量备份大量设备,加入1台设备需要10秒,那100台设备岂不是需要1000秒,那如果有上千、上万台设备怎么办呢?虽然自动化方式比人为备份强很多,但效率还是太低了,所以在现实网络运维场景中,批量操作一般需要结合并发操作,这也是本小节的核心内容。
2、知识讲解
高并发操作网上有很多内容,但都说的很官方,看完并不知道再说些什么。所以我尽可能用大白话简单解释一下核心概念,什么是进程、线程、协程,同步、异步、并发、并行?有什么区别?
模式一:试想工厂里有一条生产线做手机,第一个人负责装电池,第二个人负责装芯片,第三个人负责装屏幕。每个人只负责自己的一项任务,这样分工明确的方式肯定比一个人干的效率高,这样的模式就是单进程、多线程方式。
模式二:这时工厂增加了一条生产线,还是同样的配置,第一个人负责装电池,第二个人负责装芯片,第三个人负责装屏幕。两条线同时工作生产手机,这就叫多进程、多线程方式。
模式三:让我们把视角重新拉回单条生产线,这里会发现一个问题,如果第一个人工作没完成,第二个人是没法工作的,他必须处于等待状态,就算第一个人工作速度足够快,第二个人也会有等待时间,只是很短暂而已,这就叫同步。也就是处理任务必须一个一个来,单个任务处理的再快,也是有等待时间的。如果我们不让工人闲着,第一个人处理任务的时候,第二个人不闲着,而是处理其他事情(工人只要进入等待状态就干其他任务),最后会发现同样的时间有更多的产出,这种方式就叫协程,也就是我们说的异步。
进程就是我们CPU的核数,有多少核理论上就可以有多少进程,2个进程同时工作就是2条生产线,相互之间没有依赖关系,你干你的,我干我的,这种模式就是并行,2个CPU可以实现真正的同时处理任务。
当我们启动py脚本的时候,就会启动一个进程,进程会启动线程,线程是依赖进程的,单进程多线程工作是有前后依赖关系的,第一个工作做完工作,第二个工作才能继续,同一个任务项无论他们操作的速度有多快,他们永远无法并行工作的,而是有个前后等待关系,这就叫并发。协程只是线程的优化,把等待时间利用上,但也无法实现真正意义上同时任务,所以也是并发。
总结:
进程是种资源的分配单位,实际上做事情的是线程,线程进行优化就变成了协程。多进程可实现真正意义上的并行,但成本很高,换句话说就是需要资源很多,所以网络运维一般使用协程就好。经过测试抓取100台华为设备配置并进行本地测试需要的时间12秒,几百台的时间也不会超过20秒,所以简单的批量操作使用协程就好,如果是比较复杂的跑批操作可以使用进程+协程的组合方式,大部分企业用不上的。
3、实验环境:
操作系统:Linux CentOS 7.4
python版本:python 3.8
网络设备:华为CE 6865
编辑器:vscode(pycharm、sublime均可,推荐vscode)
excel格式:初次使用简单一些,excel中只加入IP地址
4、思路分析
批量操作直接使用协程就好,不用考虑进程和线程,线程有很多库asyncio 、gevent之类的,个人不推荐什么模块都研究,很浪费时间,不是开发人员不用研究太深,哪个方便好用就用哪个,个人推荐gevent,方便好用而且不用改源代码。有些研发人员会将gevent的一些缺陷,但其实运维场景中没什么影响,不用在意。
gevent也有很多使用方式,可以查看文档,这里就推荐我常用的方式,gevent.map,这种方式可以控制并发量,比较灵活,防止CPU动不动干到100%。
gevent批量备份配置的思路,比如我们要备份100台设备,其实是登录100台设备,然后输出命令抓取配置,并将回显内容写入本地文件。当我们SSH第一台设备时,其实会有一个等待时间,这时不要让程序等待,而是直接SSH第二台设备,以此类推。可能SSH第10台网络设备时,第一台设备配置回显了,这些任务流虽然有前后顺序,但切换的速度非常非常块,所以会给我们一种同时连接100台设备并写入文件的错觉,所以我们操作1台设备的时间和操作100台设备的时间,其实差距不会很大。这就是为什么我说100台设备12秒,500台也不会超过20秒。
5、整体代码
#!/usr/bin/env python
#coding: utf-8
import os
from time import time
from datetime import datetime
from netmiko import ConnectHandler
from openpyxl import Workbook
from openpyxl import load_workbook
import gevent
from gevent import spawn
from gevent import monkey;monkey.patch_all()
from gevent.pool import Pool
from netmiko.ssh_exception import NetMikoTimeoutException
from netmiko.ssh_exception import AuthenticationException
from paramiko.ssh_exception import SSHException
def read_device_excel( ):
ip_list = []
wb1 = load_workbook('/home/netops/venv/cs_lab.xlsx')
ws1 = wb1.get_sheet_by_name("Sheet1")
for cow_num in range(2,ws1.max_row+1):
ipaddr = ws1["a"+str(cow_num)].value
ip_list.append(ipaddr)
return ip_list
def get_config(ipaddr):
session = ConnectHandler(device_type="huawei",
ip=ipaddr,
username="root",
password="root",
banner_timeout=300)
print("connecting to "+ ipaddr)
print ("---- Getting HUAWEI configuration from {}-----------".format(ipaddr))
config_data = session.send_command("dis cu")
session.disconnect()
return config_data
def write_config_to_file(config_data,ipaddr):
now = datetime.now()
date= "%s-%s-%s"%(now.year,now.month,now.day)
time_now = "%s-%s"%(now.hour,now.minute)
#---- Write out configuration information to file
config_path = '/home/netops/linsy_env/devconfig/' +date
verify_path = os.path.exists(config_path)
if not verify_path:
os.makedirs(config_path)
config_filename = config_path+"/"+'config_' + ipaddr +"_"+date+"_" + time_now # Important - create unique configuration file name
print ('---- Writing configuration: ', config_filename)
with open( config_filename, "w",encoding='utf-8' ) as config_out:
config_out.write( config_data )
return
def write_issue_device(issue_device):
now = datetime.now()
date= "%s-%s-%s"%(now.year,now.month,now.day)
time_now = "%s-%s"%(now.hour,now.minute)
config_path = '/home/netops/venv/' + "issue_" + date
verify_path = os.path.exists(config_path)
if not verify_path:
os.makedirs(config_path)
config_filename = config_path+"/"+'issue_'+date+"_" + time_now
print ('---- Writing issue: ', config_filename)
with open (config_filename, "w", encoding='utf-8') as issue_facts:
issue_facts.write('\n'.join(issue_device))
def run_gevent(ipaddr):
issue_device = []
try:
hwconfig = get_config(ipaddr)
write_config_to_file(hwconfig,ipaddr)
except (AuthenticationException):
issue_message = (ipaddr + ': 认证错误 ')
issue_device.append(issue_message)
except NetMikoTimeoutException:
issue_message = (ipaddr + ': 网络不可达 ')
issue_device.append(issue_message)
except (SSHException):
issue_message = (ipaddr +': SSH端口异常 ')
issue_device.append(issue_message)
except Exception as unknown_error:
issue_message = (ipaddr +': 发生未知错误: ')
issue_device.append(issue_message+str(unknown_error))
finally:
write_issue_device(issue_device) #异常处理信息写入文件
def main():
starting_time = time()
ip_list = read_device_excel()
pool = Pool(100)
pool.map(run_gevent,ip_list) #map(func, iterable)
pool.join()
print ('\n---- End get config threading, elapsed time=', time() - starting_time)
#========================================
# Get config of HUAWEI
#========================================
if __name__ == '__main__':
main()
6、代码详解
大部分内容都是迭代上一小节的内容,只讲解新增的协程部分。
from gevent import spawn
from gevent import monkey;monkey.patch_all()
from gevent.pool import Pool
导入模块复制粘贴就好,monkey.patch_all()是为了不修改源代码直接使用协程功能的,这么理解比较简单。
def main():
starting_time = time()
ip_list = read_device_excel()
pool = Pool(100)
pool.map(run_gevent,ip_list) #map(func, iterable)
pool.join()
print ('\n---- End get config threading, elapsed time=', time() - starting_time)
首先定义一个pool,我一般使用50或者100,主要是为了控制下并发数,别给本地机器带来太大压力。
pool.map(第一个参数是执行的函数,第二个参数是可迭代的数据)
run_gevent函数也是上一个小节的内容,只是我把需要执行的函数从main函数中剥离,重新定义了一个函数。可迭代的数据就是能被for循环的,list和tuple都属于可迭代。
这里我们用pool.map调用run_gevent函数(真正的主程序任务),并把IP地址列表传递进去,就会自动迭代每个IP地址到run_gevent函数的任务里。
到此为止,抓取设备配置这个小场景就可以在现实环境中应用了,但还远远不止于此,还有很多内容可以优化和使用,我也会在后续持续分享。比如如何加入类和方法,什么是封装和继承,如何一次性批量抓取Juniper、华为、H3C、Cisco不同厂商的配置,有的厂商不支持netmiko怎么办?跑批1000台设备靠协程,复杂任务跑批1万台设备时如何使用进程+协程?