一个由端口号引起的奇怪事件
引子
最近在写毕业论文,我的研究方向与计算机网络相关,实验部分还差点数据仿真测试。一般,网络的仿真,一般用iperf这个工具进行带宽测试。iperf的使用方法挺简单的,以下面这个图为例,两个终端分别是两个由Mininet模拟出来的用户,h1的IP地址是10.0.0.1,h3的IP地址是10.0.0.3。在h3上运行iperf服务器端(参数-s),监听UDP(参数-u),每秒输出一次(参数-i),在h1上运行iperf客户端(参数-c),指定服务器端IP地址为10.0.0.3(即h3),每秒输出一次(参数-i),指定UDP带宽为50M(参数-b)。
这里可以提供一个先验知识,iperf服务器端开启的默认端口是5001,客户端没有固定端口(比如上图h1的端口是48921)
场景复现
跑仿真、跑数据,肯定不可能手动开启一个个终端再一个个去执行命令,最好是写一个自动化的脚本去模拟我要做的事。
比如现在我想同时运行h1 iperf h3与h2 iperf h3,如果要手动操作,得开四个终端,其中两个终端是h3,运行iperf服务器端,另外两个终端分别是h1与h2,运行iperf客户端,这样肯定效率非常低下,而且切换终端是有时间差的,数据可能不精准,于是我考虑在Mininet源码中加入一些命令,方便我测试,下面的截图就是我在Mininet CLI中执行自定义的iperfdouble命令的效果图(在本例中,都是h3作为iperf服务器端)
mininet> iperfdouble h1 h2 h3 50m 60
*** Iperf: testing bandwidth between h1 and h3
***start server***
***start client***
***client ping server***
*** Iperf: testing bandwidth between h2 and h3
***start server***
***start client***
mininet> 【光标闪烁】
自定义的iperfdouble实现代码如下,前三个主机参数必须有,后面两个分别是带宽与持续时间,因为下游函数iperf_single中对这两个参数设置了默认值,故可忽略
def do_iperfdouble( self, line ):
"""Multi iperf UDP test between two specified nodes
$iperfdouble h1 h2 h3 50m 10"""
args = line.split()
hosts1 = []
hosts2 = []
now = strftime("%Y%m%dT%H%M%S", localtime())
for i in range(3):
if args[i] not in self.mn:
err = True
error( "node '%s' not in network\n" % args[i] )
else:
if i == 0:
hosts1.append( self.mn[ args[i] ] )
elif i == 1:
hosts2.append( self.mn[ args[i] ] )
else:
hosts1.append( self.mn[ args[i] ] )
hosts2.append( self.mn[ args[i] ] )
err = False
if len(args) == 3:
if not err:
self.mn.iperf_single(now, hosts1 )
self.mn.iperf_single(now, hosts2 )
elif len(args) == 5:
udpBw = args[ 3 ]
period = args[ 4 ]
err = False
if not err:
self.mn.iperf_single(now, hosts1, udpBw, float(period))
self.mn.iperf_single(now, hosts2, udpBw, float(period))
else:
error('invalid number of args: iperfdouble node1 node2 node3 udpBw period\n' +
'examples: iperfdouble h1 h2 h3 [50M] [10]\n')
iperfdouble会提取两对主机,分别运行iperf_single函数,该函数定义如下,iperf服务器端的输出会附带当前时间戳存储到log文件夹中:
def iperf_single( self, now, hosts=None, udpBw='10M', period=10, port=5001):
"""Run iperf between two hosts using UDP.
hosts: list of hosts; if None, uses opposite hosts
returns: results two-element array of server and client speeds"""
if not hosts:
return
else:
assert len( hosts ) == 2
client, server = hosts
iperf_output = 'h' + client.name[1:] + 'iperf' + 'h' + server.name[1:] + '.' + now
# ping_output = 'h' + client.name[1:] + 'ping' + 'h' + server.name[1:] + '.' + now
output( '*** Iperf: testing bandwidth between ' )
output( "%s and %s\n" % ( client.name, server.name ) )
iperfArgs = 'iperf -u '
bwArgs = '-b ' + udpBw + ' '
print "***start server***"
server.cmd(iperfArgs + '-s -P 1 -i 1' +
' > /home/liaoss/network/log/' + iperf_output + '&')
print "***start client***"
client.cmd(iperfArgs + '-t '+ str(period) + ' -c ' + server.IP() + ' ' + bwArgs + '&')
# print "***client ping server***"
# client.cmd('ping -c' + str(period) + ' ' + server.IP() +
# ' ' + ' > /home/liaoss/network/log/' + ping_output + '&')
于是,我就得到了这样的log文件,有什么发现奇怪的地方吗?
看看左边文件红线框出来的,文件名是h1iperfh3(从iperf_single的代码可以看出来,log文件命名格式是:[client]iperf[server].timestamp
),但是根据iperf输出,这些数据来自于h2!右边log文件正好相反,文件名中client是h2,但是数据来自于h1!
是不是很奇怪?读者读到这里,可以再仔细看看iperfdoube与iperf_single的代码,看看能不能发现到底哪里出了问题。
问题原因
其实,本文的标题已经给出了答案,问题的根源在于端口号,注意到,iperf服务器端的默认端口号是5001,iperf客户端如果不指定端口号,默认发送的服务器端端口号也会5001,观察上图两个log文件,h3作为iperf服务器端开了两个进程,效果等同于下图两个iperf服务器端进程,pid分别为1676与1916
假设这时h1作为iperf客户端向h3发起UDP流量,到底h3哪个iperf服务器端进程会建立连接呢?下图给出了答案,pid为1916的被选择了(我也不太清楚为啥选择它,可能是随机的?经测试,两个h3iperf服务器端开启先后顺序不影响结论,读者如果有想法可以告诉笔者)
写到这里,问题的根源应该有些眉目了,在iperf_single函数中,iperf并未指定端口号,所以h3iperf服务器端的输出并不与函数的client参数一致,我们再以一个无序的例子佐以证明,下图的左上、右上运行h3iperf服务器端,左下与右下分别是h1与h2的iperf客户端,四个命令均不指定端口号,在h1与h2上运行iperf客户端,发现都是由右上的h3iperf服务器端接收,看起来这真的挺随机的。
解决办法
在iperf_single中,指定端口号即可,因为在本场景中,都是h1与h2作为iperf客户端,所以这里把'hx'中的数字'x'提取出来,拼在'500'后面即可,这样h1连接的就是端口5001,h2连接的就是端口5002,所以有点hard code之嫌,但这里仅提供一个解决方法而已
最终,log日志正确输出了
总结
有时候,问题的根源不像表面那般清晰,得掌握一定的知识才能深入分析,从而解决问题。