短链接timeout的问题

短链接的time_out的问题(我们组的人对线上业务的改进)

问题现象:

yp_fras前段时间经常会大量出现错误号为110的connection time out 错误

691: yp_wp075v.add.bjdt.qihoo.net [2016/06/12:14:52:03] access [xxx.xxx.xxx.xxx:9869] table: yp_fras catch exception in __construct: [BadaSocket: Could not connect to xxx.xxx.xxx.xxx:9869 (连接超时 [110])]

692: yp_wp023v.add.bjdt.qihoo.net [2016/06/12:14:52:03] access [xxx.xxx.xxx.xxx:9869] table: yp_fras catch exception in __construct: [BadaSocket: Could not connect to xxx.xxx.xxx.xxx:9869 (连接超时 [110])]

693: yp_wp089v.add.bjdt.qihoo.net [2016/06/12:14:52:03] access [xxx.xxx.xxx.xxx:9869] table: yp_fras catch exception in __construct: [BadaSocket: Could not connect to xxx.xxx.xxx.xxx:9869 (连接超时 [110])]

694: yp_wp080v.add.bjdt.qihoo.net [2016/06/12:14:52:07] access [xxx.xxx.xxx.xxx:9869] table: yp_fras catch exception in __construct: [BadaSocket: Could not connect to xxx.xxx.xxx.xxx:9869 (连接超时 [110])]
1: yp_wp054v.add.bjdt.qihoo.net [2016/0

问题结论

这个问题是由大量的短链接造成的,据初步统计,有近百台客户机上部署有访问bjdt机房yp_vrs的客户端,每个客户机上又有不少的客户端。当这些客户端在某个时刻以短链接的方式集中访问服务端时,TCP连接建立的压力是比较惊人的。

客户端大量的短连接请求,使得服务端的listen端口的ACCEPT队列产生溢出,从而不接受新的连接请求,连接失败,导致”[110][connection time out]”报错。

改进意见

提高客户端的链接超时限制。当前是300ms,比如可以提升到3s等;(治标不治本)
提高服务端的somaxconn限制,这也是个治标不治本的方法,只能是一定程度的缓解。(修改内核的其他的网络参数也是一样,只能是缓解,并不能解决根本问题)
在客户端使用连接缓冲池,将短链接转换成长链接来使用(个人认为这个才是更好的办法,一劳永逸)

问题分析

Linux的服务端从listen的端口建立的连接要经过两个队列的过渡,分别是SYN队列和ACCEPT队列。服务端接受到SYN请求后,会发送SYNACK,并把这个request sock存在SYN队列内;等到三次握手完成后,再存放到ACCEPT队列内;然后再由accept系统调用,从ACCEPT队列内拿出,交给用户使用。
SYN队列和ACCEPT队列都是有长度限制的,这个长度限制与以下三个参数有关:

  • a. 调用listen接口,传递给back_log参数;
  • b. 内核参数somaxconn; //与ACCEPT队列相关
  • c.内核参数tcp_max_syn_backlog; //与SYN队列相关
    我们线上的问题主要是ACCEPT队列出现溢出造成的,所以这里主要分析ACCEPT队列长度限制的情况
    在调用listen接口的时候,内核会用系统的somaxconn参数去截断传递给listen的back_log参数,下面是linux2.6.32-70的相关代码片段
@sock.c
SYSCALL_DEFINE2(listen, int, fd, int, backlog)
{
......
        if ((unsigned)backlog > somaxconn)
            backlog = somaxconn; //被截断
......
            err = sock->ops->listen(sock, backlog);//调用的就是下面的inet_listen函数
......
}

@af_inet.c
int inet_listen(struct socket *sock, int backlog)
{
......
    sk->sk_max_ack_backlog = backlog;
......
}

上面的sk_max_ack_backlog就是listen端口的ACCEPT队列的最大长度
当短链接的量太大,accept系统调用接口处理来不及时,ACCEPT队列就可能会阻塞溢出,这个时候,Linux的TCP/IP协议栈的做法是把新来的SYN请求丢弃掉( Accept backlog is full. If we have already queued enough of warm entries in syn queue, drop request. It is better than clogging syn queue with openreqs with exponentially increasing timeout.),这样当客户端设定的连接超时不够发送第二次SYN请求时,就会收不到服务端ack,连接建立失败,这个时候报的错误是ETIMEDOUT,也就是“[110][connection time out]“。下面是linux.2.6.32-70的相关代码片段

@tcp_ipv4.c
int tcp_v4_conn_request(struct sock *sk, struct sk_buff *skb)
{
......
    if (sk_acceptq_is_full(sk) && inet_csk_reqsk_queue_young(sk) > 1) //inet_csk_reqsk_queue_young(sk) 表示SYN队列中还没有握手完成的请求数,也就是young request sock的数量
        goto drop;//丢弃这个SYN请求
......
}

@sock.h
static inline int sk_acceptq_is_full(struct sock *sk)
{
    return sk->sk_ack_backlog > sk->sk_max_ack_backlog;
}

在上面的代码段中,sk_acceptq_is_full(sk)是判断ACCEPT队列是否满了(队列长度限制已经在listen系统调用中被截断了,这也是为什么我们修改内核somaxconn内核参数,对当前应用程序的已经listen的端口的ACCEPT队列长度限制不产生影响的原因,需要重起,才能够使用新的内核参数),如果满了,而且SYN队列中又有新的没有完成握手的连接请求,则丢弃当前这个链接请求,这个时候的如果客户端设置的链接超时只够它发送一次SYN请求,则链接失败,发生“[110][connection time out]“报错。
验证:

  • 按照线上情况,设置somaxconn为128,listen接口的back_log为8192 运行一定数量的客户端,频繁的向服务端建立TCP链接,然后释放,观察情况
  • 设置somaxconn为8192, 同时设置listen的接口的back_log参数也为8192,重复1的步骤
<?php
while (true) {
  $fp  =  fsockopen ( "10.138.79.205" ,  8221 ,  $errno ,  $errstr ,  0.5 );
  fclose ( $fp );
}
?>

上面是单个客户端的代码逻辑,很简单。

somaxconn为128。 
客户端大量报错
PHP Warning:  fsockopen(): unable to connect to xxxxxxxxxxx:8221 (Connection refused) in /home/wxf/sample.php on line 3
PHP Warning:  fsockopen(): unable to connect to xxxxxxxxxxx:8221 (Connection refused) in /home/wxy/sample.php on line 3
PHP Warning:  fsockopen(): unable to connect to xxxxxxxxxxx:8221 (Connection refused) in /home/wxy/sample.php on line 3
....

服务端的现象

[wxf@host ~]$ for i in {1..6}; do netstat -s | grep -i listen; echo; sleep 1; done
    2436905 times the listen queue of a socket overflowed
    2436905 SYNs to LISTEN sockets ignored

    2436927 times the listen queue of a socket overflowed
    2436927 SYNs to LISTEN sockets ignored

    2436950 times the listen queue of a socket overflowed
    2436950 SYNs to LISTEN sockets ignored

    2436985 times the listen queue of a socket overflowed
    2436985 SYNs to LISTEN sockets ignored

    2436999 times the listen queue of a socket overflowed
    2436999 SYNs to LISTEN sockets ignored

    2437018 times the listen queue of a socket overflowed
    2437018 SYNs to LISTEN sockets ignored

从上面的结果可以看出,被丢弃的SYNs在不断的增加

somaxconn为8192
客户端没有报错
服务端

[wxy@host ~]$ for i in {1..6}; do netstat -s | grep -i listen; echo ;sleep 1; done
    2439591 times the listen queue of a socket overflowed
    2439591 SYNs to LISTEN sockets ignored

    2439591 times the listen queue of a socket overflowed
    2439591 SYNs to LISTEN sockets ignored

    2439591 times the listen queue of a socket overflowed
    2439591 SYNs to LISTEN sockets ignored

    2439591 times the listen queue of a socket overflowed
    2439591 SYNs to LISTEN sockets ignored

    2439591 times the listen queue of a socket overflowed
    2439591 SYNs to LISTEN sockets ignored

    2439591 times the listen queue of a socket overflowed
    2439591 SYNs to LISTEN sockets ignored

可以看出,这段时间内没有被丢弃的SYNs

验证的结果和内核代码以及我们的预想是吻合的

**˜˜

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容