nginx负载下站点错误响应会导致其他节点重复响应问题的解决过程

前言:

这是我上周工作过程中的一次解决问题的过程。解决的是nginx负载下站点错误响应导致其他节点重复响应。 我在整理这个记叙文时,在给这个文档命名时思考了一段时间。 从业务角度说,应该是“一次短信重复发送问题解决过程”,如果这样命名,过于土气;从技术角度说,应该是“nginx负载下站点错误响应会导致其他节点重复响应”,如果这样命名,可能没人会注意了;最后,我懒得再费脑汁了,从人类智慧的角度我把它命名为“复杂的问题,简单的解,小处不谨慎,”。

问题来了

3月16日,有客服、销售、运营人员反映,客户在saas预定机票完成后,会连续收到3条重复的支付提醒短信。  很多客户都投诉了这样的问题,一直以来的正常情况是仅发1条的。

以下是短信平台上的截图:

前一天的3月15日是上线日,当晚saas上过线。

迫于压力,当天下午不得不回滚3月15日的上线。回滚之后,问题不再重现。

3月15日saas的上线包括锦如和刘涛对saas所做的代码改动。刘涛涉及到的代码是审批接口,称可能不会导致这样的问题,锦如也肯定地表示不涉及到这块。 我让刘涛来排查原因,他在测试环境做了几次测试,并未发现这样的问题。我呢,由于最近忙于另一个项目,一直没来得及亲自和他一起查找原因。

问题又来了

3月17日是周四,上线日。要发布中新融创的对接程序。 晚上上线后,立即在线上订票,发现订单支付提醒短信还是会重复发3遍。

当时已经是晚上21点,我决定放下手头的活儿,来跟刘涛一起排查原因。

问题分析

客户在saas站点里预定机票,涉及到审批。审批是独立的一个站点。

订单的审批逻辑是这样的:客户在saas订票成功后,会跳转到统一审批页,提交审批后,统一审批系统会把审批状态通知给saas,然后重定向页面到订单流的下一个页面(由saas提供)。

Saas提供了一个由一般处理程序(文件是HandlerAirOrderExamineStatus.ashx)实现的接口,用来接收审批状态。内部大致逻辑是,修改订单的审批状态,然后会触发相应的对客提醒短信。 客户重复收到的短信是支付提醒短信,那么,意味着订单不需要审批。不需要审批在系统里表现在这些企业配置审批流。 根据现有代码逻辑,从填单页跳转到统一审批页,统一审批页初始化时没有获取到新审批,则会自动执行通知saas和页面重定向。

要补充说明一下的是,线上的审批站点和saas站点均是通过nginx做的3台服务器的负载。

通过查看线上日志,审批系统正常,即只会在其中一台服务器节点来请求saas接口进行审批状态的通知,并未发现异常日志。而saas呢,却发现3台服务器都记录了同样的日志。

为什么会出现这样的情况呢? 审批在通知saas时,nginx接收到请求后应该分发给其中一个节点服务器来处理请求才对呀。

困惑

因为之前系统运行都是正常的,并未出现这种短信重发的情况,所以我们暂先不怀疑代码逻辑。

马上想到,记得运维说过,如果一个服务器处理时间超长,会自动分发给另一个节点服务器。 历史原因,获取订单详情和触发短信通知这两段代码执行比较慢,那么,我在这两段代码外面加了个Stopwatch来诊断其执行时长。

publicvoidProcessRequest(HttpContext context)

{

Stopwatch sw=newStopwatch();

sw.Start();if(context.Request.Params.Count ==0)

{

context.Response.Write("{'returnCode':'2','returnMsg':'no parameters','notifiedSMSContent':'no parameters'}");return;

}stringparametersStr = context.Request.Params[0].AsToString();

SysLogToFile.WriteAuditMessage("dat修改订单状态传入参数_"+parametersStr);//下面的是200行逻辑代码,包括获取订单详情和触发短信通知...... ...... ...... ...... ...... ...... ...... ......

...... ...... ...... ...... ...... ...... ...... ......

...... ...... ...... ...... ...... ...... ...... ......

sw.Stop();

SysLogToFile.WriteAuditMessage("审批接口响应时间"+ (sw.ElapsedMilliseconds /1000));stringreturncode, returnmsg;if(flag)

{ returncode="1"; returnmsg ="success"; }else{

returncode="2"; returnmsg ="fail";

}

context.Response.Write("{'returnCode':'"+ returncode +"','returnMsg':'"+ returnmsg +"','notifiedSMSContent':'"+ returnmsg +"'}");

}

发布后经测试,发现3个节点的执行时长都长达7~8秒。

那么,我们接下来就优化程序吧,以期把duration降到最小。20分钟后,我们把优化的代码再发布到服务器。发现处理时间已经下降到了1~2秒。

然而,响应时间已经都优化到2秒了,依然是3个服务器节点上都做了处理。这带给我们的是一个更大的问号。

转机

为什么会有一个更大的问号呢? 因为我们线上的系统都是分布式部署的,一个流程逻辑会涉及到多个系统之间的交互访问。 每个系统都是通过nginx做的3个节点的负载,并没有出现过这种一个请求被3个服务器节点同时响应的情况。

在这种情况,我的一贯做法是釜底抽薪。当然,这次我依然坚持釜底抽薪。

Q:釜底抽薪是什么方式呢?

A:把接口里的代码都注释掉。响应时间应该接近于0毫秒,难道还会出现3个节点都响应的情况?

于是,我们注释掉所有逻辑代码,只保留了最后的输出(context.Response.Write)语句,发布到服务器。

由于我们每次的测试步骤是:登陆saas,选择航班,然后订票下单,再看日志,这一系列的操作很耗时间,同时给线上系统带来了很多无效订单(垃圾数据)。这次呢,我让刘涛直接访问那个通知接口地址来测试性能。

转机来了,在ie里直接访问那个接口时,页面直接抛出了大黄页,报“System.FormatException:输入字符串的格式不正确”,是由主方法里最后的这条语句产生的:

context.Response.Write(string.Format("{'returnCode':'{0}','returnMsg':'{1}','notifiedSMSContent':'{2}'}", returncode, returnmsg, returnmsg));

即在string.Format方法里,你是不能乱用‘{’的~。

于是,修复后(改成字符串拼接了)再次上线。

再次访问那个接口,返回正常了。

这时,最大的惊喜是,只有一个服务器节点处理了请求,短信重发3次的问题得到了根治。

这时,我才想起来,nginx在接收到请求后,会分发给多个服务器节点中的一个节点来处理请求,但是,当出现错误响应时,nginx会自动分开给另一个节点来处理,直到没有节点可供分发,即直到所有可用节点都被分发为止。(当然,这可能是我们运维对nginx的配置策略)

后续

我们解决完这个问题,已经午夜23:40,如释重负的打车回家了。

在回去的路上,我的脑子像过电影似的过了一遍我们这一晚的处理过程。

l  复杂的问题,在你用心解决时,往往产生自很简单的一行代码。很戏剧性的是,这行代码可能是你不经意的疏忽写错了,也可能是技能受限写错的。如果,有做简单的测试,这样的问题完全是可以在开发时被发现的,而不至于花费那么长的时间来。

l  另外,我又想到,审批系统调用接口时难道没有判断响应结果就做下一步的重定向了?这个疑问在第二天咨询刘涛时得到了肯定。这样的实现不够严谨,于是,我让他加上对结果的判断。 如果事先有这个判断,那么,这样的问题在审批请求时就会被发现的,何至于经历那么漫长的排查过程呢。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,497评论 18 139
  • 第一章 Nginx简介 Nginx是什么 没有听过Nginx?那么一定听过它的“同行”Apache吧!Ngi...
    JokerW阅读 32,605评论 24 1,002
  • 从三月份找实习到现在,面了一些公司,挂了不少,但最终还是拿到小米、百度、阿里、京东、新浪、CVTE、乐视家的研发岗...
    时芥蓝阅读 42,139评论 11 349
  • 《老男孩Linux运维》笔记 隐藏Nginx软件版本号 一般来说,软件的漏洞都和版本有关。因此要尽量隐藏对访问用户...
    Zhang21阅读 3,600评论 0 28
  • 丙申中秋,依旧客居江南,本欲邀月同饮,却逢一场秋雨,作此词以抒怀。 江南客醉他乡路,乍寒夜,西风舞。 旧庭新颜花簇...
    南宫晓寒阅读 419评论 0 1