不管哪个语言写的程序,上线之后总是有可能碰到一些奇怪的bug, 在测试环境下很难出现(或者说不知道到用什么方式会出现),但生产环境就是有。这里就记录一下关于Go程序解决bug的几点简单技巧,包教包会,走过路过千万不要错过。
技巧1,发现问题。我这里碰到的一个问题是goroutine泄露。程序上线后,每天会发现goroutine会增多一些,并且不会降回来。
怎么发现呢?要么用户反馈,要么就是监控了。监控的话influxdb和prometheus都可以收集监控数据,对go程序也有直接提供一系列metrics,比如goroutine, cpu占用,memory占用等。
我是看监控的时候,发现了问题。
技巧2,定位问题。发现goroutine泄露之后,很长一段时间我都没搞清楚到底是哪里出问题了。怎么办呢?好在go自带神器pprof。我写的是一个web程序,直接接入pprof就行。根据各个不同的web框架,接入方式各不相同,但是最终都是访问一个形如”/debug/pprof/goroutine"这样的地址。
好了,接下来,划重点。有的时候,”/debug/pprof/goroutine"并不能解决问题,你可能需要看到更详细的debug信息,比如调用栈等。这个时候需要提高debug等级,方法非常简单,url变成如下形式即可:
/debug/pprof/goroutine?debug=2
目前,我知道debug可以有0,1,2, 数字越大内容越详细(但是相信我,有的时候看不那么详细的才容易发现问题)。数字含义请参考源码的注释(主要看WriteTo方法那里)。
通过这个方法,我获取了一些信息:
发现是sql transaction导致goroutine泄露了(截图显示73个goroutine卡在那里),真是哔了狗了。
技巧3,尝试解决问题。没有什么好的办法, 一般经过前面两个步骤之后,问题都可以定位出来了,改代码就行了。我遇到的这个问题特别难缠,正好是一个新的goroutine启动之后直接卡住。看堆栈信息是缺失的,因为是一个新的goroutine,堆栈只显示到调用的那个地方,再之前的堆栈,属于“父”goroutine的内容了。。。
这叫我怎么办,我也没有办法。硬着头皮,就打印log呗。但是我这个问题又比较尴尬,堆栈只显示到go的源码部分,所以呢,我只能修改了go的源代码,然后上线看情况。
这是很容易搞出问题的,如果你也遇到同样的处境,上线测试版本前请先准备好辞职报告。
上线之前,我一直以为一定是我代码什么地方transaction忘记rollback或者commit导致了泄露。上线之后,发现居然不泄露了。哔了狗了+1。这说明什么,说明打印信息之后导致执行正常了。那是啥意思,就是多线程的问题!这下,彻底尴尬了。。。。
虽然还是没能完全解决问题,但是过程中学到了很多技巧。接下来,我只能继续观察了。。。