最近由于工作需要,接触了两类监控类产品,一类是对于系统资源,系统状态、应用状态等信息的监控,主要是使用prometheus+grafana
,这个打算以后更熟悉了写几篇科普的文章,用起来感觉还是很酷也很实用的;另外一类是error tracking
类的产品,我用的是sentry,很早以前就听过它了,粗略了解之后感觉部署还是不简单就放弃了,后来突然想到可以使用docker
来进行部署,就仔细读了它的部署文档,使用docker-compose
来部署还是很简单的,这里我就不说了,网上这类文章也很多,有问题的读者可以找一篇比较详细的文章进行了解。
由于想对haipproxy再做一些优化,其中一个优化点便是如何对其做监控。以前面试的时候,面试官问了我一个问题:你日志是通过什么来查看的呢?我当时愣了一下,说,肉眼看的。确实通过肉眼可以一行一行读可以大大提升我们trouble shotting
的能力,我也因此受益良多。但是在日志特别大的时候,这种方式就比较低效了。Sentry将我们从bug trace
中解救了出来,我们可以在项目中将一些重要信息使用Sentry进行上报,它可以通过邮件或者其它方式(如slack
)通知开发者进行查看,及时发现问题。它的使用也非常简单,当我们在它的页面通过New Project
建立好项目之后,它会显示一个Sentry_DSN
,比如
http://82c130028fa942f29add1e0aa0ff9cbd:cffa174304d248b9aa2bdb385d3b01b8@127.0.0.1:9000/6
然后我们安装对应语言的客户端,我用的是Python,则
pip install raven
raven
就是它的客户端,然后生成一个Client
的实例,用于上报重要信息
client = Client(http://82c130028fa942f29add1e0aa0ff9cbd:cffa174304d248b9aa2bdb385d3b01b8@127.0.0.1:9000/6)
之后,在需要进行上报信息的地方导入该实例即可,比如我在Scrapy
的下载中间件中,使用Sentry的代码如下
class ErrorTraceMiddleware(object):
def process_response(self, request, response, spider):
if response.status >= 400:
reason = 'error http code {} for {}'.format(response.status, request.url)
self._faillog(request, HttpError, reason, spider)
return response
def process_exception(self, request, exception, spider):
self._faillog(request, DownloadException, exception, spider)
return
def _faillog(self, request, exc, reason, spider):
if USE_SENTRY:
try:
raise exc
except Exception:
message = 'error occurs when downloading {}'.format(request.url)
client.captureException(message=message)
else:
print(reason)
如果同时需要跟踪页面解析错误的信息,那么需要实现一个SpiderMiddleware
,或者通过signals
来做,这里由于篇幅就不介绍了。
下面是在Haipproxy中关于使用Sentry的一些Bug Trace相关信息
也有详细的错误信息
可见还是非常直观的
如果是非scrapy
的bug trace
,我以前的做法是写一个装饰器捕获可能出现但是自己又没想到的错误,记录在日志中,然后通过定期查看日志来完善这部分代码,有了sentry之后,一切变得更加简单了,比如我为爬虫解析页面写的一个捕获未知错误的装饰器,结合sentry可以这样写
def parse_decorator(return_value):
def page_parse(func):
@wraps(func)
def handle_error(*keys):
try:
return func(*keys)
except Exception as e:
client.captureException()
return return_value
return handle_error
return page_parse
使用sentry,我们主要调用的就是client.captureException()
方法,它在except
作用域中,用于收集错误堆栈,为了便于复现或者调试错误,有的时候,我们可能需要附加除了错误堆栈之外的一些其它信息,这时候可以用message
这个参数。它可以传递一些额外的信息,这样更加方便跟踪错误。
还有一个client.captureMessage()
方法,它的主要作用在于上报一些重要信息而非错误堆栈。
目前只是对其的一些简单使用,后续还会加深了解,比如多团队多用户协作,与其它项目管理软件进行集成(如Gitlab
),如何做高可用等