Sentry的优势
- 开源,有免费版
- 可以部署自己的服务器,安全
- 错误信息及告警机制完善
- 简单易上手,开发成本低
- 错误追踪及状态流转及时,方便
- 丰富的SDK
-
社区活跃
一、部署运维
sentry分为收费版和免费自建版,收费版的不适用我们大多数公司,所以本文主要是介绍免费版。
Docker Compose
官方提供了docker-compose,也是它推荐的部署方式,参考地址:https://github.com/getsentry/onpremise。
git clone https://github.com/getsentry/onpremise.git
cd onpremise
./install.sh
docker-compose up -d
k8s
另外关于sentry的高可用方案,首推k8s部署了,参考地址:https://github.com/sentry-kubernetes/charts。
sentry升级
sentry提供了升级命令,一键升级数据库到对应的新版本,但是需要注意之前的版本需要是9.1.2之上。如果小于9.1.2是不兼容的。只能通过命令把用户和项目数据导出。放弃之前的错误信息。
docker-compose run --rm web upgrade
二、应用接入
2.1 Java应用接入
- pom.xml引入官方的jar包
<dependency>
<groupId>io.sentry</groupId>
<artifactId>sentry-spring-boot-starter</artifactId>
<version>4.3.0</version>
</dependency>
<dependency>
<groupId>io.sentry</groupId>
<artifactId>sentry-logback</artifactId>
<version>4.3.0</version>
</dependency>
- 配置项
<?xml version="1.0" encoding="UTF-8"?><root>
<include resource="org/springframework/boot/logging/logback/defaults.xml"></include>
<include resource="org/springframework/boot/logging/logback/console-appender.xml"></include>
<appender name="SENTRY" class="io.sentry.logback.SentryAppender">
<options>
<dsn>http://ac5a2918ec064472a861066a5c3ddcdc@10.10.4.23:19000/4</dsn>
<shutdownTimeout>2000</shutdownTimeout>
<flushTimeoutMillis>15000</flushTimeoutMillis>
<debug>false</debug>
<maxBreadcrumbs>100</maxBreadcrumbs>
<release>1.0.0</release>
<environment>production</environment>
<sampleRate>1.0</sampleRate>
<attachThreads>false</attachThreads>
<attachStacktrace>false</attachStacktrace>
<serverName>host-4</serverName>
<connectionTimeoutMillis>5000</connectionTimeoutMillis>
<readTimeoutMillis>5000</readTimeoutMillis>
</options>
<minimumEventLevel>WARN</minimumEventLevel>
<minimumBreadcrumbLevel>DEBUG</minimumBreadcrumbLevel>
</appender>
<root level="info">
<appender_ref ref="CONSOLE"></appender_ref>
<appender_ref ref="SENTRY"></appender_ref>
</root>
</root>
2.2 前端应用接入
除了自主研发外,还可以借助第三方插件( 阿里ARMS、fundebug、BadJS,sentry )
- 阿里ARMS :是阿里的一个前端数据监控的服务,是收费的
- fundebug :挺完善的前端错误日志服务,也是收费的
- BadJS :腾讯团队的一个开源项目,没看过,应该很不错的
还有就是可以使用sentry来做监控了,可以和公司的其他语言项目集成在一起。
三、sentry启动的服务
nginx:进行服务间的网络通信
sentry_defaults:默认环境
- worker:处理后台工作,邮件,报警等
- cron:处理定时任务
- web:sentry 的 web 页面服务
- post-process-forwarder
- ingest-consumer:处理 kafka 消息
snuba-cleanup:数据清理
relay:
- web 上报的数据先到 relay
- relay 直接返回响应状态
- 然后在后台任务中继续处理数据
- 解析事件、格式调整、启用过滤规则等
- 数据写入 kafka
postgres:服务后台默认的数据库,存储异常数据
redis:数据拦截配置
kafka:数据响应,建立服务间的长连接
zookeeper:支持管理 kafaka 的服务
这里再使用思维导图梳理下服务列表:
四、sentry整体运行流程
五、sentry配置文件
- config.yml:配置文件
- sentry.conf.py:为 python 代码,覆盖或合并至 sentry 服务中,从而影响 sentry 运行。
- .env:镜像版本、数据保留天数、端口等配置
.env文件
COMPOSE_PROJECT_NAME=sentry_onpremise
SENTRY_EVENT_RETENTION_DAYS=90
SENTRY_IMAGE=getsentry/sentry:83b1380
# You can either use a port number or an IP:PORT combo for SENTRY_BIND
# See https://docs.docker.com/compose/compose-file/#ports for more
SENTRY_BIND=9000
SENTRY_IMAGE=getsentry/sentry:nightly
SNUBA_IMAGE=getsentry/snuba:nightly
RELAY_IMAGE=getsentry/relay:nightly
SYMBOLICATOR_IMAGE=getsentry/symbolicator:nightly
数据保留时长
默认90天
如果需要将数据保留时长改为 7 天。修改 .env 文件即可:
SENTRY_EVENT_RETENTION_DAYS=7
数据存储位置修改
在服务运行过程中,会有大量的 log、Postgres 生成,这些数据都会挂在到 docker volume 中,volume 默认挂在/var 目录下,通常/var 目录容量较小,随着服务运行内存很容易被占满,我们可以对 docker volume 挂在目录进行修改
# 在容量最大的目录下创建文件夹
mkdir -p /data/var/lib/
# 停止 docker 服务
systemctl stop docker
# 将 docker 的默认数据复制到新路径下,删除旧数据并创建软连接,即使得存储实际占用磁盘为新路径
/bin/cp -a /var/lib/docker /data/var/lib/docker && rm -rf /var/lib/docker && ln -s /data/var/lib/docker /var/lib/docker
# 重启 docker 服务
systemctl start docker
六、术语
Event:事件。
每次产生的日志记录,每个event有很多元信息,包括事件级别,项目信息,环境等。可通过点击具体事件对应的“JSON”数据进行查看Issue:问题。
相同的地方产生的一个异常称为一个Issue(是同一类问题的聚合)。假如在同一个位置发生了两次报错,那么会产生两个Event事件,但是只有一个Issue。DSN:客户端(具体项目)密钥。
DSN是一个url,包含相关密钥信息,客户端与服务端(sentry服务器)就是通过这个DSN进行通信,上报错误信息的。Auth Token:授权令牌。
授权令牌允许基于你的账户使用Sentry API,我们主要用到使用@sentry/cli进行上传sourceMap文件等操作时,sentry/cli会基于Auth Token进行调用相应API方法。Org:组织名称。
对应公司部署的sentry服务器上的组织名称。Release:版本号。
Project:客户端名称。(接入sentry的具体项目名)
Tag:标签。
七、错误解决方案
Resolve
- 当前版本解决:发完版本以后,修改issue状态
- 下个版本解决:issue发现后马上解决,代码跟随下个版本上线
- 其他版本:一般不使用该选项
Ignore
- 时间维度:xx时间之前忽略(可自定义时间)
- 数量维度:再出现xx次之前忽略
- 用户维度:再有xx个用户复现这个错误之前忽略
八、使用技巧
主动补货并上报错误
有时我们可能需要自己去主动去触发一些错误上报,比如一些特定操作、某些已经被弃用的接口被调用了、捕获一些线上运行数据去排查问题。可以利用 Sentry 提供过的 captureException 或者 captureMessage 去上报错误或者文本信息。
丰富上报数据上下文
除了刚刚我们介入过程中提到的 user 用户信息,还可以有tags、level、fingerprint、extra data。
比如添加一些 tags,可以使用 scope.setTags(前端,不同语言语法不一样,如 Django 为 sentry_sdk.set_context) 可以给事件定义不同的键/值对。我们在后台查找的时候,筛选条件选项会多出来一些选项,就是通过 setTags 来设置的这些键值对。
参考文章列表:
https://jiankunking.com/sentry-high-availability-deploy.html [sentry高可用的思考]
https://zhuanlan.zhihu.com/p/343268881
掘金网站的一些文章,偏向于前端监控。
https://juejin.cn/post/6954303116783124487
https://juejin.cn/post/6956100572239888398
https://juejin.cn/post/6957475955858210823#heading-6
https://juejin.cn/post/6979874801091346440
https://juejin.cn/post/6844903731083870215
java后端的接入文章比较多,官方也提供了starter接入,注意版本兼容情况。
https://segmentfault.com/a/1190000039131388