总体概况
开源运维软件种类很多,粗略统计有数百计。很难将它们一一罗列出来了。但斯坦福大学在网上提供了一个运维软件的汇总报告。在这个报告中,不仅罗列数以百计的运维软件,还对它们做了分类。这份报告将运维软件分为四大类:
网络监控平台 – NMP
这类软件着重于建立一个可扩展的,功能全面的平台。既有开源软件如OpenNMS,也有商业软件如OpenView。
商业公司的监控工具 – Commercial Monitoring Tools
这类软件有专业的商业公司的支持。但这类软件比如专注于某个具体协议或设备, 不具有平台扩展性。
公共领域的免费监控软件
这类软件中不乏带有平台性质的产品,如nagios, NetDisco。而且,其中的一些软件也是有商业公司的支持。如zabbix。
Web 工具
这类软件专注于Web应用的监控。
功能对比
WIKI提供了一个运维软件功能对的报告,对比几十种运维软件。表1 列出了我们主要关注的五款软件的对比图。详细内容可访问WIKI[2]。
选择这五款开源软件的依据在于,它们的功能较为全面,可以做为未来产品的基础。其次它们有广泛的使用人群,并且有商业公司或社区的支持。最后,它们的稳定性相对较好,降低我们开发的负担。
一些监控工具的使用也非常广泛。甚至比下述五款软件有更多的部署量。但由于它们功能单一,缺少扩展性。我们排除了它们。
Nagios是最常见产品。使用C语言开发的。它在国内非常流行。在运维论坛上,它也是被讨论最多的。它的稳定性最好。在网上参考资料也比较多。但它的前端界面非常简陋。如下图所示。
Cacti 拥有良好的前端界面,可以完成基本的监控功能。但它的功能较弱。扩展性差。主要是使用PHP开发的。
OpenNMS 主要采用Java语言开发的。尽管为了支持ICMP协议,有一些JNI是用C编写的。它的功能比较全面。
Zenoss是由商业公司支持的. 公司于2002年成立,其结构为Zope/Python方式,图像展示与存放方面借鉴了Cacti的模板化的RRA,关系数据库如同目录结构一样。Zenoss系统将各种监视和管理信息通过一个标准的we浏览器集中向用户展示,系统的各种功能都可以通过web界面进行访问而无需编写任何配置文件。Zenoss使用python编写,混合了大量的第三方库.
ZABBIX是由Alexei Vladishev开发的网络管理系统,其目的是监测和跟踪各种网络服务、服务器的状态和其他网络硬件。它使用MySQL、PostgreSQL、SQLite或Oracle存储数据。其后端用C语言编写,网页前端使用PHP编写的。ZABBIX的监测提供 了多种方式。简单的检查无需安装任何监控主机软件,可以监测如SMTP或HTTP等标准服务的可用性和响应能力。ZABBIX代理可以安装在UNIX和 Windows主机上,可以监控如CPU负载、网络利用率、磁盘空间等信息。在未在主机上安装ZIBBIX代理程序的情况下,ZIBBIX可以通过 SNMP协议、TCP和ICMP检查、IPMI和自定义参数来实现对主机状态的检查。ZABBIX支持多种实时通报机制,包括XMPP协议。
适用性分析
zenoss采用python开发. 从网上的信息看到,由于它使用了大量的第三方库,导致学习成本很高. 不利于我们快速开发产品. 不建议采用.
openNMS采用Java开发. 它的优点在于, 由于有商业公司的支持, 它的安装包做的非常规范. 安装很简单. 该软件的最大问题,它并不稳定.
Cacti主要用于前端. 功能比较少.比如缺乏报警功能. 从业界的经验看,将其与nagios整合比较好.
Nagios是界面的主流.它最大的优点是稳定.其次,国内网络上有大量的资料.在运维论坛上,关于它的讨论也是最多的.但它的缺点也很明显. 它不支持拓扑, 不支持telnet,ssh方式的discovery(注:飞思公司自行开发了扩展来支持). 它的UI很差. 需要与cacti结合才可以提供基于时间的分析图. nagios 适合监视大量服务器上面的大批服务是否正常, 重点并不在图形化的监控. 这也是为什么它的UI比较差的原因.
Zabbix 是新出的开源监控软件. 其背后也有商业公司的支持. 它的后端用C编写,前端为PHP. 它拥有优异的能力. 在国外的论坛, 它被大力的推荐. 缺点在于国内,关于它的资料很少.
ZenOSS,openNMS和cacti的核心部分分别采用python,java和PHP。这些语言不具备保密性。不利于产品的保护。从这个角度来看,我们也不宜采用它们。
结论
经过上面的分析, 我们认为nagios+cacti 与 zabbix 比较适合开发嵌入式的运维设备。因为它们有着最重要的特点-稳定。其次,它们采用C和PHP,适合于我们团队的人才组成。
从查阅的资料来看,nagios和zabbix各有所长。需要对它们做进一步的分析才可确定。而且,一些网上的资料的成文时间较早,对nagios和zabbix功能上的批评可能已经过时。一些对比报告带有强烈的个人色彩,也难以完全采信。
因此,我将分别搭建出nagios 和zabbix 的DEMO环境,通过实际的使用,来更精细的对其分析。同时,还将查看它们的代码,选择结构清晰,扩展性好的。
参考
[1] 斯坦福大学提供的开源运维软件汇总
http://www.slac.stanford.edu/xorg/nmtf/nmtf-tools.html
[2] wiki上的开源运维软件对比
http://en.wikipedia.org/wiki/Network_monitoring_comparison
[3] nagios and zabbix evaluation