一、前言
服务器虚拟化技术作为成熟的技术已广泛应用于各行各业的生产、办公、测试系统,其快速交付服务器、减少机房使用空间、节省硬件采购成本、降低电力消耗、简化服务器管理等方面的优点非常突显,规模较大的企业已部署超过5000台虚拟服务器。
笔者被邀请对一家已部署200台虚拟服务器的企业服务器虚拟化平台进行分析和诊断,发现较多有待改进的管理实践,现分享部分供各位参考,助力各企业实现安全高效应用服务器虚拟化技术。
本公众号发表的内容不包含企业秘密,仅代表个人言论,仅供各位参考。
二、管理实践
1、最佳系统架构
分析该企业的虚拟化系统之前,先介绍笔者认为的服务器虚拟化最佳系统架构。
上图为某企业安全运行超过六年的系统架构示意图,支撑投资交易、估值、TA、官网、网上交易、OA、邮箱、投研、风控、反洗钱、客服等生产系统。采用全冗余架构,任何单一的控制器、交换机、硬盘、网卡、光纤线、网线故障均实现数秒内切换,虚拟服务器在Ping测试中仅丢1~2个包或不丢包,已实现对上层应用系统的无感支持。
上图为同城双中心系统架构,机房1的虚拟服务器每24小时同步一次到机房2,当机房1的单台或多台虚拟服务器出现任意故障时,机房2的虚拟服务器副本可以在1分钟内实现开机和恢复业务运行,保障业务的连续性。
2、管理实践:冗余前端网络
在分析该企业的虚拟化平台前端网络时,笔者发现多处有待改进的地方,部分是影响系统运维效率、部分是直接威胁虚拟服务器的安全运行,以下仔细展开讲解。
参照左图系统架构图,右图系统架构图的宿主机A存在迁移网络带宽不足问题,由于迁移网络和管理网络复用,且带宽仅有100M,当从宿主机A上迁移一台300G的虚拟服务器到宿主机B,实测需要超过24小的时间,建议迁移网络需1G或以上带宽。
同时宿主机A的虚拟机网络仅有一块1G网卡,如发生网线或网卡故障时,宿主机A上的虚拟服务器将全部中断网络,影响业务系统运行,建议实施网络冗余。
宿主机B具有冗余的网线连接,但虚拟机网络使用100M网口或连接交换机100M端口,在同时运行多台虚拟服务器时会出现网络瓶颈,建议虚拟机网络使用1G或10G网络。
宿主机C具有冗余的网线连接,但虚拟机网络连接到同一台非堆叠交换机上,当此交换机故障时,宿主机C上的虚拟服务器将全部中断网络,影响业务系统运行,建议连接到相同级别的不同交换机。
3、管理实践:冗余后端存储
在分析该企业的虚拟化平台后端存储时,笔者发现两处较严重的安全隐患,直接威胁虚拟服务器的安全运行及可能出现数据丢失,以下仔细展开讲解。
参照左图正常后端存储架构图,右图中的宿主机A存在单HBA连接存储网络的问题,如发生光纤线或HBA故障时,宿主机A上的虚拟服务器将无法读取或写入磁盘,将引起系统崩溃及数据丢失,后果非常严重。
右图中的宿主机C配置2块HBA而且同时处于工作状态,但磁盘阵列与存储交换机之间没有全冗余连接,当存储控制器出现切换时,宿主机C上的虚拟服务器将无法读取或写入磁盘,将引起系统崩溃及数据丢失,后果非常严重。
后端存储是虚拟服务器安全运行的基础,建议进行全冗余部署,防止系统崩溃或数据丢失。
4、管理实践:统一虚拟机网络
上图为该企业的虚拟机网络配置情况,多数网络仅配置于单台宿主机中,如需要迁移虚拟服务器,重启后的虚拟服务器将丢失网络连接,需进行网络配置后方能连网。建议统一虚拟化平台的网络配置,采用相同的网络名称,实现虚拟服务器迁移后可自动连接原有网络。
网络名称建议采用网络规划功能名称,不建议使用已分配虚拟服务器的名称,避免后期需要修改。
5、管理实践:使用精简置备磁盘
上图为该企业的虚拟机的磁盘配置和已用情况,采用不同的磁盘配置模式在空间占用方面有很大的区别。例如同样配置200G的服务器,磁盘采用“厚置备延迟置零”的服务器实际占用空间为200G,磁盘采用“精简置备”的服务器实际占用空间仅为10GB,相差近20倍。“精简置备”非常适合后期磁盘空间要求较大和对磁盘读写性能要求不高的服务器使用,对于磁盘空间固定且对磁盘读写性能要求较高的服务器,磁盘需配置为“厚置备快速置零”。
上图为虚拟机的磁盘采用“精简置备”的数据信息,单台物理服务器磁盘空间为9.81T,实现对虚拟机的磁盘分配能力已达27.84T,虚拟机实际占用空间为1.69T,完成对业务系统的大容量磁盘支持,助力业务系统快速部署和上线运行。
这里要特别强调一下,“精简置备”模式是属于预分配磁盘模式,预分配空间多数超过实际可用空间,需定期检查磁盘空间使用情况,防止磁盘出现“爆表”的情况。
6、管理实践:加强平台自身安全性
上图为该企业的远程登陆到宿主机执行命令的情况,笔者建议非必要时不要开启远程命令功能,保持关闭可以减少宿主机的风险暴露面。安全圈有出现企业的数百台虚拟化服务器被加密的勒索事件,突破口可能是宿主机或控制中心没有进行有效安全管理。
对于虚拟化平台的软件版本,笔者建议使用稳定的版本和对低版本进行升级,生产环境使用6.7版本,测试环境使用7.0版本,对于6.0及以下版本需尽快进行升级。
7、管理实践:与网络管理岗的协同工作
服务器虚拟化平台的网络是否属于企业网络的组成部分?笔者认为是的,因此不能缺少与网络管理岗的协同,刚才讲了很多服务器虚拟化平台的网络问题就是没有与网络管理岗进行良好协同的结果。
对于虚拟化管理岗,可以对网络管理岗提出具体的要求,例如高带宽连接同级别的不同交换机、与虚拟化服务器网卡连接的交换机端口要关闭生成树协议、对虚拟化平台宿主机进行安全隔离等,通过测试验证网络冗余就绪。
8、管理实践:与存储管理岗的协同工作
存储系统异常将导致虚拟服务器出现业务中断或数据丢失,虚拟化管理岗是可以发现存储系统的异常情况的,如上图所示,如出现存储控制器、存储交换机、HBA、光纤线故障时,路径的数量会减少,要及时报给存储系统岗进行处置,尽快消除存储安全隐患。
对于不同的虚拟服务器,分配硬盘的类型是不一样的,读写性能要求高的优先分配SSD存储,其他的分配非SSD存储,特殊虚拟服务器可能需要直通访问存储阵列。
9、管理实践:与业务管理岗的协同工作
服务器虚拟化采用资源池共用的方式进行资源分配,服务器虚拟化管理岗要了解虚拟化服务器的内部运行软件情况,以最优的策略进行CPU、内存、磁盘、网络的调配,实现运行效率和资源利用的最大化。
10、管理实践:与上级领导的协同工作
上级领导是方向的引导者,也是资源的提供者,企业的服务器虚拟化规范大小与上级领导的关注与支持密切相关。管理岗要在保障安全运行的基础上,持续加强上级领导对服务器虚拟化的信心,持续向上级领导输出服务器虚拟化的价值,持续争取上级领导对虚拟化系统的投入。
如果上级领导暂时对服务器虚拟化缺乏信心,可以从测试环境做起,交给漂亮答卷后再部署生产服务虚拟化环境。
三、结束语
服务器虚拟化平台是企业基础架构的重要组成部分,办公类和测试类建议全面采用虚拟服务器,对于证券、期货实时交易系统等特别重要的生产服务器,建议采用物理服务器。
服务器虚拟化平台管理是具有一定专业性要求的工作,笔者作为技术爱好者对服务器虚拟化管理了解非常有限,不当之处望各位专家指正。