我有1000台服务器,运维工作中应该注意什么?


我有1000台服务器,运维工作中应该注意什么?

监控,告警,这两点做到就可以了推荐你用wgcloud监控系统,这个简单一些,不像zabbix那么复杂

初级运维可能告诉你要做好监控,然后附上一系列监控手段、工具、指标,再加些应急响应的处理方式。中级运维可能告诉你要做好自动化,包括系统的安装部署、程序的批量发布、一些命令的自动执行等各类服务器管理。当然符合中级标准准的,必然这个自动化是建立在一个有效的CMDB下,台服务器各类指标需要自动采集、关联。高级运维,可能告诉你,要从SRE逐渐上升到DEVOPS、AIOPS,并给出一系列流程管控、基于机器学习的各类指标管理及恢复。然而,我的个人观点是,一切可视化。台服务器,想知道什么、领导想知道什么、业务老总想知道什么,都能可视化出来。包括机器性能、交易总量、机房环境等。可视化要做好,其实凌驾一切。



1.标准化配置

2.安装相同软件安装同一位置3端口规则

当基础计算能力足够多的时候,安全和稳定性以及备份体系,因为体系就都称为重中之重了.犹如行军打仗,小规模的时候主要靠计谋,大兵团作战考战略规划,预案,侦查体系,参谋体系,后勤体系,军工体系,后备役体系,战争动员体系.所以大型数据中心要建立完善的体系,而不是简单追求性能.

随着服务器数量的增加,用户需求开始变得复杂,我们需要做到以下几点:统一监控内容:云帮手将基础监控进行统

一,默认每个机器都包含CPU,内存,磁盘空间等基础信息监控。覆盖式监控:云帮手支持多IP服务器纳入监控,所有服务器统一可视化管理,功能覆盖整个业务流程,避免多系统繁杂管理,保障业务高效运行。及时通知,确保无漏报:云帮手会在系统触发告警规则后第一时间产生告警,且告警记录可查询,坚决做到不迟报不漏报。可以跳转这个链接去官网看看/?utm_source=wu-wk