这篇文章主要介绍“如何解决服务器故障”,在日常操作中,相信很多人在如何解决服务器故障问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何解决服务器故障”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
定期检修、维护。服务器硬件的性能受使用寿命的影响,定期对设备进行检修和维护可以及时发现可能出现故障的各类情况。例如硬盘读写缓慢、异响、阵列中硬盘掉线等都是即将出现故障的前兆。
定制服务器应急计划。可定制一套应急计划,例如备份服务器,应急电源,冗余内存等,在服务器停止运行时可以立即启用应急计划,避免影响业务。
如果服务器上的数据已经遭到破坏,应该对服务器进行关机,备份服务器数据并进行专业的数据恢复操作,恢复服务器数据。
本次分享的服务器为HPDL380系列,存储是由6块73GBSAS硬盘组成的RAID5,操作系统是WINDOWS2003SERVER,主要作为企业部门内部的文件服务器来应用,主机(无UPS)故障前经历过几次意外断电,重启后RAID报错,提示无法找到存储设备,进入RAID管理模块后操作死机,重启后问题依旧无法解决。
主机意外断电导致RAID模块损坏(包括RAID管理信息丢失和RAID模块硬件损坏)的情况并不少见,一般来说,RAID创建完成后,其管理模块的信息就不会再发生改变,但这部分信息毕竟属于可修改信息,意外断电很容易造成这部分信息被篡改甚至丢失,多次断电甚至有可能导致RAID卡上的元器件损坏,从而使主机失去对多块物理硬盘进行RAID管理的中间层模块。该案例中对RAID模块的操作死机现象极有可能是由RAID卡硬件损坏引起的(后经HP售后技术人员验证得到证实),此时通过正常途径已无法将获取6块硬盘中的数据,只能依靠第三方提供数据恢复服务来解决。
2.分别镜像用户故障RAID组中的6块硬盘,为保证绝对的数据安全,目标存储为带有冗余功能的阵列存储;
3.镜像完成后,对所生成的6个备份文件进行RAID结构分析,依据文件系统存储规则确定6块硬盘在构建RAID5的盘序、数据块大小及校验方式,并于虚拟环境中重新构建RAID组;
4.对所构建RAID中的数据进行逻辑校验,确保重构RAID所应用的各参数正确无误后,针对用户最为关注的数据进行完全验证;
5.用户确认数据恢复结果已完全达到预期(数据恢复至故障前状态)后,将所有用户业务数据迁移至用户存储,至此数据恢复完成
2.最好为重要的服务器及存储配置UPS,可在机房意外断电的情况下保证核心业务系统能继续维持一定时间的正常工作,从而为企业寻求应急解决方案赢得宝贵的时间;
3.对于服务年限已久的服务器应定期进行安全状况检查,并对其整体运行状态进行评估以决定是否进行硬件及系统的全面升级,同时提前制定突发数据灾难的紧急处理方案,以降低数据灾难带来的业务损失。
服务器作为一种高速运算、长时间运行的设备,出现故障的情况相对较多,但我们可以在使用过程中尽量减少或避免服务器故障,也可以在服务器故障后选择数据恢复手段来保护服务器内的数据,减少损失。
到此,关于“如何解决服务器故障”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!