服务器数据恢复—硬盘掉线导致热备盘同步失败的RAID5阵列数据恢复案例
服务器存储数据恢复环境:
华为S5300存储中有12块FC硬盘,其中11块硬盘作为数据盘组建了一组RAID5阵列,剩下的1块硬盘作为热备盘使用。基于RAID的LUN分配给linux操作系统使用,存放的数据主要是Oracle数据库。
服务器存储故障:
RAID5阵列中1块硬盘出现故障离线,热备盘自动激活开始同步数据,在同步数据的过程中又一块硬盘离线,RAID5阵列瘫痪,上层LUN无法使用。
服务器存储数据恢复过程:
1、将故障存储中所有磁盘做好标记后取出。硬件工程师对所有磁盘做物理故障检测,没有发现有硬盘存在硬件故障,都可以正常读取。将所有磁盘以只读方式进行扇区级全盘镜像,在镜像过程中没有发现有磁盘存在大量坏道。镜像完成后将所有磁盘按照原样还原到原存储中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。由于没有检测到有磁盘存在物理故障或者大量坏道,基本上可以判断某些硬盘离线的原因就是磁盘读写不稳定。故障存储raid控制器通常会将性能不稳定的磁盘识别为坏盘,并踢出RAID。一旦RAID中掉线的磁盘数据超过该RAID级别所允许掉盘的最大数量,该RAID将不可用,基于RAID的LUN也不可用。
2、基于镜像文件分析所有硬盘底层数据。分析底层RAID相关信息,根据分析获取到的raid信息重组RAID。RAID重建完成后,分析Oracle数据库页在每个磁盘中分布的情况。
3、由于RAID中有两块盘掉线且有一块硬盘数据被同步破坏。分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,初步判断此硬盘可能是被同步破坏的硬盘。通过北亚企安自主开发的RAID校验程序对这个条带做校验,确认该盘就是被同步损坏