存储raid5两块盘掉线导致数据丢失的恢复全过程

所属分类: 硬件教程 / 存储 阅读数: 71
收藏 0 赞 0 分享

1. 故障描述  

本案例是HP P2000的存储vmware exsi虚拟化平台,由RAID-5由10块lT硬盘组成,其中6号盘是热备盘,由于故障导致RAID-5磁盘阵列的两块盘掉线,表现为两块硬盘亮黄灯。 经用户方维护人员检测,故障硬盘应为物理故障,表现为:序列号无法读取,在SAS扩展卡上硬盘无法识别。

2. 数据备份与修复  

故障发生后用户方工程师与我公司联系,经过详细咨询,了解到故障比较严重,必须把RAID-5磁盘阵列带到我公司进行检测,检测RAID-5的每块成员盘是物理故障(磁头损坏或者盘片划伤)还是逻辑故障。由于情况紧急,工程师在接到原盘以后,立即着手准备检测。对能识别的好盘用连接到北亚镜像服务器上使用WinHex做扇区级镜像,同时对不能识别的坏盘进行检测。

  首先将坏盘连接到外部的SAS扩展卡上,加电后通过硬盘工作声音判断硬盘电机能够起转,但是磁头没有进行寻道操作,于是尝试把硬盘PCB分离下来对HDA组件氧化部分进行清洁操作,将PCB还原后故障依旧。于是和客户沟通使用6号热备盘的好PCB替换到故障盘上进行尝试性修复,再将故障盘PCB上的ROM芯片替换到6号盘的好PCB上面后硬盘工作时起转和磁头寻道声音都正常,但是在寻道结束后,有明显的敲盘声音,于是判断有可能磁头损坏。在和用户沟通后尝试使用6号热备盘中的好磁头对故障盘进行替换操作以读取数据。在无尘室对故障盘进行开盘更换磁头操作后,将故障盘连接到专业硬盘维修工作上进行检测,发现故障盘已经不能识别,数据无法读取。  

因为用户有两块故障盘,之前尝试修复的都是其中一块,再次和客户沟通尝试对另一块故障盘进行修复操作。和先前的故障盘一样,这块盘的故障依旧是磁头损坏,因为用户的

HP OEM盘价格昂贵,于是尝试在网上购买ST原厂的相同型号硬盘进行磁头更换。这块硬盘的磁头更换完成后,设备能够正常识别硬盘,于是将故障盘所有扇区完整镜像到一块相同容量的备份盘中。  

3.重组RAID-5

步骤【判断起始扇区】所有硬盘都镜像好后就可以重组了,用WinHex打开9块盘(热备盘不需要加进去重组),先把镜像文件解析成磁盘。可以看到这9块盘的0扇区都有“55 AA”标志,如图1所示。

图1

查找结果如图2所示,0x01C2H处表示该分区的类型,这里显示“05”,代表这是一个扩展分区。因此从0扇区看这是一个不正常的MBR分区结构。

 

图2  

  按图1方式继续往下找,分别在9号盘和8号盘找到了“55 AA”的标志。9号盘查询结果如图3所示。这是一个正常的MBR分区,其0x01C6处数值代表指向的下一个扇区为GPT的头部。

  图3

8号盘查询结果如图4所示。其0x01C6处数值代表指向下一个扇区。但是下一个扇区很明显不是GPT的头部。

 

图4

由此可以确定9号盘是第一块盘,8号盘可能是最后一块盘。GPT分区所在扇区起始于172032扇区,因此初步确定LUN的起始扇区是172032扇区。

【判断条带(stripe)大小】条带也称块,它是RAID处理数据的基本单元。不同的RAID其条带大小有所不同。RAID-5的1个条带组中有1个校验区,1个校验区的大小等于1个条带的大小,根据这一点,针对这个RAID-5案例做分析。如果对VMFS的文件系统不熟悉,可以通过比较法确定条带大小。如某一条带组中的校验区跟这一条带组中的非校验区可能相差的很明显,通过WinHex查看并做对比,就可以找到条带大小。

本案例判断出一个条带是1024个扇区。

【判断RAID-5成员盘盘序】按照1024扇区分割,使一个记录为一个条带的大小,如图5所示。并且9块盘跳到同一记录283123。

 

图5

当9块盘都定位到同一位置时,通过对比可以判断校验区的走向,继而判断整个RAID-5的走向。之前已经判断出9号盘是第一块盘了,把9号盘放在第一个位置,接着就可以判断走向了,结果如图6所示(drive9是第4块盘)。确定RAID-5为左走向,盘序为9,2,3,4,10,1,7,8,5。

 

图6

前面内容初步确定了LUN的起始扇区是172032扇区。用WinHex跳到172032扇区,观察各硬盘实际情况。如果172032扇区是LUN的起始扇区,那么这个扇区所属条带中的5号盘应该是校验区,但是此条带中却显示8号盘是检验区,根据本案例RAID-5的左走向,5号盘的校验区应该在172032-1024=171008扇区,即上一个条带。跳转到171008扇区,发现校验区为5号盘。因此可以确定LUN的起始扇区为171008扇区。

【重组RAID-5】使用专业恢复工具按照确定的盘序组好,添加进去,如图7所示。选择RAID-5,Stripe size 512KB,左异步。

 

图7

点击Build进行重组。组好后,由于数据从1024*8=8192个扇区开始,若专业恢复工具没有跳转到此扇区的功能,那么刚组好的RAID必须和一个文件再进行一次Build重组操作。RAID的起始扇区(Start sectors)选择8192,这个文件可以任意选择起始扇区和大小大小(Count sectors),如图8和图9所示,图10是组好的RAID-5。

 

图8

 

图9

 

图10

4.移交数据

整个RAID-5就重建好后,由我公司商务联系用户方验收数据,用户方确定数据没问题,签订完验收合同后,完整的RAID-5数据即可移交。移交时根据用户方要求把数据移交到用户方带来的新盘上。恢复完的数据保留在我公司服务器上3天,之后数据自动被系统销毁。

更多精彩内容其他人还在看

移动硬盘发出报警声

移动硬盘是HP 80GB的,接上电脑就发出滴、滴的报警声。接着显示USB无法识别,硬盘从来都是小心使用,没有摔过。 发现是因为移动硬盘供电不足引起的故障。先前使用的前置USB的接口,后来购买一根双口USB线加大供电,并且连接到主板上的USB口,移动
收藏 0 赞 0 分享

硬盘硬件故障基本测量方法

   1.测电阻法    该测量方法一般是用万用表的电阻挡测量部件或元件的内阻,根据其阻值的大小或通断情况,分析电路中的故障原因。一般元器件或部件的输入引脚和输出引脚对地或对电源都有一定的内阻,用普通万用表测量,通常应
收藏 0 赞 0 分享

西捷酷鱼硬盘的SELFSCAN详解

  其实用指令来实现西捷酷鱼硬盘的SELFSCAN是很简单的   具体的指令有两种  1:I指令  2:N指令  具体的方法是:  (运行的平台PC3000的PC-SEGATE和WINDOWS自带的超级终端都可以  其实用什么平台都是一样的,只要能够发送指
收藏 0 赞 0 分享

系统检测不到SATA硬盘

HD Tune测试我的WD 1.5TB硬盘显示:“标准ATA/ATAPI-7-SATA I;支持 UDMA模式6;当前UDMA模式5”。主板启动AHCI模式后进系统蓝屏提示“0X0000007B”。重装系统检不到硬盘。但主板BIOS里显示硬盘存在。 这是典型的没有预先安装装AHC
收藏 0 赞 0 分享

关于U盘无法复制:磁盘被写保护,请去掉写保护或使用另一张磁盘的解决

前几天U盘插电脑上突然不能复制了,提示磁盘被写保护,请去掉写保护或使用另一张磁盘郁闷了半天,终于找到解决方法了,原来是注册表的问题。 打开运行输入regedit进入注册表编辑器,找到HKEY_LOCAL_MACHINESYSTEMCurrentControlSetControlS
收藏 0 赞 0 分享

插上两块硬盘会蓝屏!

买了一块希捷酷鱼7200.12 1TB硬盘,和原来的硬盘型号一样,准备拿来做仓库盘,之后插上电脑,开机,正常的进入WinXp,然后就想分区,怎么知道一打开PQ就黑屏,之后蓝屏。重启后进入系统自动蓝屏。把新买的那块硬盘拔掉又正常了。为什么会这样子? 新
收藏 0 赞 0 分享

无法识别硬盘的解决一例

安装Win7,然后有一块硬盘无法识别,设备管理器中可以查到,但在“磁盘管理“中显示未初始化。在DOS下用diskman无法找到这块硬盘。今天早晨无意中插上后发现硬盘可正常读取,但做备份复制文件过程中死机。 既然系统能够识别,估计是硬盘上残留了病毒
收藏 0 赞 0 分享

磁盘未满或被写保护的解决办法

最简单是格式化 还有一些麻烦的办法   你的文件确定未被运行 .注消或重启电脑,然后再试着删除。 2.进入“安全模式删除”。 3.在纯DOS命令行下使用DEL,DELTREE和RD命令将其删除。 4.如果是文件夹中有比较多的子目录或文件而导致无法
收藏 0 赞 0 分享

电脑出现卡机症状而且硬盘灯长亮

9月初装的电脑,装机后大概一个月左右出现卡机现象,症状为:硬盘灯长亮,持续时间1分多钟,出现的频率越来越多。重装操作系统无效,故障依旧,设备管理器中显示无任何硬件冲突。 【龚师傅】:用户在报配置时,并没有提及电源的品牌及型号,因此不太
收藏 0 赞 0 分享

开机出现Disk I/O错误的解决

  今天早上我一开机就出现
收藏 0 赞 0 分享
查看更多