抽象画是什么:RAID掉盘,知道原因,找不到解决办法。。

来源:百度文库 编辑:杭州交通信息网 时间:2024/05/05 06:57:26
掉盘原因:
大家都知道,“多用户环境”也好,“企业级应用”也罢,对硬盘来说意味着同一件事——组成RAID使用。然而,很多用户和系统集成商反映,将ATA硬盘应用于RAID应用时,经常会遇到在单个物理驱动器未出现故障前提下脱离RAID卷(即所谓“掉盘”)的情况,这是什么原因呢?

AMCC公司资深产品行销经理巨擎天先生认为,上述情况的出现,固然不是硬盘品质的问题,但也不是RAID卡的责任——它只是“照章办事”而已。换句话说,就是原本为在典型桌面环境下应用设计的ATA硬盘被配置在企业级RAID环境中有点“水土不服”。

我们知道,所有的ATA硬盘本身都有错误恢复以及坏区重置特性,当一块ATA硬盘处于错误恢复状态时,它不会发出任何错误信息也不会响应来自RAID控制器的任何指令,当这个过程持续到超过8秒的时间时,糟糕的事情发生了:RAID控制器会自动卸载掉超过8秒没有任何响应的物理驱动器并报告错误,然后开始进入其自身的错误恢复过程——8秒的阈值并非特殊设定,而是广泛存在于ATA/SCSI RAID适配卡设计内的工业标准。

失去了一个物理驱动器的磁盘阵列会根据其RAID模式做出反应:RAID 0模式会丢失所有数据;RAID 1模式下将失掉镜像功能;RAID 5模式则会让阵列降级并需要大量时间来进行恢复。这样的结果对于像视频监视、邮件服务器和Web服务器等高I/O负载的应用是无法接受的,它们要求24×7的在线提供服务,即使因为某些原因必须要暂停服务,也必须要在非常短的时间内恢复。但恰恰就是这类同时连接数多的高I/O应用对磁盘的多处和同一处频繁存取最容易让ATA硬盘进入错误恢复状态,于是使用普通ATA硬盘搭建的企业级应用磁盘阵列在高强度应用下频繁故障。试想一下,半瘫痪的高达几个TB容量的RAID5模式卷,需要几个小时甚至整天的时间来恢复,对于任何企业都是无法忍受的。

西部数据的TLER容错技术
控制时间的技巧是这样处理ATA硬盘和RAID控制器各自的错误恢复功能冲突的:当进入正常的自身错误恢复状态时,并不是像其他ATA硬盘一样持续这个过程而不发出/相应任何信息和指令——相反的,如果特殊为RAID控制器设计的固件在检测到本次错误恢复无法在短于8秒的某个规定时间(譬如7秒)之内完成的话,会在每个第7秒的时刻向RAID控制器发出信息宣示它的存在,RAID控制器就能够在8秒的阈值检测到这个物理驱动器仍然在线,从而不会将其卸载掉,RAID卷自然就不会损坏,系统停机以及冗长的RAID卷恢复动作也就不会发生。事实上,这种“小聪明”式的技术早已在SCSI硬盘中广泛应用,现在由ATA硬盘来实现也并不困难。WD Raptor和Caivar RE/RE2所用的TLER(Time Limited Error Recovery,限时错误恢复)就是这样的技术。

我想请问的是,我在不换西部数据硬盘的前提下,有没有办法解决这个八秒的问题。。。硬盘太多,换不起呀。

4月21日 20:04 你只有两块硬盘是做raid 0还是raid 1??如你是做raid 0的话,那硬盘上的数据估计难保

如你只是当扩展卡来用的话,没做阵列!
确定一下数据线是否有松掉,你测试过硬盘和数据线都没问题,那应该跟raid 卡有关!换张卡试试!

揪错 ┆

似乎没办法,ata的就是这样,否则scsi就没有充分必要条件存在了。