现在许多新型号的汽车都会使用一种名为“Run-flat”的低压防爆轮胎来保证车辆在行驶过程中遭到意外之后的行动力,以便于车内的司机还有乘客有更大的机会脱离险境或者将车子开到修车厂。
存储在云端的数据也迫切需要类似“Run-flat”轮胎的安全功能。
在为云计算服务的数据中心机组中,一块硬盘一旦出现了坏道,由于服务器端数据存储的连续性,可能对导致整块硬盘出现故障,甚至整个服务器机组都会出现宕机,所以微软Azure团队正在研究能够让服务器自主识别并对出现坏道的硬盘进行处理的功能。
科罗拉多州Longmont的存储架构师JoeBreher正在与Azure团队一道研究相关课题。他表示,现在的数据中心磁盘出现故障的可能性越来越高,但事实上这样的故障可能只是源于一个坏道,而这个坏道完全可以被屏蔽,让这块出问题的硬盘继续工作,直到新的硬件到来。
不仅如此,JoeBreher还认为,这种机制如果能够在线运行将会更好。他表示,在线排爆的主机能够主动断开这块硬盘的逻辑区块地址,而让其余部分继续运行,并且这种方法理论上能够直接用于SSD。
为了保证出现坏道的硬盘能够长期安全地暴露在视野中,硬盘排爆研究团队需要面临的另一个挑战就是令系统将硬盘中的文件认作“部分可用”,以便于相关工作人员迅速发现坏道并及时更换硬件。
目前这个项目需要投入12至18个月的时间,并且不包括对系统重新识别硬盘的机制进行更新的时间,但Azure团队已经在为离线硬盘排爆功能的上线做着准备了。Azure存储硬件团队的经理AaronOgus表示,在以后的迭代中,存储团队将与文件系统团队合作,开发真正的在线硬盘排爆功能。
一旦时机足够成熟,我们就会投入6到12个月的时间开发线下版本。届时我们会频繁召开会议,并积极推动这项功能的研发。只要我们能够做出来离线版的排爆工具,在线版就只是优化问题而已。
来源:WPDang.