A visualization platfom for disk failure analysis
Künye
Yigit, I. O., Arslan, S. S., & Zeydan, E., (May 2-5, 2018) 26th Signal Processing and Communications Applications Conference (SIU). A visualization platfom for disk failure analysis. Izmir, Turkey. 1-4.Özet
Binlerce depolama aygıtının birarada çalıştığı büyük veri merkezi gibi ortamlarda, bir veya daha çok depolama aygıtının aynı anda bozulması veya beklenenden farklı şekillerde çalışması, artık süpriz olmaktan çıkıp bilinen hata haline gelmi¸stir. Bu disklerin üzerinde tutulan veri yığınları çoğu zaman kopyalama yöntemiyle, bazen de silinti kodları ile korunmakta ve verinin güvenli şekilde depolanmasını sağlamaktadır. Bununla birlikte veri korunumu yöntemlerinin optimizasyonu için disk sistemlerinin hata oranlarının modellenmesi gerektirmektedir. Bu modelleme işlemi, tasarım aşamasındaki verilecek kararları ve koruma yöntemlerinin verilen bir uygulama için optimizasyonunu kolaylaştıracaktır. Bu çalışmamızda BackBlaze’in sunduğu disk hasar bilgisi ışığında bir görselleştirme platformu geliştirilmiş hata oranları ve model tabanlı ilk hataya kadar olan zaman dağılımı gibi yararlı istatistiki bilgilere ulaşılmıştır. Bu bilgiler ışığında tüm sistem seviyesinde öncül önlemler alınabilmesi için disk hasar oranına dayalı basit modellemelere gidilmiştir. It has become a norm rather than an exception to observe multiple disks malfunctioning or whole disk failures in places like big data centers where thousands of drives operate simultaneously. Data that resides on these devices is typically protected by replication or erasure coding for long-term durable storage. However, to be able to optimize data protection methods, real life disk failure trends need to be modeled. Modelling helps us build insights while in the design phase and properly optimize protection methods for a given application. In this study, we developed a visualization platform in light of disk failure data provided by BackBlaze, and extracted useful statistical information such as failure rate and model-based time to failure distributions. Finally, simple modeling is performed for disk failure predictions to alarm and take necessary system-wide precautions.