Go to Top

Mean time between failures: può essere utile prevedere guasti all’hard disk?

Prevedere guasti all'hard drive

In Kroll Ontrack siamo consapevoli che una perdita dati può capitare a chiunque. Per molti di noi questo fenomeno si presenta sotto forma di guasto o malfunzionamento dell’hard disk (HDD). In questo caso, il termine guasto viene utilizzato per descrivere i difetti meccanici ed elettronici che rendono le informazioni archiviate sui dispositivi illeggibili. Ci sono dozzine di possibili cause dietro a guasti e malfunzionamenti, che vanno dal danno fisico al surriscaldamento del dispositivo a problemi logici del software e – ovviamente – il fatto che tutti i dispositivi di storage hanno un ciclo di vita limitato.

Potreste già essere in grado di riconoscere alcuni segnali che rivelano che un hard disk è ormai prossimo alla fine del suo utilizzo. Strani rumori, ad esempio.  Se il vostro HDD passa da un ronzio e un clic ad un cigolio, è facile scommettere che stia per arrivare alla fine del suo ciclo di vita. Inoltre, accessi sempre più lenti, crash frequenti e comportamenti anomali – come la corruzione dei dati o la scomparsa di alcuni file – sono segnali importanti di un guasto imminente al disco rigido.

Sfortunatamente però, questi non sono ciò che potremmo definire parametri scientifici per individuare un malfunzionamento dell’hard disk. Una cosa è sentire rumori anomali emessi dal vostro laptop o dalla torre del vostro PC desktop, un’altra è applicare la stessa metodologia ad un ambiente RAID (Redundant Array of Independent Disks ) in un data center remoto.

Quindi, come possono gli utenti privati e le aziende prevedere quando i loro hard disk non funzioneranno più correttamente? Bene, il primo passo da fare potrebbe essere quello di controllare il periodo di vita del dispositivo stimato dallo stesso produttore che di solito viene fornito sotto forma di intervallo medio di tempo tra un guasto e l’altro (Mean Time Between Failures – MTBF).

Che cos’è l’intervallo di tempo medio tra un guasto e l’altro – MTBF?

Nella teoria, l’MTBF è ciò che letteralmente significa – l’intervallo medio di tempo che intercorre tra un guasto e quello successivo nel periodo di vita di un singolo componente. Quindi, ad esempio, se un certo apparecchio (o singolo componente) si guasta e viene in seguito riparato, il suo MTBF è il numero di ore di funzionamento corretto che ci si aspetta prima che l’apparecchio si rompa di nuovo.

Per gli hard drive di uso consumer, non è raro vedere MTBF di circa 300.000 ore che corrispondono a 12.500 giorni ovvero poco più di 34 anni. Gli HDD a livello enterprise presentano MTBF di 1.5 milioni di ore ovvero 175 anni. Impressionante!

Dovrebbe essere evidente che queste cifre sono fuorvianti e che sono ben lontane dalle nostre aspettative reali sulla longevità e l’affidabilità dei dischi rigidi. Ciò non perché ci sia un problema con la metrica MTBF di per sé – lungi dall’essere uno slogan di marketing, esso ha una lunga e illustre discendenza nell’ambito dell’ingegneria militare e aerospaziale – realisticamente, invece, questi valori derivano dal tasso di errore su un numero significativo di drive che funzionano per settimane o mesi e non dal periodo di vita medio del dispositivo sul campo.

Alcuni studi hanno dimostrato che gli MTBF promettono tipicamente tassi di malfunzionamento o di guasti molto più bassi rispetto a quanto accade nella realtà. Nel 2007, i ricercatori della Carnegie Mellon University hanno studiato un campione di 100.000 HDD i cui produttori avevano fornito dei range di MTBF da 1 a 1,5 milioni di ore. Ciò si traduce in un tasso di malfunzionamento annuo (AFR) dello 0.88%, ma gli studi hanno dimostrato che gli AFR “in genere superano l’1%, con valori comuni dal 2% al 4% fino al 13% osservato in alcuni sistemi”.

Una ricerca condotta nello stesso periodo da Google ha portato a risultati simili: su un campione di 100.000 hard drive con un MTBF di 300.000 ore (e un AFR del 2.92%), l’AFR reale superava l’ 8,6% a partire dal terzo anno di utilizzo del device.

Da sottolineare che i produttori si sono dimostrati attenti a questa discrepanza e negli ultimi anni, ad esempio, sia SeaGate che WesternDigital hanno smesso gradualmente di utilizzare questi parametri per i loro HDD.

Quindi, dato che è stato dimostrato che l’MTBF non è un indicatore affidabile per valutare lo stato di salute degli hard drive in quale altro modo possiamo prevedere la fine del ciclo di vita di un dispositivo di storage?

Nel prossimo articolo presenteremo i pro e i contro dell’utilizzo degli strumenti SMART (Self-Monitoring, Analysis, and Reporting Technology)  per rilevare quando un HDD sta ormai per arrivare al termine della sua vita utile.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *