Отказ жесткого диска происходит, когда жесткий диск выходит из строя и доступ к сохраненной на нем информации становится невозможным с помощью правильно настроенного компьютера.
Отказ жесткого диска может произойти в ходе нормальной работы или из-за внешнего фактора, например, воздействия огня, воды или сильных магнитных полей , а также резкого удара или загрязнения окружающей среды, что может привести к поломке головки .
Сохраненная на жестком диске информация также может стать недоступной в результате повреждения данных , нарушения или уничтожения главной загрузочной записи жесткого диска или из-за вредоносного ПО, намеренно уничтожающего содержимое диска.
Существует ряд причин выхода из строя жестких дисков, включая: человеческий фактор, сбой оборудования, повреждение прошивки, повреждение носителя, нагрев, повреждение водой, проблемы с питанием и неудачи. [1] Производители дисков обычно указывают среднее время между отказами (MTBF) или годовой коэффициент отказов (AFR), которые являются статистикой населения, которая не может предсказать поведение отдельного устройства. [2] Они рассчитываются путем постоянного запуска образцов диска в течение короткого периода времени, анализа результирующего износа физических компонентов диска и экстраполяции для предоставления разумной оценки его срока службы. Отказы жестких дисков, как правило, следуют концепции кривой ванны . [3] Диски обычно выходят из строя в течение короткого времени, если есть дефект, присутствующий на производстве. Если диск показывает себя надежным в течение нескольких месяцев после установки, у него значительно больше шансов остаться надежным. Поэтому, даже если диск подвергается нескольким годам интенсивного ежедневного использования, он может не показывать никаких заметных признаков износа, если его не осмотреть внимательно. С другой стороны, диск может выйти из строя в любой момент и в самых разных ситуациях.
Наиболее печально известной причиной отказа накопителя является столкновение головки , когда внутренняя головка чтения и записи устройства, обычно просто зависшая над поверхностью, касается пластины или царапает поверхность магнитного хранилища данных . Столкновение головки обычно влечет за собой серьезную потерю данных , а попытки восстановления данных могут привести к дальнейшему повреждению, если их не выполняет специалист с соответствующим оборудованием. Пластины накопителя покрыты чрезвычайно тонким слоем неэлектростатической смазки , так что головка чтения и записи, скорее всего, просто соскользнет с поверхности пластины в случае столкновения. Однако эта головка зависает всего в нескольких нанометрах от поверхности пластины, что делает столкновение признанным риском.
Другой причиной отказа является неисправный воздушный фильтр . Воздушные фильтры на современных дисках выравнивают атмосферное давление и влажность между корпусом диска и его внешней средой. Если фильтр не улавливает частицу пыли, она может попасть на пластину, что приведет к поломке головки, если головка случайно пронесется над ней. После поломки головки частицы с поврежденной пластины и носителя головки могут стать причиной появления одного или нескольких поврежденных секторов . Это, в дополнение к повреждению пластины, быстро сделает диск бесполезным.
Диск также включает в себя электронику контроллера, которая иногда выходит из строя. В таких случаях может быть возможно восстановить все данные, заменив плату контроллера.
Отказ жесткого диска может быть катастрофическим или постепенным. Первый обычно представляет собой диск, который больше не может быть обнаружен настройкой CMOS , или который не проходит BIOS POST, так что операционная система никогда его не видит. Постепенный отказ жесткого диска может быть сложнее диагностировать, потому что его симптомы, такие как поврежденные данные и замедление работы ПК (вызванные постепенно выходящими из строя областями жесткого диска, требующими повторных попыток чтения перед успешным доступом), могут быть вызваны многими другими проблемами компьютера, такими как вредоносное ПО . Растущее количество поврежденных секторов может быть признаком отказа жесткого диска, но поскольку жесткий диск автоматически добавляет их в свою собственную таблицу дефектов роста [4] , они могут не стать очевидными для таких утилит, как ScanDisk, если только утилита не сможет обнаружить их до того, как это сделает система управления дефектами жесткого диска, или если резервные сектора, удерживаемые в резерве внутренней системой управления дефектами жесткого диска, не закончатся (к этому моменту диск находится на грани полного отказа). Циклически повторяющийся характер активности поиска, такой как быстрые или медленные звуки поиска до конца ( щелчок смерти ), может быть признаком проблем с жестким диском. [5]
Во время нормальной работы головки в HDD летают над данными, записанными на дисках. Современные HDD предотвращают перебои в питании или другие неисправности, приводящие к посадке головок в зону данных, либо физически перемещая ( паркуя ) головки в специальную зону посадки на пластинах, которая не используется для хранения данных, либо физически фиксируя головки в подвешенном ( незагруженном ) положении, поднятом над пластинами. Некоторые ранние HDD для ПК не парковали головки автоматически, когда питание преждевременно отключалось, и головки приземлялись на данные. В некоторых других ранних устройствах пользователь запускал программу, чтобы вручную припарковать головки.
Зона посадки — это область пластины, обычно около ее внутреннего диаметра (ID), где не хранятся данные. Эта область называется зоной контактного старта/остановки (CSS) или зоной посадки. Диски сконструированы таким образом, что либо пружина, либо , в последнее время, инерция вращения в пластинах используется для парковки головок в случае неожиданной потери питания. В этом случае двигатель шпинделя временно действует как генератор , обеспечивая питание привода.
Натяжение пружины от крепления головки постоянно толкает головки к пластине. Пока диск вращается, головки поддерживаются воздушным подшипником и не испытывают физического контакта или износа. В дисках CSS ползунки, несущие датчики головки (часто также называемые просто головками ), рассчитаны на то, чтобы выдерживать ряд приземлений и взлетов с поверхности носителя, хотя износ этих микроскопических компонентов в конечном итоге берет свое. Большинство производителей проектируют ползунки так, чтобы они выдерживали 50 000 циклов контакта, прежде чем вероятность повреждения при запуске превысит 50%. Однако скорость разрушения нелинейна: когда диск моложе и у него было меньше циклов старт-стоп, у него больше шансов выдержать следующий запуск, чем у старого диска с большим пробегом (поскольку головка буквально волочится по поверхности диска, пока не установится воздушный подшипник). Например, серия жестких дисков для настольных ПК Seagate Barracuda 7200.10 рассчитана на 50 000 циклов старт-стоп; Другими словами, никаких сбоев, связанных с интерфейсом головка-пластина, не наблюдалось до тех пор, пока не было выполнено не менее 50 000 циклов старт-стоп во время тестирования. [6]
Около 1995 года IBM стала пионером в технологии, в которой зона посадки на диске создается с помощью прецизионного лазерного процесса ( Laser Zone Texture = LZT), создающего массив гладких нанометровых «выступов» в зоне посадки, [7] таким образом значительно улучшая показатели прилипания и износа. Эта технология используется и сегодня, в основном в настольных дисках Seagate с меньшей емкостью, [8] но была постепенно выведена из эксплуатации в 2,5-дюймовых дисках, а также в настольных дисках с большей емкостью, NAS и корпоративных дисках в пользу пандусов загрузки/выгрузки. В целом, технология CSS может быть склонна к повышенному прилипанию (тенденции головок прилипать к поверхности пластины), например, вследствие повышенной влажности. Чрезмерное прилипание может привести к физическому повреждению пластины и слайдера или двигателя шпинделя.
Технология загрузки/выгрузки основана на подъеме головок с пластин в безопасное место, что полностью исключает риск износа и застревания . Первый HDD RAMAC и большинство ранних дисковых накопителей использовали сложные механизмы для загрузки и выгрузки головок. Почти все современные HDD используют загрузку с рампы, впервые представленную Memorex в 1967 году [9] , для загрузки/выгрузки на пластиковые «пандусы» около внешнего края диска. Накопители для ноутбуков переняли это из-за необходимости повышения ударопрочности, а затем в конечном итоге это было принято на большинстве настольных накопителей.
Решая проблему ударопрочности, IBM также создала технологию для своей линейки ноутбуков ThinkPad под названием Active Protection System. Когда встроенный акселерометр в ThinkPad обнаруживает внезапное резкое движение, внутренние головки жесткого диска автоматически разгружаются, чтобы снизить риск потенциальной потери данных или царапин. Позже Apple также использовала эту технологию в своих линейках PowerBook , iBook , MacBook Pro и MacBook , известную как Sudden Motion Sensor . Sony , [10] HP с их HP 3D DriveGuard, [11] и Toshiba [12] выпустили аналогичную технологию в своих ноутбуках.
Жесткие диски могут выйти из строя несколькими способами. Отказ может быть мгновенным и полным, прогрессирующим или ограниченным. Данные могут быть полностью уничтожены или частично или полностью восстановлены.
Более ранние диски имели тенденцию к появлению плохих секторов по мере использования и износа; эти плохие сектора могли быть «отмечены», поэтому они не использовались и не влияли на работу диска, и это считалось нормальным, если только за короткий промежуток времени не появлялось много плохих секторов. Некоторые ранние диски даже имели таблицу, прикрепленную к корпусу диска, на которой плохие сектора должны были быть перечислены по мере их появления. [13] Более поздние диски автоматически отображают плохие сектора, невидимым для пользователя способом; диск с переназначенными секторами может продолжать использоваться, хотя производительность может снизиться, поскольку диск должен физически переместить головки в переназначенный сектор. Статистика и журналы, доступные через SMART (технология самоконтроля, анализа и отчетности), предоставляют информацию о переназначении. В современных жестких дисках каждый диск поставляется с нулевым количеством видимых пользователю плохих секторов, и любые плохие/переназначенные сектора могут предсказать надвигающийся отказ диска.
Другие сбои, которые могут быть как прогрессирующими, так и ограниченными, обычно считаются причиной замены диска; ценность данных, потенциально находящихся под угрозой, обычно намного превышает стоимость, сэкономленную за счет продолжения использования диска, который может выйти из строя. Повторяющиеся, но устранимые ошибки чтения или записи, необычные шумы, чрезмерный и необычный нагрев и другие отклонения являются предупреждающими знаками.
Большинство основных поставщиков жестких дисков и материнских плат поддерживают SMART , который измеряет характеристики диска, такие как рабочая температура , время вращения, частота ошибок данных и т. д. Считается, что определенные тенденции и внезапные изменения этих параметров связаны с повышенной вероятностью отказа диска и потери данных. Однако параметры SMART сами по себе могут быть не полезны для прогнозирования отказов отдельных дисков. [16] Хотя несколько параметров SMART влияют на вероятность отказа, большая часть неисправных дисков не выдает прогнозных параметров SMART. [16] Непредсказуемая поломка может произойти в любое время при нормальном использовании, с потенциальной потерей всех данных. Восстановление некоторых или даже всех данных с поврежденного диска иногда, но не всегда, возможно и обычно является дорогостоящим.
Исследование 2007 года, опубликованное Google, показало очень слабую корреляцию между частотой отказов и высокой температурой или уровнем активности. Действительно, исследование Google показало, что «одним из наших ключевых выводов было отсутствие последовательной модели более высоких частот отказов для дисков с более высокой температурой или для дисков с более высокими уровнями использования». [17] Жесткие диски со средней температурой, указанной SMART, ниже 27 °C (81 °F), имели более высокие частоты отказов, чем жесткие диски с самой высокой средней температурой, указанной SMART, 50 °C (122 °F), частоты отказов, по крайней мере, в два раза выше оптимального диапазона температур, указанной SMART, от 36 °C (97 °F) до 47 °C (117 °F). [16] Корреляция между производителями, моделями и частотой отказов была относительно сильной. Статистика по этому вопросу держится в строжайшем секрете большинством организаций; Google не связывал имена производителей с частотой отказов, [16] хотя было обнаружено, что Google использует диски Hitachi Deskstar на некоторых своих серверах. [18]
Исследование Google 2007 года показало, что на основе большой выборки дисков фактические годовые показатели отказов ( AFR ) для отдельных дисков варьировались от 1,7% для дисков первого года эксплуатации до более 8,6% для дисков трехлетней давности. [19] Аналогичное исследование 2007 года в CMU на корпоративных дисках показало, что измеренное значение MTBF было в 3–4 раза ниже спецификации производителя, при этом предполагаемое среднее значение AFR за 1–5 лет составляло 3% на основе журналов замен для большой выборки дисков, и что отказы жестких дисков были сильно коррелированы во времени. [20]
Исследование скрытых ошибок сектора , проведенное в 2007 году (в отличие от приведенных выше исследований полных отказов дисков), показало, что у 3,45% из 1,5 миллионов дисков возникли скрытые ошибки сектора в течение 32 месяцев (у 3,15% дисков nearline и у 1,46% дисков корпоративного класса возникла по крайней мере одна скрытая ошибка сектора в течение двенадцати месяцев с даты поставки), при этом ежегодная частота ошибок сектора увеличивалась между первым и вторым годами. Накопители корпоративного класса показали меньше ошибок сектора, чем потребительские. Было обнаружено, что фоновая очистка эффективна для исправления этих ошибок. [21]
Диски SCSI , SAS и FC дороже, чем потребительские диски SATA , и обычно используются в серверах и дисковых массивах , где диски SATA продавались на рынке домашних компьютеров , настольных компьютеров и ближнего хранения данных и считались менее надежными. Это различие теперь становится размытым.
Среднее время наработки на отказ (MTBF) дисков SATA обычно указывается как около 1 миллиона часов. Некоторые диски, такие как Western Digital Raptor, имеют MTBF в 1,4 миллиона часов, [22] в то время как диски SAS/FC имеют номинал более 1,6 миллиона часов. [23] Современные гелиевые диски полностью герметичны без вентиляционного отверстия, что исключает риск попадания мусора, в результате чего типичное MTBF составляет 2,5 миллиона часов. Однако независимые исследования показывают, что MTBF не является надежной оценкой долговечности диска ( срока службы ). [24] MTBF проводится в лабораторных условиях в испытательных камерах и является важным показателем для определения качества жесткого диска, но предназначен только для измерения относительно постоянной интенсивности отказов в течение срока службы диска (середина « кривой ванны ») перед окончательной фазой износа. [20] [25] [26] Более интерпретируемой, но эквивалентной метрикой MTBF является годовая частота отказов (AFR). AFR — это процент отказов дисков, ожидаемых в год. Как AFR, так и MTBF, как правило, измеряют надежность только в начальной части срока службы жесткого диска, тем самым занижая реальную вероятность отказа используемого диска. [27] Серверные и промышленные диски обычно имеют более высокую MTBF и более низкую AFR.
Компания Backblaze , занимающаяся облачным хранением данных , выпускает ежегодный отчет о надежности жестких дисков. Однако компания заявляет, что в основном использует потребительские диски, которые развертываются в условиях предприятия, а не в их типичных условиях и для их предполагаемого использования. Потребительские диски также не тестируются на совместимость с корпоративными RAID- картами того типа, который используется в центрах обработки данных, и могут не реагировать в ожидаемое RAID-контроллером время; такие карты будут идентифицированы как отказавшие, хотя на самом деле этого не произошло. [28] Результаты тестов такого рода могут быть актуальными или неактуальными для разных пользователей, поскольку они точно отражают производительность потребительских дисков на предприятии или в условиях экстремальной нагрузки, но могут неточно отражать их производительность при нормальном или предполагаемом использовании. [29]
Чтобы избежать потери данных из-за сбоя диска, к распространенным решениям относятся:
Данные с вышедшего из строя диска иногда можно частично или полностью восстановить , если магнитное покрытие пластин не полностью разрушено. Специализированные компании выполняют восстановление данных, что сопряжено со значительными затратами. Возможно, данные можно восстановить, открыв диски в чистой комнате и используя соответствующее оборудование для замены или восстановления вышедших из строя компонентов. [35] Если электроника вышла из строя, иногда можно заменить электронную плату, хотя часто диски номинально одной и той же модели, произведенные в разное время, имеют разные печатные платы, которые несовместимы. Более того, электронные платы современных дисков обычно содержат специфичные для диска данные адаптации, необходимые для доступа к их системным областям , поэтому соответствующие компоненты необходимо либо перепрограммировать (если это возможно), либо распаять и перенести между двумя электронными платами. [36] [37] [38]
Иногда работа может быть восстановлена на достаточно долгое время, чтобы восстановить данные, возможно, требуя методов реконструкции, таких как вырезание файлов . Рискованные методы могут быть оправданы, если диск в противном случае мертв. Если диск запущен один раз, он может продолжать работать в течение более короткого или более длительного времени, но никогда не запуститься снова, поэтому как можно больше данных восстанавливается сразу после запуска диска.
, несомненно, предоставляемые ими данные бесценны для рядовых потребителей… верно? Ну, может и нет.