Меню Закрыть

Sata downshift error count как исправить

Содержание

Инструменты пользователя

Инструменты сайта

Боковая панель

Популярные запросы

S.M.A.R.T. (от англ. self-monitoring, analysis and reporting technology — технология самоконтроля, анализа и отчётности) — технология оценки состояния жёсткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя.

SMART производит наблюдение за основными характеристиками накопителя, каждая из которых получает оценку. Характеристики можно разбить на 2 основные группы:

Данные хранятся в шестнадцатеричном виде, называемом «raw value», а потом пересчитываются в обычное десятичное «value» — значение, символизирующее надёжность относительно некоторого эталонного значения. Обычно «value» располагается в диапазоне от 0 до 100 (некоторые атрибуты имеют значения от 0 до 200 или до 253).

Высокая оценка говорит об отсутствии изменений данного параметра или медленном его ухудшении. Низкая говорит о возможном скором сбое. Значение, меньшее, чем минимальное, при котором производителем гарантируется безотказная работа накопителя, означает выход узла из строя.

Решил собрать информацию по стандартным программным методам диагностики жестких дисков в одну статью. Буду рассматривать:

1. Анализ атрибутов S.M.A.R.T.

2. Скорость чтения/записи.

3. Тест поверхности HDD.

Способ 1. Проверка аттрибутов S.M.A.R.T.

S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology) — технология позволяющая провести оценку состояния жесткого диска, а также предсказать время выхода девайса из строя.

Атрибуты можно просмотреть с помощью практически любой софтинки для диагностики hdd или всей аппаратой части ПК (Victoria, Сrystal disk info, hdd-scan, aida64 и т.д.). Также в большинстве современных BIOS можно выставить предупреждение, которое появляется при включении ПК, если аттрибуты плохие.

Примеры аттрибутов S.M.A.R.T:

Теперь более детально :

ID/Number — идентификатор, номер атрибута в технологии S.M.A.R.T.

Value/Current/Значение/Текущее текущее значение атрибута.

Worst/Наихудшее наихудшее значение, которого достигало значение Value за всю жизнь винчестера.

Threshold/Порог значение, которого должен достигнуть Value этого же атрибута, чтобы состояние атрибута было признано критическим.

RAW/Data/Данные Если поля Value Worst Threshold оценочные значения атрибутов, а это поле в большинстве случаев показывает реальные значения, выражаемые в различных единицах измерения, напрямую говорящие о текущем состоянии диска.

Так как значения атрибутов разных производителей отличаются далее рассмотрим детальное описание каждого атрибута. (Своровано отсюда).

01 Raw Read Error Rate

Содержит частоту возникновения ошибок при чтении с пластин. Для всех дисков Seagate, Samsung (начиная с семейства SpinPoint F1 (включительно)) и Fujitsu 2,5″ характерны огромные числа в этих полях.
Для остальных дисков Samsung и всех дисков WD в этом поле характерен 0. Для дисков Hitachi в этом поле характерен 0 либо периодическое изменение поля в пределах от 0 до нескольких единиц.

02 Throughput Performance

Содержит значение средней производительности диска. Абстрактная вещь не пойми как и в чем измеряется.

03 Spin-Up Time.

Содержит время, за которое шпиндель диска в последний раз разогнался из состояния покоя до номинальной скорости. Может содержать два значения — последнее и, например, минимальное время раскрутки. Может измеряться в миллисекундах, десятках миллисекунд и т. п. — это зависит от производителя и модели диска.

04 Number of Spin-Up Times (Start/Stop Count).

Содержит количество раз включения диска. Можно приблизительно оценить время использования диска.

05 Reallocated Sector Count

Содержит количество секторов, переназначенных винчестером в резервную область. (Успешно ремапнутых). Растущее значение говорит о скором отказе носителя.

07 Seek Error Rate

Содержит частоту возникновения ошибок при позиционировании блока магнитных головок.

08 Seek Time Performance

Содержит среднюю производительность операций позиционирования головок.

09 Power On Hours Count (Power-on Time)

Содержит количество часов, в течение которых винчестер был включён. Можно оценить время активной работы диска.

10 (0А) Spin Retry Count.

Содержит количество повторов запуска шпинделя, если первая попытка оказалась неудачной. Не нулевой параметр говорит о проблемах с питанием, рекомендуется проверить кабель питания и мощность блока питания.

11 (0B) Calibration Retry Count (Recalibration Retries)

Содержит количество повторных попыток сброса накопителя (установки БМГ на нулевую дорожку) при неудачной первой попытке. Ненулевое, а особенно растущее значение параметра может означать проблемы с диском.

12 (0C) Power Cycle Count

Содержит количество полных циклов «включение-отключение» диска. Не связан с состоянием диска.

183 (B7) SATA Downshift Error Count

Содержит количество неудачных попыток понижения режима SATA. Суть в том, что винчестер, работающий в режимах SATA 3 Гбит/с или 6 Гбит/с (и что там дальше будет в будущем), по какой-то причине (например, из-за ошибок) может попытаться «договориться» с дисковым контроллером о менее скоростном режиме (например, SATA 1,5 Гбит/с или 3 Гбит/с соответственно). В случае «отказа» контроллера изменять режим диск увеличивает значение атрибута.

184 (B8) End-to-End Error.

Содержит количество ошибок, возникших при передаче данных через кэш винчестера. Ненулевое значение указывает на проблемы с диском.

187 (BB) Reported Uncorrected Sector Count (UNC Error).

Содержит количество секторов, которые были признаны кандидатами на переназначение (см. атрибут 197) за всю историю жизни диска. Причём если сектор становится кандидатом повторно, значение атрибута тоже увеличивается.Ненулевое значение атрибута явно указывает на ненормальное состояние диска (в сочетании с ненулевым значением атрибута 197) или на то, что оно было таковым ранее (в сочетании с нулевым значением 197).

188 (BC) Command Timeout.

Содержит количество операций, выполнение которых было отменено из-за превышения максимально допустимого времени ожидания отклика. Такие ошибки могут возникать из-за плохого качества кабелей, контактов, используемых переходников, удлинителей и т. д., а также из-за несовместимости диска с конкретным контроллером SATA/РАТА на материнской плате (либо дискретным). Из-за ошибок такого рода возможны BSOD в Windows. Ненулевое значение атрибута говорит о потенциальной «болезни» диска.

189 (BD) High Fly Writes.

Содержит количество зафиксированных случаев записи при высоте полета головки выше рассчитанной — скорее всего, из-за внешних воздействий, например вибрации.

190 (BE) Airflow Temperature.

Содержит температуру винчестера для дисков Hitachi, Samsung, WD и значение «100 − [RAW-значение атрибута 194]» для Seagate.Не говорит о состоянии диска.

191 (BF) G-Sensor Shock Count (Mechanical Shock)

Содержит количество критических ускорений, зафиксированных электроникой диска, которым подвергался накопитель и которые превышали допустимые. Обычно это происходит при ударах, падениях и т. п. Актуален для мобильных винчестеров. На дисках Samsung на него часто можно не обращать внимания, т. к. они могут иметь очень чувствительный датчик, который, образно говоря, реагирует чуть ли не на движение воздуха от крыльев пролетающей в одном помещении с диском мухи. Вообще срабатывание датчика не является признаком удара. Может расти даже от позиционирования БМГ самим диском, особенно если его не закрепить. Основное назначение датчика — прекратить операцию записи при вибрациях, чтобы избежать ошибок.

192 (С0) Power Off Retract Count (Emergency Retry Count)

Для разных винчестеров может содержать одну из следующих двух характеристик: либо суммарное количество парковок БМГ диска в аварийных ситуациях (по сигналу от вибродатчика, обрыву/понижению питания и т. п.), либо суммарное количество циклов включения/выключения питания диска (характерно для современных WD и Hitachi).

Читайте также:  Лучшие кооперативные игры для слабых пк

193 (С1) Load/Unload Cycle Count.

Содержит количество полных циклов парковки/распарковки БМГ. Анализ этого атрибута — один из способов определить, включена ли на диске функция автоматической парковки (столь любимая, например, компанией Western Digital): если его содержимое превосходит (обычно — многократно) содержимое атрибута 09 — счётчик отработанных часов, — то парковка включена

194 (С2) Temperature (HDA Temperature, HDD Temperature).

Содержит текущую температуру диска. Температура считывается с датчика, который на разных моделях может располагаться в разных местах. Поле вместе с текущей также может содержать максимальную и минимальную температуры, зафиксированные за всё время эксплуатации винчестера О состоянии диска атрибут не говорит, но позволяет контролировать один из важнейших параметров. При работе старайтесь не допускать повышения температуры винчестера выше 50 градусов, хоть производителем обычно и декларируется максимальный предел температуры в 55-60 градусов.

195 (С3) Hardware ECC Recovered

Содержит количество ошибок, которые были скорректированы аппаратными средствами ECC диска. Особенности, присущие этому атрибуту на разных дисках, полностью соответствуют таковым атрибутов 01 и 07.

196 (С4) Reallocated Event Count

Содержит количество операций переназначения секторов

Косвенно говорит о здоровье диска. Чем больше значение — тем хуже. Однако нельзя однозначно судить о здоровье диска по этому параметру, не рассматривая другие атрибуты.

Этот атрибут непосредственно связан с атрибутом 05. При росте 196 чаще всего растёт и 05. Если при росте атрибута 196 атрибут 05 не растёт, значит, при попытке ремапа кандидат в бэд-блоки оказался софт-бэдом (подробности см. ниже), и диск исправил его, так что сектор был признан здоровым, и в переназначении не было необходимости.

Если атрибут 196 меньше атрибута 05, значит, во время некоторых операций переназначения выполнялся перенос нескольких повреждённых секторов за один приём.

Если атрибут 196 больше атрибута 05, значит, при некоторых операциях переназначения были обнаружены исправленные впоследствии софт-бэды.

197 (С5) Current Pending Sector Count

Содержит количество секторов-кандидатов на переназначение в резервную область

198 (С6) Offline Uncorrectable Sector Count (Uncorrectable Sector Count)

Означает то же самое, что и атрибут 197, но отличие в том, что данный атрибут содержит количество секторов-кандидатов, обнаруженных при одном из видов самотестирования диска — оффлайн-тестировании, которое диск запускает в простое в соответствии с параметрами, заданными прошивкой.
Параметр этот изменяется только под воздействием оффлайн-тестирования, никакие сканирования программами на него не влияют. При операциях во время самотестирования поведение атрибута такое же, как и атрибута 197.Ненулевое значение говорит о неполадках на диске (точно так же, как и 197, не конкретизируя, кто виноват).

199 (С7) UltraDMA CRC Error Count

Содержит количество ошибок, возникших при передаче по интерфейсному кабелю в режиме UltraDMA (или его эмуляции винчестерами SATA) от материнской платы или дискретного контроллера контроллеру диска.В подавляющем большинстве случаев причинами ошибок становятся некачественный шлейф передачи данных, разгон шин PCI/PCI-E компьютера либо плохой контакт в SATA-разъёме на диске или на материнской плате/контроллере.

200 (С8) Write Error Rate (MultiZone Error Rate).

Содержит частоту возникновения ошибок при записи. Ненулевое значение говорит о проблемах с диском — в частности, у дисков WD большие цифры могут означать «умирающие» головки.

201 (С9) Soft Read Error Rate.

Содержит частоту возникновения ошибок чтения, произошедших по вине программного обеспечения.
Влияние на здоровье неизвестно.

202 (СА) Data Address Mark Error.

Описание содержание атрибута — загадка, но проанализировав различные диски, могу констатировать, что ненулевое значение — это плохо.

203 (CB) Run Out Cancel

Содержит количество ошибок ECC.

220 (DC) Disk Shift

Содержит измеренный в неизвестных единицах сдвиг пластин диска относительно оси шпинделя.
Влияние на здоровье неизвестно.

240 (F0) Head Flying Hours

Описание содержит время, затраченное на позиционирование БМГ. Счётчик может содержать несколько значений в одном поле.Влияние на здоровье неизвестно.

254 (FE) Free Fall Event Count

Содержит зафиксированное электроникой количество ускорений свободного падения диска, которым он подвергался, т. е., проще говоря, показывает, сколько раз диск падал.

Если коротко, то ненулевые значения:

  • атрибутов 01, 07, 195 — вызывают подозрения в «болезни» у некоторых моделей дисков;
  • атрибутов 10, 11, 188, 196, 199, 202 — вызывают подозрения у всех дисков;
  • и, наконец, атрибутов 05, 184, 187, 197, 198, 200 — прямо говорят о неполадках.

У SSD также присутствует технология S.M.A.R.T, но ввиду того что физика работы иная атрибуты тоже будут другие. (если дойдут руки напишу про ssd).

Способ 2. Проверка скорости чтения/записи.

Атрибуты SMART дают только поверхностный анализ состояния HDD, то что атрибуты в порядке, еще не означает что с диском все хорошо. Если при нормальном SMART жесткий диск работает не очень шустро стоит проверить скорость чтения/записи. Я обычно использую простенькую софтину Crystal Disk Mark. Программа создает файл определенного размера и проводит несколько циклов операций чтения записи.

Типы тестов:
All — Запуск всех тестов
4K — Случайный тест (4KiB) Чтения / 3аписи, в одну очередь-поток
4K Q32T1 — Случайный тест (4KiB) Чтения / 3аписи тест, с несколькими очередями и потоками
Seq Q32T1 — Последовательный тест (Размер блока = 128KiB) Чтения / 3аписи, с несколькими очередями и потоками
Seq — Последовательный тест (Размер блока = 1MiB) Чтения / 3аписи, в один поток.

Примеры скорости чтения/записи:

HDD: Hitachi HDS721050CLA662 : 500,1 GB

Sequential Read (Q= 32,T= 1) : 129.797 MB/s
Sequential Write (Q= 32,T= 1) : 128.036 MB/s
Random Read 4KiB (Q= 32,T= 1) : 1.244 MB/s [ 303.7 IOPS]
Random Write 4KiB (Q= 32,T= 1) : 1.226 MB/s [ 299.3 IOPS]
Sequential Read (T= 1) : 129.812 MB/s
Sequential Write (T= 1) : 130.454 MB/s
Random Read 4KiB (Q= 1,T= 1) : 0.605 MB/s [ 147.7 IOPS]
Random Write 4KiB (Q= 1,T= 1) : 1.261 MB/s [ 307.9 IOPS]

Test : 1024 MiB [E: 58.4% (114.0/195.2 GiB)] (x3)
Date : 2015/05/14 12:19:28
OS : Windows 7 Professional SP1 [6.1 Build 7601] (x64)

SSD: ADATA SP600 : 128,0 GB

Sequential Read (Q= 32,T= 1) : 529.137 MB/s
Sequential Write (Q= 32,T= 1) : 126.871 MB/s
Random Read 4KiB (Q= 32,T= 1) : 258.722 MB/s [ 63164.6 IOPS]
Random Write 4KiB (Q= 32,T= 1) : 123.036 MB/s [ 30038.1 IOPS]
Sequential Read (T= 1) : 272.616 MB/s
Sequential Write (T= 1) : 127.306 MB/s
Random Read 4KiB (Q= 1,T= 1) : 29.505 MB/s [ 7203.4 IOPS]
Random Write 4KiB (Q= 1,T= 1) : 79.990 MB/s [ 19528.8 IOPS]

Test : 500 MiB [C: 31.1% (37.0/119.1 GiB)] (x3)
Date : 2015/05/14 12:32:10
OS : Windows 7 Professional SP1 [6.1 Build 7601] (x64)

Способ 3. Проверка поверхности жесткого диска.

Следует понимать что низкая скорость чтения/записи зависит не только от состояния жесткого диска, а также от состояния операционной и файловой систем. Поэтому для стопроцентной уверенности имеет смысл потратить время и проверить поверхность жесткого диска программами Viсtoria или MHDD, загрузившись с live-CD/USB, чтобы исключить операционную систему.

Читайте также:  Что быстрее линукс или виндовс

Hебольшая памятка по использованию программ.

P — выбор канала жесткого диска.

F2 — инициализировать диск.

F4 — настройка и начало сканирования.

Если программы не видят SATA диски переключите в BIOS режим работы (SATA mode) на IDE.

Если после теста поверхности Нашлись ошибки (бэд блоки), их можно попробовать ремапнуть. Функция remap включается в настройках сканирования. После успешного ремапа жесткий диск проработает какое-то время, но данные которые были на бэдах пропадут. поэтому если данные критичны, перед ремапом читаем здесь (скоро будет статейка по восстановлению данных). Если бэд блоки не удается перенаправить то диск подлежит замене.

Наличие хотя бы одного бэда не поддающегося ремапу — гарантийный случай. Если на диске нет механических повреждений и не истек гарантийный срок, в нормальном сервисном центре диск должны обменять на новый.

Если на диске ошибок нет, но присутствует куча секторов с высокой задержкой (выше 200 мс), значить диск работоспособен, но сильно изношен и его замена должна привести к повышению производительности.

И снова здравствуйте. Перевод следующей статьи подготовлен специально для студентов курса «Администратор Linux». Поехали!

Что такое S.M.A.R.T.?

S.M.A.R.T. (расшифровывается как Self-Monitoring, Analysis, and Reporting Technology) – это технология, вшитая в накопители, такие как жесткие диски или SSD. Ее основная задача – это мониторинг состояния.

На деле, S.M.A.R.T. контролирует несколько параметров во время обычной работы с диском. Он мониторит такие параметры как количество ошибок чтения, время запуска диска и даже состояние окружающей среды. Помимо этого, S.M.A.R.T. также может проводить тесты с использованием накопителя.

В идеале, S.M.A.R.T. позволит прогнозировать предсказуемые отказы, такие как отказы, вызванные механическим износом или ухудшением состояния поверхности диска, а также непредсказуемые отказы, вызванные каким-либо неожиданным дефектом. Поскольку обычно диски не выходят из строя внезапно, S.M.A.R.T. помогает операционной системе или системному администратору идентифицировать те диски, которые скоро выйдут из строя, чтобы их можно было заменить и избежать потери данных.

Что не относится к S.M.A.R.T.?

Все это, конечно, круто. Однако S.M.A.R.T. – это не хрустальный шар. Он не может спрогнозировать отказ со стопроцентной вероятностью и не может гарантировать, что накопитель не выйдет из строя без предупреждения. В лучшем случае S.M.A.R.T. стоит использовать для оценки вероятности поломки.

Учитывая статистический характер прогнозирования отказов, технология S.M.A.R.T. особенно интересует компании, использующие большое количество устройств для хранения данных. Чтобы выяснить, насколько точно S.M.A.R.T. может прогнозировать отказы и сообщать о необходимости замены дисков в центрах обработки данных или серверных мейнфреймах, даже проводились специальные исследования.

В 2016 году Microsoft и университет штата Пенсильвания провели исследование, связанное с SSD.

Согласно этому исследованию, некоторые атрибуты S.M.A.R.T. считаются хорошими индикаторами неизбежности отказа. В особенности в статье упоминаются:

Счетчик переназначенных (Realloc) секторов:

Несмотря на то, что основополагающие технологии радикально отличаются, этот показатель остается востребованным как в мире SSD, так и в мире жестких дисков. Стоит отметить, что из-за особенностей алгоритмов балансировки износа, используемых в SSD, когда несколько секторов выходят из строя, то с большой вероятностью можно предположить, что скоро выйдут из строя еще больше.

Ошибки в цикле Program/Erase (P/E):

Это признак проблем с основным оборудованием флеш-памяти, связанных с тем, что диск не может удалить данные из блока или сохранить их там. Дело в том, что процесс производства несовершенен, поэтому появление таких ошибок вполне можно ожидать. Однако флеш-память имеет ограниченное число циклов записи/удаления. По этой причине внезапное увеличение числа событий может сигнализировать о том, что диск достигает своего предела, и вполне ожидаемо, что другие ячейки памяти также начнут выходить из строя.

CRC и неисправимые ошибки («Data Error ”):

События такого типа могут быть вызваны ошибками хранения, либо проблемами с внутренним каналом связи накопителя. Этот индикатор учитывает как исправленные ошибки (без проблем сообщенные хост-системе), так и неисправленные ошибки (из-за которых происходит блокировка диска, сообщившего хост-системе о невозможности чтения). Другими словами, исправляемые ошибки невидимы для операционной системы, тем не менее они влияют на производительность накопителя, увеличивая вероятность переназначения сектора.

SATA downshift count:

Из-за временных помех, проблем с каналом связи между накопителем и хостом или из-за внутренних проблем с накопителем, интерфейс SATA может переключиться на более низкую скорость передачи сигналов. Снижение скорости соединения ниже номинального уровня оказывает очевидное влияние на производительность диска. Таким образом, этот показатель является наиболее значимым, в особенности, когда он коррелирует с наличием одного или нескольких предыдущих показателей.

Согласно исследованию, 62% вышедших из строя SSD показали наличие как минимум одного из вышеприведенных симптомов. С другой стороны можно сказать, что 38% изученных накопителей сломались без индикации этих симптомов. В исследованиях не упоминалось, были ли какие-то еще сообщения об отказах от S. M. A. R. T. по другим «симптомам». По этой причине нельзя напрямую сопоставить эти значения с отказом без предупреждения в 36% случаев из статьи от Google.

В исследовании Microsoft и университета штата Пенсильвания не раскрывались модели исследуемых дисков, однако, по словам авторов, большинство дисков поступают от одного и того же поставщика в течение уже нескольких поколений.

В ходе исследования также были отмечены значительные различия в надёжности между различными моделями. Например, «худшая» изученная модель показывает двадцатипроцентную частоту отказов через 9 месяцев после первой ошибки переназначения и до 36-ти процентов отказов в течение 9 месяцев после первого появления ошибок данных. «Худшей» моделью было названо более старое поколение дисков, рассматриваемых в статье.

С другой стороны, с теми же симптомами, что приведены выше, накопители нового поколения отказали в 3% и 20% в соответствии с теми же ошибками. Трудно сказать, можно ли объяснить эти цифры улучшением конструкции накопителя и производственного процесса, или здесь роль играет эффект устаревания накопителя.

Самое интересное, что упоминается в статье (я уже писал об этом ранее), так это то, что увеличение количества зарегистрированных ошибок может случить тревожным индикатором:

«Существует большая вероятность появления симптомов, предшествующих отказу SSD, которые активно себя проявляют и быстро прогрессируют, сильно сокращая время жизни накопителя до нескольких месяцев.»

Другими словами, одна случайная ошибка, о которой сообщил S.M.A.R.T., определенно не должна рассматриваться как сигнал о неизбежном отказе. Однако, когда исправный SSD начинает сообщать о все большем количестве ошибок, следует ждать краткосрочного или среднесрочного сбоя.

Но как узнать, в каком состоянии сейчас ваш SSD? Для удовлетворения своего любопытства, либо из желания начать внимательно следить за своими накопителями, вы можете использовать инструмент мониторинга smartctl .

Использование smartctl для мониторинга состояния вашего SSD в Linux

Чтобы следить за S.M.A.R.T статусом вашего диска, я предлагаю использовать инструмент smartctl , который является частью пакета smartmontool (по крайней мере на Debian/Ubuntu).

Читайте также:  Программное обеспечение для веб камеры logitech

smartctl – это инструмент командной строки, но это особенно помогает в случаях, когда вам нужно автоматизировать сбор данных, например, с ваших серверов.

Первый шаг в использовании smartctl – это проверка того, есть ли на вашем диске S.M.A.R.T. и поддерживается ли он инструментом:

Как видите, мой внутренний жесткий диск ноутбука действительно поддерживает S.M.A.R.T. и он включен. Итак, как теперь получить S.M.A.R.T статус? Есть ли какие-то зафиксированные ошибки?

Выдача отчета «о всей S.M.A.R.T. информации о диске» — это опция -a :

Понимание выходных данных команд smartctl

На выходе получается много информации, которую не всегда легко понять. Наиболее интересной, вероятно, является та часть, которая помечена как “Vendor Specific SMART Attributes with Thresholds”. Она сообщает различные статистические данные, собранные S.M.A.R.T. устройством, и позволяет сравнить эти значения (текущие или худшие за все время) с некоторым порогом, определенным поставщиком.

Например, вот мои отчеты о переназначенных секторах на диске:

Вы можете заметить атрибут «Pre-fail». Он означает, что значение является аномальным. Таким образом, если значение превышает пороговое, велика вероятность сбоя. Другая категория »Old_age" используется для атрибутов, отвечающих значениям «нормального износа».

Последнее поле (здесь со значением «3») соответствует исходному значению атрибута, которое сообщает диск. Обычно это число имеет физическое значение. Здесь это фактическое количество переназначенных секторов. Для других атрибутов это может быть температура в градусах Цельсия, время в часах или минутах или количество раз, когда для диска было выполнено определенное условие.

В дополнение к исходному значению, диск с поддержкой S.M.A.R.T. должен сообщать «нормализованные значения» (значения полей, самые худшие и пороговые). Эти значения нормируются в диапазоне 1-254 (0-255 для пороговых значений). Прошивка диска выполняет эту нормализацию с помощью некоторого внутреннего алгоритма. Кроме того, разные производители могут нормализовать один и тот же атрибут по-разному. Большинство значений представлены в процентах, причем чем выше, тем лучше, но так бывает не всегда. Когда параметр ниже или равен пороговому значению, указанному производителем, диск считается неисправным в терминах этого атрибута. Помня о всех указаниях из первой части статьи, когда атрибут, показывающий ранее значение “pre-fail” все-таки дал сбой, наиболее вероятно, что скоро диск выйдет из строя.

В качестве второго примера возьмем “seek error rate”:

На самом деле (и это основная проблема отчетности S.M.A.R.T.), точное значение полей каждого атрибута понимает только поставщик. В моем случае Seagate использует логарифмическую шкалу для нормализации значения. Таким образом, «71» означает примерно одну ошибку на 10 миллионов запросов (10 в степени 7,1). Забавно, что самым худшим показателем за все время была одна ошибка на 1 миллион запросов (10 в 6-й степени).

Если я правильно понимаю, то это значит, что головки моего диска сейчас расположены точнее, чем раньше. Я не следил за этим диском внимательно, поэтому анализирую полученные данные весьма субъективно. Возможно накопитель просто надо было немного «обкатать» с тех пор как он был введен в эксплуатацию? Или может быть это следствие механического износа деталей и, следовательно, теперь имеет место меньшая сила трения? В любом случае, какова бы ни была причина, это значение является скорее показателем производительности, чем ранним предупреждением об ошибке. Так что меня оно не сильно беспокоит.

Помимо вышеприведенного и трех крайне подозрительных ошибок, записанных около шести месяцев назад, этот диск находится в удивительно хорошем состоянии (по данным S.M.A.R.T.) для стокового диска ноутбука, проработавшего более 1100 дней (26423 часа).

Из любопытства я провел этот же тест на гораздо более новом ноутбуке, оснащенном SSD:

Первое, что бросается в глаза, так это то, что несмотря на наличие S.M.A.R.T., устройства нет в базе данных smartctl . Но это не помешает инструменту собирать данные с SSD, однако он не сможет сообщить точные значения различных атрибутов, специфичных для поставщика:

Выше вы видите выходные данные абсолютно нового SSD. Данные понятны даже в случае отсутствия нормализации или метаинформации для данных конкретного поставщика, как в моем случае с “Unknown_SSD_Attribute.” Я могу только надеяться, что в последующих версиях smartctl в базе данных появятся данные об этой модели диска, и я смогу лучше определять потенциальные проблемы.

Проверьте свой SSD в Linux с помощью smartctl

До сих пор мы рассматривали данные, собранные во время нормальной работы накопителя. Однако протокол S.M.A.R.T. также поддерживает несколько команд для автономного тестирования для запуска диагностики по требованию.

Автономное тестирование может проводиться во время обычных операций с диском, если не было указано иное. Поскольку тест и запросы ввода-вывода хоста будут конкурировать, производительность диска упадет на время теста. Спецификация S.M.A.R.T. определяет несколько видов автономного тестирования:

Короткое автономное тестирование ( -t short )
Такой тест проверит электрическую и механическую, производительность, а также производительность чтения диска. Короткое автономное тестирование обычно занимает всего несколько минут (обычно от 2 до 10).

Расширенное автономное тестирование ( -t long )
Этот тест занимает почти в два раза больше времени. Как правило, это просто более детальная версия короткого автономного тестирования. Кроме того, этот тест будет сканировать всю поверхность диска на наличие ошибок данных без ограничения по времени. Продолжительность теста будет пропорциональна размеру диска.

Транспортировочное автономное тестирование ( -t conveyance )
Этот тестовый набор предложен в качестве сравнительно быстрого способа проверки на возможные повреждения, возникшие во время транспортировки устройства.

Вот примеры, взятые с тех же дисков, что были выше. Я предлагаю вам угадать, где какой:

Сейчас производится проверка. Давайте дождемся завершения, чтобы посмотреть результат:

Проведем тот же тест на другом диске:

И еще раз, отправим в сон на две минуты и посмотрим результат:

Интересно, что в этом случае мы видим, что производители диска и компьютера, похоже, уже тестировали диск (на времени жизни в 0 часов и 12 часов). Я сам определенно был гораздо менее озабочен состоянием диска, чем они. Итак, поскольку я уже показал быстрые тесты, то и расширенный тоже запущу, чтобы посмотреть как это происходит.

Судя по всему на этот раз ждать придется гораздо дольше, чем при проведении короткого теста. Так что давайте посмотрим:

В последнем тесте обратите внимание на различие в результатах, полученных с помощью короткого и расширенного теста, даже если они были выполнены один за другим. Ну, возможно, этот диск не в таком уж и хорошем состоянии! Отмечу, что тест остановился после первой ошибки чтения. Поэтому, если вы хотите получить исчерпывающую информацию обо всех ошибках чтения, вам придется продолжать тест после каждой ошибки. Я призываю вас взглянуть на одну очень хорошо написанную страницу руководства smartctl(8) для получения дополнительной информации о параметрах -t select , N-max и -t select , чтобы уметь делать так:

Рекомендуем к прочтению

Добавить комментарий

Ваш адрес email не будет опубликован.