Время простоя

Термин «простой» (также «системный» сбой или «системная» засуха ) используется для обозначения периодов, когда система недоступна. Недоступность — это часть временного интервала, в течение которого система недоступна или находится в автономном режиме . Обычно это происходит из-за того, что система не может функционировать из-за незапланированного события или из-за планового обслуживания (запланированного события).

Эти термины обычно применяются к сетям и серверам . Обычными причинами незапланированных отключений являются системные сбои (например, сбой ) или сбои связи (обычно известные как сетевое отключение или сетевая засуха в разговорной речи). Для отключений из-за проблем с общими компьютерными системами можно использовать термин компьютерное отключение (также ИТ-отключение или ИТ-засуха ).

Этот термин также широко применяется в промышленных условиях в отношении сбоев в работе промышленного производственного оборудования. Некоторые предприятия измеряют время простоя, возникшее в течение рабочей смены или в течение 12- или 24-часового периода. Другая распространенная практика заключается в определении каждого события простоя как имеющего эксплуатационное, электрическое или механическое происхождение.

Противоположность простою — время безотказной работы .

Типы

Отраслевые стандарты для термина «Продолжительность простоя» или «Продолжительность технического обслуживания» могут иметь разные точки начала и завершения, поэтому следует использовать следующие разъяснения, чтобы избежать конфликтов при исполнении контракта:

"Под ключ" - это самый захватывающий из всех типов простоя. Простой или техническое обслуживание начинается с того, что оператор установки или оборудования нажимает кнопку выключения или остановки, чтобы инициировать остановку работы. Если не указано иное, простой или техническое обслуживание считаются завершенными, когда установка или оборудование возвращается в нормальный режим работы, готовые начать производство или готовые к синхронизации с системой или сетью или готовые выполнять функции насоса или компрессора.
«От выключателя к выключателю» Этот простой или техническое обслуживание начинается с того, что оператор установки или оборудования отключает силовую цепь (главный выключатель питания в положении «выкл.» или «отключен» или «включен-остыл»), а не цепь управления от работы. Это все равно позволит охладить оборудование или привести его в состояние окружающей среды, чтобы можно было подготовить или начать работы по отключению/обслуживанию. В зависимости от типов оборудования простой «от выключателя к выключателю» может быть выгодным, если подрядчик управляет соответствующим обслуживанием, поскольку этот тип работ по техническому обслуживанию может выполняться, пока основное оборудование все еще находится в состоянии охлаждения или в режиме ожидания. Если не указано иное, этот тип отключения считается завершенным, когда силовая цепь снова включается путем включения выключателя питания.
"Завершение блокировки/маркировки " Этот простой или техническое обслуживание (иногда ошибочно принимаемый за "выключение-охлаждение", но это не одно и то же) начинается с того, что оператор установки или оборудования отключает цепь питания, отключает цепь управления и выполняет другую нейтрализацию потенциальных источников энергии и опасности (обычно называется блокировкой, маркировкой "LOTO"). Этот момент периода технического обслуживания обычно является последней фазой этапа инициирования отключения перед началом фактической работы на объекте, установке или оборудовании. Инструктаж по технике безопасности всегда должен следовать за деятельностью LOTO, перед выполнением любых работ. Если не указано иное, этот тип отключения считается завершенным, когда оборудование достигло механического завершения и готово к установке на медленный ход для многих видов тяжелого вращающегося оборудования, ударному тесту или проверке вращения для двигателей и т. д., но должен следовать за возвратом или разрешением на работу в соответствии с процедурами LOTO.

Любое онлайн-тестирование, тестирование производительности и необходимая настройка не должны учитываться при подсчете продолжительности простоя, поскольку эти действия обычно проводятся после завершения простоя или технического обслуживания и находятся вне контроля большинства подрядчиков по техническому обслуживанию.

Характеристики

Незапланированный простой может быть результатом неисправности оборудования и т. д.

Классификации сбоев в работе телекоммуникационных сетей

Простой может быть вызван сбоем в работе оборудования (физического оборудования), (логического управляющего оборудования), соединительного оборудования (например, кабелей, установок, маршрутизаторов и т. д.), передачи данных (беспроводной, микроволновой, спутниковой) и/или пропускной способности (ограничения системы).

Сбои могут возникать из-за повреждения, отказа, конструкции, процедур (неправильного использования людьми), инженерных (способа использования и развертывания), перегрузки (трафик или системные ресурсы, превышающие проектные пределы), окружающей среды (вспомогательные системы, такие как электропитание и HVAC), (перебои, заложенные в систему для определенной цели, например, обновления программного обеспечения и расширения оборудования), других (ничего из вышеперечисленного, кроме известного) или неизвестных причин.

Ответственность за сбои может лежать на клиенте/поставщике услуг, продавце/поставщике, коммунальном предприятии, правительстве, подрядчике, конечном потребителе, публичном лице, стихийном бедствии, другом (ни одном из вышеперечисленных, но известном) или неизвестном.

Влияние

Перебои в работе, вызванные системными сбоями, могут иметь серьезные последствия для пользователей компьютерных/сетевых систем, в частности, в тех отраслях, где требуется практически круглосуточное обслуживание:

Также могут пострадать пользователи интернет-провайдера и другие клиенты телекоммуникационной сети.

Корпорации могут потерять бизнес из-за сбоя в работе сети или могут не выполнить контракт, что приведет к финансовым потерям. Согласно отчету Veeam по управлению облачными данными за 2019 год, организации сталкиваются с незапланированными простоями в среднем 5–10 раз в год, а средняя стоимость одного часа простоя составляет 102 450 долларов США. ^[1]

Люди или организации, на которых влияет простой, могут быть более чувствительны к определенным аспектам:

на некоторых больше влияет длительность сбоя — для них важно, сколько времени потребуется для устранения неполадки
другие чувствительны к времени отключения — отключения в часы пик сказываются на них сильнее всего

Наиболее требовательные пользователи — это те, которым требуется высокая доступность .

Известные отключения

В День матери , в воскресенье, 8 мая 1988 года, в главном коммутаторном зале центрального офиса телефонной компании Illinois Bell в Хинсдейле вспыхнул пожар . Это одна из крупнейших коммутационных систем в штате, которая обрабатывала более 3,5 миллионов звонков каждый день, обслуживая 38 000 клиентов, включая многочисленные предприятия, больницы и аэропорты О'Хара и Мидуэй в Чикаго. ^[2]

Практически вся сеть AT&T 4ESS toll tandems switchs снова и снова выходила из строя 15 января 1990 года, нарушая междугороднюю связь по всем Соединенным Штатам. Проблема рассеялась сама собой, когда трафик замедлился. Была обнаружена ошибка в программном обеспечении. ^[3]

AT&T потеряла свою сеть Frame Relay на 26 часов 13 апреля 1998 года. ^[4] Это затронуло многие тысячи клиентов, и одной из жертв стали банковские транзакции. AT&T не смогла выполнить соглашение об уровне обслуживания по своим контрактам с клиентами и была вынуждена возместить ^[5] 6600 клиентских счетов , что обошлось в миллионы долларов.

Xbox Live периодически простаивал в течение праздничного сезона 2007–2008 годов, который длился тринадцать дней. ^[6] Причиной простоя был назван возросший спрос со стороны покупателей Xbox 360 (наибольшее количество новых регистраций пользователей за всю историю Xbox Live); чтобы загладить вину за проблемы с обслуживанием, Microsoft предложила своим пользователям возможность получить бесплатную игру. ^[7]

Сбой в работе PlayStation Network в апреле 2011 года от Sony начался 20 апреля 2011 года и был постепенно восстановлен 14 мая 2011 года, начиная с Соединенных Штатов . Этот сбой является самым длительным периодом времени, в течение которого PSN была отключена с момента ее создания в 2006 году. Sony заявила, что проблема была вызвана внешним вторжением, которое привело к конфискации личной информации. Sony сообщила 26 апреля 2011 года, что большой объем пользовательских данных был получен тем же взломом, который привел к простою. ^[8]

Коммутатор Ryde компании Telstra вышел из строя в конце 2011 года после того, как вода попала в электрический распределительный щит из-за продолжающейся сырой погоды. Коммутатор Ryde является одним из крупнейших по площади коммутаторов в Австралии и повлиял на более чем 720 000 служб. ^{[ необходима цитата ]}

Центр обработки данных ServerAxis в Майами был отключен без предупреждения 29 февраля 2016 года и так и не был восстановлен. Это повлияло на работу нескольких провайдеров и сотен веб-сайтов. Отключение повлияло на освещение женского баскетбольного турнира NCAA Division I 2016 года , поскольку WBBState, один из пострадавших сайтов, был самым полным поставщиком статистики женского баскетбола. ^[9]

Игровая платформа Roblox вышла из строя примерно в октябре 2021 года во время мероприятия Chipotle . Многие пользователи думали, что это произошло из-за мероприятия, потому что оно получило огромный прием, так как пользователи могли получить бесплатный буррито Chipotle во время него. Этот сбой стал самым длительным простоем Roblox, длившимся 3 дня. ^[10]^[11]^[12]

8 июля 2022 года в Канаде произошел крупный общенациональный сбой в работе Rogers . Это одновременно повлияло на доступ к сотовой связи и интернету, вызвав сбои в работе служб экстренной помощи, межбанковских транзакций и нарушив работу государственных служб.

19 июля 2024 года CrowdStrike выпустила неисправное обновление драйвера устройства для своего программного обеспечения Falcon, что привело к сбою и циклической загрузке ПК, серверов и виртуальных машин Windows. Инцидент непреднамеренно затронул около 8,5 миллионов машин Windows по всему миру, включая критически важную инфраструктуру, такую как службы 911 в различных штатах. Это считается крупнейшим сбоем в истории информационных технологий. ^[13]^[14]

Уровни обслуживания

В соглашениях об уровне обслуживания обычно указывается процентное значение (за месяц или за год), которое рассчитывается путем деления суммы всех временных интервалов простоя на общее время контрольного интервала времени (например, месяца). 0% времени простоя означает, что сервер был доступен все время.

Для интернет-серверов простои выше 1% в год или хуже можно считать неприемлемыми, поскольку это означает простой более 3 дней в год. Для электронной коммерции и других промышленных целей любое значение выше 0,1% обычно считается неприемлемым. ^[15]

Реагирование и уменьшение воздействия

Обязанность проектировщика сети — убедиться, что сбой в работе сети не произойдет. Когда это произойдет, хорошо спроектированная система еще больше снизит последствия сбоя, имея локализованные сбои, которые можно обнаружить и устранить как можно скорее.

Необходимо внедрить процесс обнаружения неисправности ( мониторинг сети ) и восстановления сети до рабочего состояния. Обычно для этого требуется группа поддержки , которая может устранить неполадку и состоит из обученных инженеров. Отдельная группа поддержки обычно необходима для обработки данных пользователей, что может быть особенно сложным во время простоя.

Система управления сетью может использоваться для обнаружения неисправных или вышедших из строя компонентов до поступления жалоб от клиентов с возможностью упреждающего устранения неисправностей.

Методы управления рисками могут использоваться для определения влияния сетевых сбоев на организацию и того, какие действия могут потребоваться для минимизации риска. Риск может быть минимизирован за счет использования надежных компонентов, выполнения технического обслуживания, например, модернизации, использования избыточных систем или наличия плана действий в чрезвычайных ситуациях или плана обеспечения непрерывности бизнеса . Технические средства могут уменьшить количество ошибок с помощью кодов исправления ошибок , повторной передачи , контрольных сумм или схемы разнообразия .

Одной из главных причин простоя является неправильная конфигурация, когда запланированное изменение идет не так. Обычно организации полагаются на ручные усилия для управления процессом резервного копирования конфигурации, но это требует высококвалифицированных инженеров со временем для управления процессом в сети от нескольких поставщиков. Для управления резервным копированием доступны средства автоматизации, но существует очень мало решений, которые справляются с восстановлением конфигурации, что необходимо для минимизации общего воздействия простоя. ^[16]

Планирование

Плановый сбой является результатом запланированной деятельности владельца системы и/или поставщика услуг . Эти сбои, часто запланированные во время окна обслуживания , могут использоваться для выполнения задач, включая следующие:

Отложенное обслуживание, например, отложенный ремонт оборудования или отложенный перезапуск для очистки искаженной памяти.
Диагностика для локализации обнаруженной неисправности
Ремонт аппаратных неисправностей
Исправление ошибки или упущения в базе данных конфигурации или упущения в недавнем изменении базы данных конфигурации
Исправление ошибки в базе данных приложения или ошибки в недавнем изменении базы данных приложения
Исправление/обновление программного обеспечения для устранения программных ошибок.

Отключения также могут быть запланированы в результате предсказуемого природного события, например, отключения Солнца .

Простои для обслуживания должны быть тщательно спланированы в отраслях, которые полагаются на компьютерные системы. Во многих случаях общесистемные простои можно предотвратить с помощью так называемого «скользящего обновления» — процесса постепенного снятия частей системы для обновления, не влияя на общую функциональность.

Избегание

Для большинства веб-сайтов доступен мониторинг веб-сайтов . Мониторинг веб-сайтов (синтетический или пассивный) — это услуга, которая «отслеживает» время простоя и пользователей на сайте.

Другое использование

Время простоя может также относиться к времени, когда человеческий капитал или другие активы выходят из строя. Например, если сотрудники находятся на совещаниях или не могут выполнять свою работу из-за другого ограничения, они выходят из строя. Это может быть столь же затратно и может быть результатом выхода из строя другого актива (например, компьютера/системы). Это также обычно известно как « время простоя ».

Время простоя также обобщается в личном смысле и используется для обозначения периода сна или отдыха . ^[17]^[18]^[19]

Этот термин также используется на заводах или в промышленности. См. общее производственное обслуживание (TPM).

Измерение времени простоя

Существует множество внешних сервисов, которые можно использовать для мониторинга времени безотказной работы и простоев, а также доступности сервиса или хоста.

Смотрите также

Ссылки

^ "Краткий обзор тенденций в области защиты данных 2021 года". Veeam Software .
^ Neumann, Peter G.; Weinstock, Chuck; Townson, Patrick (11 мая 1988 г.). «Риски отказов отдельных точек: пожар в Хинсдейле». The RISKS Digest . 6 (82). Архивировано из оригинала 6 октября 2022 г. – через The Catless Web Server.Выдержка из TELECOM Digest. 8 (76).
^ Нейман, Питер Г. (26 февраля 1990 г.). «Крах сети AT&T в 1990 году». Telephone World . The Risks Digest. Архивировано из оригинала 19 декабря 2022 г.
^ "Предотвращение сбоев в работе IP-сетей" (PDF) . Agilent Technologies . 15 марта 2002 г. Архивировано из оригинала (PDF) 28 сентября 2018 г.
^ Ньюманн, Питер Г.; Белловин, Стив; Бирнс, Джим; Ньюэлл, Ратлин (7 мая 1998 г.). «AT&T объявляет причину сбоя сети Frame Relay». The RISKS Digest . 19 (72) – через The Catless Web Server.
↑ Блок, Райан (03.01.2008). «Отключение Xbox Live, день 13: все еще вверх и вниз, все еще мешая получать удовольствие». Engadget. Архивировано из оригинала 27 января 2012 г. Получено 27.04.2011 .
^ Коэн, Питер (4 января 2008 г.). «Microsoft предлагает бесплатную игру для Xbox Live holiday problems». PC World . Macworld. Архивировано из оригинала 2011-12-01.
^ "Начинается восстановление PlayStation®Network и Qriocity Services". Sony Group Portal - Sony Global Headquarters . 15 мая 2011 г. Получено 22 октября 2021 г.
^ Леви, Иэн (16.03.2016). «Веб-сайт вышел из строя и забрал с собой большую часть аналитики женского студенческого баскетбола». FiveThirtyEight . Архивировано из оригинала 30 сентября 2023 г.
↑ Плант, Логан (29 октября 2021 г.). «Серверы Roblox снова в сети [Обновление]». IGN . Архивировано из оригинала 17 октября 2023 г.
^ Финнис, Алекс. «Roblox упал? Почему игровая платформа сегодня не работает, а тысячи пользователей сообщают о проблемах со входом». MSN . Архивировано из оригинала 15 ноября 2021 г.
^ «Roblox был недоступен все выходные, и не из-за Chipotle». 30 октября 2021 г.
^ Милмо, Дэн; Коллеве, Джулия; Куинн, Бен; Тейлор, Джош; Ибрагим, Мими (2024-07-20). «Медленное восстановление после сбоя ИТ начинается, поскольку эксперты предупреждают о будущих рисках». The Guardian . ISSN 0261-3077 . Получено 21 июля 2024 г. .
^ Уэстон, Дэвид (2024-07-20). «Помощь нашим клиентам во время сбоя CrowdStrike». Официальный блог Microsoft . Получено 21 июля 2024 г.
^ Коэн, Гэд. «Простои, сбои и отказы — понимание их истинной стоимости». www.evolven.com . Получено 22.10.2021 .
^ «Почему важно отслеживать время простоя оборудования?». Evocon . 10 сентября 2018 г. Получено 22 октября 2021 г.
^ «Отдых и релаксация: почему «время простоя» важно для детей». 19 сентября 2016 г.
^ «Важность планирования простоев». 25 августа 2008 г.
^ "Что недостаток сна делает с вашим разумом". Многие люди думают о сне просто как о роскоши — небольшом времени отдыха.

Внешние ссылки

Словарное определение простоя в Викисловаре