Термин «простой» (также «системный» сбой или «системная» засуха ) используется для обозначения периодов, когда система недоступна. Недоступность — это часть временного интервала, в течение которого система недоступна или находится в автономном режиме . Обычно это происходит из-за того, что система не может функционировать из-за незапланированного события или из-за планового обслуживания (запланированного события).
Эти термины обычно применяются к сетям и серверам . Обычными причинами незапланированных отключений являются системные сбои (например, сбой ) или сбои связи (обычно известные как сетевое отключение или сетевая засуха в разговорной речи). Для отключений из-за проблем с общими компьютерными системами можно использовать термин компьютерное отключение (также ИТ-отключение или ИТ-засуха ).
Этот термин также широко применяется в промышленных условиях в отношении сбоев в работе промышленного производственного оборудования. Некоторые предприятия измеряют время простоя, возникшее в течение рабочей смены или в течение 12- или 24-часового периода. Другая распространенная практика заключается в определении каждого события простоя как имеющего эксплуатационное, электрическое или механическое происхождение.
Противоположность простою — время безотказной работы .
Отраслевые стандарты для термина «Продолжительность простоя» или «Продолжительность технического обслуживания» могут иметь разные точки начала и завершения, поэтому следует использовать следующие разъяснения, чтобы избежать конфликтов при исполнении контракта:
Любое онлайн-тестирование, тестирование производительности и необходимая настройка не должны учитываться при подсчете продолжительности простоя, поскольку эти действия обычно проводятся после завершения простоя или технического обслуживания и находятся вне контроля большинства подрядчиков по техническому обслуживанию.
Незапланированный простой может быть результатом неисправности оборудования и т. д.
Простой может быть вызван сбоем в работе оборудования (физического оборудования), (логического управляющего оборудования), соединительного оборудования (например, кабелей, установок, маршрутизаторов и т. д.), передачи данных (беспроводной, микроволновой, спутниковой) и/или пропускной способности (ограничения системы).
Сбои могут возникать из-за повреждения, отказа, конструкции, процедур (неправильного использования людьми), инженерных (способа использования и развертывания), перегрузки (трафик или системные ресурсы, превышающие проектные пределы), окружающей среды (вспомогательные системы, такие как электропитание и HVAC), (перебои, заложенные в систему для определенной цели, например, обновления программного обеспечения и расширения оборудования), других (ничего из вышеперечисленного, кроме известного) или неизвестных причин.
Ответственность за сбои может лежать на клиенте/поставщике услуг, продавце/поставщике, коммунальном предприятии, правительстве, подрядчике, конечном потребителе, публичном лице, стихийном бедствии, другом (ни одном из вышеперечисленных, но известном) или неизвестном.
Перебои в работе, вызванные системными сбоями, могут иметь серьезные последствия для пользователей компьютерных/сетевых систем, в частности, в тех отраслях, где требуется практически круглосуточное обслуживание:
Также могут пострадать пользователи интернет-провайдера и другие клиенты телекоммуникационной сети.
Корпорации могут потерять бизнес из-за сбоя в работе сети или могут не выполнить контракт, что приведет к финансовым потерям. Согласно отчету Veeam по управлению облачными данными за 2019 год, организации сталкиваются с незапланированными простоями в среднем 5–10 раз в год, а средняя стоимость одного часа простоя составляет 102 450 долларов США. [1]
Люди или организации, на которых влияет простой, могут быть более чувствительны к определенным аспектам:
Наиболее требовательные пользователи — это те, которым требуется высокая доступность .
В День матери , в воскресенье, 8 мая 1988 года, в главном коммутаторном зале центрального офиса телефонной компании Illinois Bell в Хинсдейле вспыхнул пожар . Это одна из крупнейших коммутационных систем в штате, которая обрабатывала более 3,5 миллионов звонков каждый день, обслуживая 38 000 клиентов, включая многочисленные предприятия, больницы и аэропорты О'Хара и Мидуэй в Чикаго. [2]
Практически вся сеть AT&T 4ESS toll tandems switchs снова и снова выходила из строя 15 января 1990 года, нарушая междугороднюю связь по всем Соединенным Штатам. Проблема рассеялась сама собой, когда трафик замедлился. Была обнаружена ошибка в программном обеспечении. [3]
AT&T потеряла свою сеть Frame Relay на 26 часов 13 апреля 1998 года. [4] Это затронуло многие тысячи клиентов, и одной из жертв стали банковские транзакции. AT&T не смогла выполнить соглашение об уровне обслуживания по своим контрактам с клиентами и была вынуждена возместить [5] 6600 клиентских счетов , что обошлось в миллионы долларов.
Xbox Live периодически простаивал в течение праздничного сезона 2007–2008 годов, который длился тринадцать дней. [6] Причиной простоя был назван возросший спрос со стороны покупателей Xbox 360 (наибольшее количество новых регистраций пользователей за всю историю Xbox Live); чтобы загладить вину за проблемы с обслуживанием, Microsoft предложила своим пользователям возможность получить бесплатную игру. [7]
Сбой в работе PlayStation Network в апреле 2011 года от Sony начался 20 апреля 2011 года и был постепенно восстановлен 14 мая 2011 года, начиная с Соединенных Штатов . Этот сбой является самым длительным периодом времени, в течение которого PSN была отключена с момента ее создания в 2006 году. Sony заявила, что проблема была вызвана внешним вторжением, которое привело к конфискации личной информации. Sony сообщила 26 апреля 2011 года, что большой объем пользовательских данных был получен тем же взломом, который привел к простою. [8]
Коммутатор Ryde компании Telstra вышел из строя в конце 2011 года после того, как вода попала в электрический распределительный щит из-за продолжающейся сырой погоды. Коммутатор Ryde является одним из крупнейших по площади коммутаторов в Австралии и повлиял на более чем 720 000 служб. [ необходима цитата ]
Центр обработки данных ServerAxis в Майами был отключен без предупреждения 29 февраля 2016 года и так и не был восстановлен. Это повлияло на работу нескольких провайдеров и сотен веб-сайтов. Отключение повлияло на освещение женского баскетбольного турнира NCAA Division I 2016 года , поскольку WBBState, один из пострадавших сайтов, был самым полным поставщиком статистики женского баскетбола. [9]
Игровая платформа Roblox вышла из строя примерно в октябре 2021 года во время мероприятия Chipotle . Многие пользователи думали, что это произошло из-за мероприятия, потому что оно получило огромный прием, так как пользователи могли получить бесплатный буррито Chipotle во время него. Этот сбой стал самым длительным простоем Roblox, длившимся 3 дня. [10] [11] [12]
8 июля 2022 года в Канаде произошел крупный общенациональный сбой в работе Rogers . Это одновременно повлияло на доступ к сотовой связи и интернету, вызвав сбои в работе служб экстренной помощи, межбанковских транзакций и нарушив работу государственных служб.
19 июля 2024 года CrowdStrike выпустила неисправное обновление драйвера устройства для своего программного обеспечения Falcon, что привело к сбою и циклической загрузке ПК, серверов и виртуальных машин Windows. Инцидент непреднамеренно затронул около 8,5 миллионов машин Windows по всему миру, включая критически важную инфраструктуру, такую как службы 911 в различных штатах. Это считается крупнейшим сбоем в истории информационных технологий. [13] [14]
В соглашениях об уровне обслуживания обычно указывается процентное значение (за месяц или за год), которое рассчитывается путем деления суммы всех временных интервалов простоя на общее время контрольного интервала времени (например, месяца). 0% времени простоя означает, что сервер был доступен все время.
Для интернет-серверов простои выше 1% в год или хуже можно считать неприемлемыми, поскольку это означает простой более 3 дней в год. Для электронной коммерции и других промышленных целей любое значение выше 0,1% обычно считается неприемлемым. [15]
Обязанность проектировщика сети — убедиться, что сбой в работе сети не произойдет. Когда это произойдет, хорошо спроектированная система еще больше снизит последствия сбоя, имея локализованные сбои, которые можно обнаружить и устранить как можно скорее.
Необходимо внедрить процесс обнаружения неисправности ( мониторинг сети ) и восстановления сети до рабочего состояния. Обычно для этого требуется группа поддержки , которая может устранить неполадку и состоит из обученных инженеров. Отдельная группа поддержки обычно необходима для обработки данных пользователей, что может быть особенно сложным во время простоя.
Система управления сетью может использоваться для обнаружения неисправных или вышедших из строя компонентов до поступления жалоб от клиентов с возможностью упреждающего устранения неисправностей.
Методы управления рисками могут использоваться для определения влияния сетевых сбоев на организацию и того, какие действия могут потребоваться для минимизации риска. Риск может быть минимизирован за счет использования надежных компонентов, выполнения технического обслуживания, например, модернизации, использования избыточных систем или наличия плана действий в чрезвычайных ситуациях или плана обеспечения непрерывности бизнеса . Технические средства могут уменьшить количество ошибок с помощью кодов исправления ошибок , повторной передачи , контрольных сумм или схемы разнообразия .
Одной из главных причин простоя является неправильная конфигурация, когда запланированное изменение идет не так. Обычно организации полагаются на ручные усилия для управления процессом резервного копирования конфигурации, но это требует высококвалифицированных инженеров со временем для управления процессом в сети от нескольких поставщиков. Для управления резервным копированием доступны средства автоматизации, но существует очень мало решений, которые справляются с восстановлением конфигурации, что необходимо для минимизации общего воздействия простоя. [16]
Плановый сбой является результатом запланированной деятельности владельца системы и/или поставщика услуг . Эти сбои, часто запланированные во время окна обслуживания , могут использоваться для выполнения задач, включая следующие:
Отключения также могут быть запланированы в результате предсказуемого природного события, например, отключения Солнца .
Простои для обслуживания должны быть тщательно спланированы в отраслях, которые полагаются на компьютерные системы. Во многих случаях общесистемные простои можно предотвратить с помощью так называемого «скользящего обновления» — процесса постепенного снятия частей системы для обновления, не влияя на общую функциональность.
Для большинства веб-сайтов доступен мониторинг веб-сайтов . Мониторинг веб-сайтов (синтетический или пассивный) — это услуга, которая «отслеживает» время простоя и пользователей на сайте.
Время простоя может также относиться к времени, когда человеческий капитал или другие активы выходят из строя. Например, если сотрудники находятся на совещаниях или не могут выполнять свою работу из-за другого ограничения, они выходят из строя. Это может быть столь же затратно и может быть результатом выхода из строя другого актива (например, компьютера/системы). Это также обычно известно как « время простоя ».
Время простоя также обобщается в личном смысле и используется для обозначения периода сна или отдыха . [17] [18] [19]
Этот термин также используется на заводах или в промышленности. См. общее производственное обслуживание (TPM).
Существует множество внешних сервисов, которые можно использовать для мониторинга времени безотказной работы и простоев, а также доступности сервиса или хоста.
Многие люди думают о сне просто как о роскоши — небольшом времени отдыха.