Термин « время простоя» используется для обозначения периодов, когда система недоступна. Недоступность — это доля времени, в течение которого система недоступна или находится в автономном режиме . Обычно это является результатом сбоя системы в работе из-за незапланированного события или планового обслуживания (запланированного события).
Эти термины обычно применяются к сетям и серверам . Распространенными причинами незапланированных простоев являются системные сбои (например, сбой ) или сбои связи (широко известные как сбои сети ).
Этот термин также широко применяется в промышленных условиях в отношении сбоев в промышленном производственном оборудовании. Некоторые предприятия измеряют время простоя в течение рабочей смены, а также в течение 12- или 24-часового периода. Другая распространенная практика заключается в том, чтобы идентифицировать каждое событие простоя как имеющее эксплуатационное, электрическое или механическое происхождение.
Противоположностью простоя является время безотказной работы .
Отраслевые стандарты для терминов «Продолжительность простоя» или «Продолжительность технического обслуживания» могут иметь разные точки начала и завершения, поэтому во избежание конфликтов при исполнении контракта следует использовать следующее разъяснение:
Любое онлайн-тестирование, тестирование производительности и требуемая настройка не должны засчитываться в продолжительность простоя, поскольку эти действия обычно проводятся после завершения простоя или мероприятия по техническому обслуживанию и находятся вне контроля большинства подрядчиков по техническому обслуживанию.
Незапланированные простои могут быть следствием неисправности оборудования и т.п.
Простои могут быть вызваны сбоем аппаратного обеспечения (физического оборудования), (оборудования логического управления), соединительного оборудования (например, кабелей, устройств, маршрутизаторов и т. д.), передачи (беспроводная, микроволновая, спутниковая) и/или пропускной способности (системы). пределы).
Сбои могут произойти из-за повреждения, сбоя, проектирования, процедур (неправильное использование людьми), инженерных действий (как использовать и развертывание), перегрузки (трафик или системные ресурсы выходят за пределы проектных пределов), окружающей среды (системы поддержки, такие как электроснабжение и отопление, вентиляция и кондиционирование). , (отключения, предусмотренные в системе для таких целей, как обновление программного обеспечения и расширение оборудования), другие (ничего из вышеперечисленного, но известное) или неизвестное.
За сбои может нести ответственность заказчик/поставщик услуг, поставщик/поставщик, коммунальное предприятие, правительство, подрядчик, конечный заказчик, общественное лицо, стихийное бедствие, другое (ничего из вышеперечисленного, но известное) или неизвестное.
Отключения, вызванные системными сбоями, могут оказать серьезное влияние на пользователей компьютерных/сетевых систем, особенно на те отрасли, которые полагаются на почти круглосуточное обслуживание:
Также могут пострадать пользователи интернет- провайдера и другие клиенты телекоммуникационной сети.
Корпорации могут потерять бизнес из-за сбоя в сети или невыполнения контракта, что приведет к финансовым потерям. Согласно отчету Veeam по управлению облачными данными за 2019 год, организации сталкиваются с незапланированными простоями в среднем 5–10 раз в год, при этом средняя стоимость одного часа простоя составляет 102 450 долларов США. [1]
Те люди или организации, на которых влияет простой, могут быть более чувствительны к определенным аспектам:
Наиболее требовательными пользователями являются те, которым требуется высокая доступность .
В День матери , в воскресенье, 8 мая 1988 года, в главной коммутационной комнате центрального офиса Хинсдейла телефонной компании Illinois Bell вспыхнул пожар . Это одна из крупнейших систем коммутации в штате. Она обрабатывает более 3,5 миллионов вызовов каждый день, обслуживая 38 000 клиентов, включая многочисленные предприятия, больницы, а также аэропорты О'Хара и Мидуэй в Чикаго. [2]
Практически вся сеть AT&T , состоящая из тандемных коммутаторов 4ESS , снова и снова включалась и выходила из строя 15 января 1990 года, что нарушило работу междугородной связи на всей территории Соединенных Штатов. Проблема исчезла сама собой, когда движение транспорта замедлилось. Обнаружена программная ошибка. [3]
13 апреля 1998 года компания AT&T потеряла сеть Frame Relay на 26 часов . [4] Это затронуло многие тысячи клиентов, и одной из жертв стали банковские транзакции. AT&T не выполнила соглашение об уровне обслуживания по своим контрактам с клиентами и была вынуждена возместить [5] 6600 счетов клиентов на сумму в миллионы долларов.
Во время праздничного сезона 2007–2008 годов у Xbox Live были периодические простои, которые длились тринадцать дней. [6] Причиной простоя был назван возросший спрос со стороны покупателей Xbox 360 (самое большое количество новых регистраций пользователей в истории Xbox Live); Чтобы исправить проблемы с обслуживанием, Microsoft предложила своим пользователям возможность получить бесплатную игру. [7]
Отключение сети Sony PlayStation Network в апреле 2011 года началось 20 апреля 2011 года и было постепенно восстановлено 14 мая 2011 года, начиная с США . Это отключение является самым продолжительным периодом времени, в течение которого PSN находилась в автономном режиме с момента ее создания в 2006 году. Sony заявила, что проблема была вызвана внешним вторжением, которое привело к конфискации личной информации. 26 апреля 2011 года Sony сообщила, что большой объем пользовательских данных был получен в результате того же взлома, который привел к простою. [8]
Выключатель Ryde компании Telstra вышел из строя в конце 2011 года после того, как из-за продолжающейся влажной погоды в электрический распределительный щит попала вода. Коммутатор Райда является одним из крупнейших по площади коммутаторов в Австралии и затронул более 720 000 служб. [ нужна цитата ]
Центр обработки данных ServerAxis в Майами отключился без предупреждения 29 февраля 2016 г. и так и не был восстановлен. Это затронуло нескольких провайдеров и сотни веб-сайтов. Отключение повлияло на освещение женского баскетбольного турнира первого дивизиона NCAA 2016 года, поскольку WBBState, один из пострадавших сайтов, был на сегодняшний день наиболее полным поставщиком доступной статистики женского баскетбола. [9]
Примерно в октябре 2021 года во время мероприятия Chipotle в Roblox от Roblox Corporation произошел сбой . Многие пользователи думали, что это произошло из-за мероприятия, потому что оно получило широкий прием, поскольку во время него пользователи могли получить бесплатное буррито Chipotle. Отключение стало самым большим простоем Roblox, продолжавшимся целых 3 дня. [10] [11] [12]
8 июля 2022 года в Канаде произошло крупное общенациональное отключение электроэнергии . Это одновременно затронуло сотовую связь и доступ в Интернет, что привело к сбою звонков в службу 911 и межбанковских транзакций, а также к нарушению работы государственных служб.
В соглашениях об уровне обслуживания обычно указывается процентное значение (в месяц или в год), которое рассчитывается путем деления суммы всех периодов простоев на общее время базового периода времени (например, месяца). 0% простоя означает, что сервер был доступен все время.
Для интернет-серверов время простоя выше 1% в год или хуже может считаться неприемлемым, поскольку это означает простой более 3 дней в году. Для электронной коммерции и другого промышленного использования любое значение выше 0,1% обычно считается неприемлемым. [13]
В обязанности проектировщика сети входит обеспечение предотвращения сбоев в сети. Когда это все же произойдет, хорошо спроектированная система еще больше уменьшит последствия сбоя за счет локализованных сбоев, которые можно обнаружить и устранить как можно скорее.
Должен быть установлен процесс обнаружения неисправности ( мониторинг сети ) и восстановления сети до рабочего состояния. Обычно для этого требуется группа службы поддержки , которая может устранить проблему, состоящая из обученных инженеров; Обычно необходима отдельная группа службы поддержки для обработки данных пользователей, что может быть особенно трудоемким во время простоя.
Систему управления сетью можно использовать для обнаружения неисправных или пришедших в негодность компонентов до поступления жалоб от клиентов с упреждающим устранением неисправностей.
Методы управления рисками можно использовать для определения влияния сбоев в сети на организацию и того, какие действия могут потребоваться для минимизации риска. Риск можно свести к минимуму за счет использования надежных компонентов, выполнения технического обслуживания, например обновлений, использования резервных систем или наличия плана действий в чрезвычайных ситуациях или плана обеспечения непрерывности бизнеса . Технические средства могут уменьшить количество ошибок с помощью кодов исправления ошибок , повторной передачи , контрольных сумм или схемы разнесения .
Одной из основных причин простоев является неправильная конфигурация, когда запланированное изменение идет не так, как надо. Обычно организации полагаются на ручное управление процессом резервного копирования конфигурации, но для этого требуются высококвалифицированные инженеры, у которых есть время для управления процессом в сети различных поставщиков. Доступны инструменты автоматизации для управления резервным копированием, но очень мало решений, обеспечивающих восстановление конфигурации, необходимое для минимизации общего воздействия сбоя. [14]
Запланированный сбой является результатом запланированных действий владельца системы и/или поставщика услуг . Эти отключения, часто запланированные во время периода обслуживания , могут использоваться для выполнения следующих задач:
Отключения также можно планировать в результате предсказуемого природного события, такого как отключение Солнца .
В отраслях, где используются компьютерные системы, необходимо тщательно планировать время простоя из-за технического обслуживания. Во многих случаях простои всей системы можно предотвратить с помощью так называемого «последовательного обновления» — процесса постепенного отключения частей системы для обновления без ущерба для общей функциональности.
Для большинства веб-сайтов доступен мониторинг веб-сайтов . Мониторинг сайта (синтетический или пассивный) — это сервис, который «отслеживает» время простоя и пользователей на сайте.
Время простоя также может относиться к времени, когда человеческий капитал или другие активы приходят в упадок. Например, если сотрудники находятся на собраниях или не могут выполнять свою работу из-за другого ограничения, они не работают. Это может быть столь же дорогостоящим и может быть результатом выхода из строя другого актива (например, компьютера/системы). Это также широко известно как « мертвое время ».
Время простоя также обобщается в личном смысле и используется для обозначения периода сна или отдыха . [15] [16] [17]
Этот термин также используется на заводах или в промышленности. См. общее продуктивное обслуживание (TPM).
Существует множество внешних служб, которые можно использовать для мониторинга времени безотказной работы и простоя, а также доступности службы или хоста.
Многие люди думают о сне просто как о роскоши – небольшом времени простоя.