Время простоя

Термин « время простоя» используется для обозначения периодов, когда система недоступна. Недоступность — это доля времени, в течение которого система недоступна или находится в автономном режиме . Обычно это является результатом сбоя системы в работе из-за незапланированного события или планового обслуживания (запланированного события).

Эти термины обычно применяются к сетям и серверам . Распространенными причинами незапланированных простоев являются системные сбои (например, сбой ) или сбои связи (широко известные как сбои сети ).

Этот термин также широко применяется в промышленных условиях в отношении сбоев в промышленном производственном оборудовании. Некоторые предприятия измеряют время простоя в течение рабочей смены, а также в течение 12- или 24-часового периода. Другая распространенная практика заключается в том, чтобы идентифицировать каждое событие простоя как имеющее эксплуатационное, электрическое или механическое происхождение.

Противоположностью простоя является время безотказной работы .

Типы

Отраслевые стандарты для терминов «Продолжительность простоя» или «Продолжительность технического обслуживания» могут иметь разные точки начала и завершения, поэтому во избежание конфликтов при исполнении контракта следует использовать следующее разъяснение:

«Под ключ» — это самый увлекательный из всех видов отключений. Отключение или техническое обслуживание начинается с того, что оператор установки или оборудования нажимает кнопку выключения или остановки, чтобы инициировать остановку работы. Если не указано иное, простой или техническое обслуживание считаются завершенными, когда установка или оборудование снова работают в нормальном режиме и готовы к началу производства, или готовы к синхронизации с системой или сетью, или готовы выполнять функции насоса или компрессора.
«От выключателя к выключателю» Это отключение или техническое обслуживание начинается с того, что оператор установки или оборудования выводит из строя силовую цепь (главный силовой выключатель находится в положении «выключено», «выключено» или «включено при охлаждении»), а не цепь управления. Это по-прежнему позволит охладить оборудование или довести его до температуры окружающей среды, чтобы можно было подготовить или начать работы по отключению/техническому обслуживанию. В зависимости от типа оборудования отключение по принципу «от выключателя к выключателю» может быть выгодным при заключении контракта на техническое обслуживание, связанное с управлением, поскольку этот тип работ по техническому обслуживанию может выполняться, пока основное оборудование все еще находится в режиме охлаждения или в режиме ожидания. Если не указано иное, этот тип отключения считается завершенным, когда в силовую цепь повторно подается питание посредством включения силового выключателя.
«Завершение блокировки/маркировки ». Это отключение или техническое обслуживание (иногда ошибочно принимаемое за «выключение охлаждения», но это не одно и то же) начинается с того, что оператор установки или оборудования отключает силовую цепь, отключает цепь управления и выполняет другие действия по нейтрализации. потенциальных источников энергии и опасностей (обычно называемых блокировкой, маркировкой «LOTO»). Эта точка периода технического обслуживания обычно является последней фазой стадии начала отключения перед началом фактических работ на объекте, заводе или оборудовании. Инструктаж по технике безопасности всегда должен сопровождать деятельность LOTO, прежде чем приступать к выполнению какой-либо работы. Если не указано иное, этот тип отключения считается завершенным, когда оборудование достигло механической завершенности и готово к переводу в режим медленного вращения для большого количества тяжелого вращающегося оборудования, функциональному испытанию или проверке вращения двигателей и т. д., но должно следовать за возвратом или разрешение на работу по процедурам ЛОТО.

Любое онлайн-тестирование, тестирование производительности и требуемая настройка не должны засчитываться в продолжительность простоя, поскольку эти действия обычно проводятся после завершения простоя или мероприятия по техническому обслуживанию и находятся вне контроля большинства подрядчиков по техническому обслуживанию.

Характеристики

Незапланированные простои могут быть следствием неисправности оборудования и т.п.

Классификации сбоев в телекоммуникациях

Простои могут быть вызваны сбоем аппаратного обеспечения (физического оборудования), (оборудования логического управления), соединительного оборудования (например, кабелей, устройств, маршрутизаторов и т. д.), передачи (беспроводная, микроволновая, спутниковая) и/или пропускной способности (системы). пределы).

Сбои могут произойти из-за повреждения, сбоя, проектирования, процедур (неправильное использование людьми), инженерных действий (как использовать и развертывание), перегрузки (трафик или системные ресурсы выходят за пределы проектных пределов), окружающей среды (системы поддержки, такие как электроснабжение и отопление, вентиляция и кондиционирование). , (отключения, предусмотренные в системе для таких целей, как обновление программного обеспечения и расширение оборудования), другие (ничего из вышеперечисленного, но известное) или неизвестное.

За сбои может нести ответственность заказчик/поставщик услуг, поставщик/поставщик, коммунальное предприятие, правительство, подрядчик, конечный заказчик, общественное лицо, стихийное бедствие, другое (ничего из вышеперечисленного, но известное) или неизвестное.

Влияние

Отключения, вызванные системными сбоями, могут оказать серьезное влияние на пользователей компьютерных/сетевых систем, особенно на те отрасли, которые полагаются на почти круглосуточное обслуживание:

Также могут пострадать пользователи интернет- провайдера и другие клиенты телекоммуникационной сети.

Корпорации могут потерять бизнес из-за сбоя в сети или невыполнения контракта, что приведет к финансовым потерям. Согласно отчету Veeam по управлению облачными данными за 2019 год, организации сталкиваются с незапланированными простоями в среднем 5–10 раз в год, при этом средняя стоимость одного часа простоя составляет 102 450 долларов США. ^[1]

Те люди или организации, на которых влияет простой, могут быть более чувствительны к определенным аспектам:

на некоторых больше влияет продолжительность простоя — для них важно, сколько времени потребуется на восстановление после проблемы
другие чувствительны к времени отключения электроэнергии — на них больше всего влияют отключения в часы пик.

Наиболее требовательными пользователями являются те, которым требуется высокая доступность .

Известные отключения электроэнергии

В День матери , в воскресенье, 8 мая 1988 года, в главной коммутационной комнате центрального офиса Хинсдейла телефонной компании Illinois Bell вспыхнул пожар . Это одна из крупнейших систем коммутации в штате. Она обрабатывает более 3,5 миллионов вызовов каждый день, обслуживая 38 000 клиентов, включая многочисленные предприятия, больницы, а также аэропорты О'Хара и Мидуэй в Чикаго. ^[2]

Практически вся сеть AT&T , состоящая из тандемных коммутаторов 4ESS , снова и снова включалась и выходила из строя 15 января 1990 года, что нарушило работу междугородной связи на всей территории Соединенных Штатов. Проблема исчезла сама собой, когда движение транспорта замедлилось. Обнаружена программная ошибка. ^[3]

13 апреля 1998 года компания AT&T потеряла сеть Frame Relay на 26 часов ^{. [4]} Это затронуло многие тысячи клиентов, и одной из жертв стали банковские транзакции. AT&T не выполнила соглашение об уровне обслуживания по своим контрактам с клиентами и была вынуждена возместить ^[5] 6600 счетов клиентов на сумму в миллионы долларов.

Во время праздничного сезона 2007–2008 годов у Xbox Live были периодические простои, которые длились тринадцать дней. ^[6] Причиной простоя был назван возросший спрос со стороны покупателей Xbox 360 (самое большое количество новых регистраций пользователей в истории Xbox Live); Чтобы исправить проблемы с обслуживанием, Microsoft предложила своим пользователям возможность получить бесплатную игру. ^[7]

Отключение сети Sony PlayStation Network в апреле 2011 года началось 20 апреля 2011 года и было постепенно восстановлено 14 мая 2011 года, начиная с США . Это отключение является самым продолжительным периодом времени, в течение которого PSN находилась в автономном режиме с момента ее создания в 2006 году. Sony заявила, что проблема была вызвана внешним вторжением, которое привело к конфискации личной информации. 26 апреля 2011 года Sony сообщила, что большой объем пользовательских данных был получен в результате того же взлома, который привел к простою. ^[8]

Выключатель Ryde компании Telstra вышел из строя в конце 2011 года после того, как из-за продолжающейся влажной погоды в электрический распределительный щит попала вода. Коммутатор Райда является одним из крупнейших по площади коммутаторов в Австралии и затронул более 720 000 служб. ^{[ нужна цитата ]}

Центр обработки данных ServerAxis в Майами отключился без предупреждения 29 февраля 2016 г. и так и не был восстановлен. Это затронуло нескольких провайдеров и сотни веб-сайтов. Отключение повлияло на освещение женского баскетбольного турнира первого дивизиона NCAA 2016 года, поскольку WBBState, один из пострадавших сайтов, был на сегодняшний день наиболее полным поставщиком доступной статистики женского баскетбола. ^[9]

Примерно в октябре 2021 года во время мероприятия Chipotle в Roblox от Roblox Corporation произошел сбой . Многие пользователи думали, что это произошло из-за мероприятия, потому что оно получило широкий прием, поскольку во время него пользователи могли получить бесплатное буррито Chipotle. Отключение стало самым большим простоем Roblox, продолжавшимся целых 3 дня. ^[10]^[11]^[12]

8 июля 2022 года в Канаде произошло крупное общенациональное отключение электроэнергии . Это одновременно затронуло сотовую связь и доступ в Интернет, что привело к сбою звонков в службу 911 и межбанковских транзакций, а также к нарушению работы государственных служб.

Уровни обслуживания

В соглашениях об уровне обслуживания обычно указывается процентное значение (в месяц или в год), которое рассчитывается путем деления суммы всех периодов простоев на общее время базового периода времени (например, месяца). 0% простоя означает, что сервер был доступен все время.

Для интернет-серверов время простоя выше 1% в год или хуже может считаться неприемлемым, поскольку это означает простой более 3 дней в году. Для электронной коммерции и другого промышленного использования любое значение выше 0,1% обычно считается неприемлемым. ^[13]

Реагирование и снижение воздействия

В обязанности проектировщика сети входит обеспечение предотвращения сбоев в сети. Когда это все же произойдет, хорошо спроектированная система еще больше уменьшит последствия сбоя за счет локализованных сбоев, которые можно обнаружить и устранить как можно скорее.

Должен быть установлен процесс обнаружения неисправности ( мониторинг сети ) и восстановления сети до рабочего состояния. Обычно для этого требуется группа службы поддержки , которая может устранить проблему, состоящая из обученных инженеров; Обычно необходима отдельная группа службы поддержки для обработки данных пользователей, что может быть особенно трудоемким во время простоя.

Систему управления сетью можно использовать для обнаружения неисправных или пришедших в негодность компонентов до поступления жалоб от клиентов с упреждающим устранением неисправностей.

Методы управления рисками можно использовать для определения влияния сбоев в сети на организацию и того, какие действия могут потребоваться для минимизации риска. Риск можно свести к минимуму за счет использования надежных компонентов, выполнения технического обслуживания, например обновлений, использования резервных систем или наличия плана действий в чрезвычайных ситуациях или плана обеспечения непрерывности бизнеса . Технические средства могут уменьшить количество ошибок с помощью кодов исправления ошибок , повторной передачи , контрольных сумм или схемы разнесения .

Одной из основных причин простоев является неправильная конфигурация, когда запланированное изменение идет не так, как надо. Обычно организации полагаются на ручное управление процессом резервного копирования конфигурации, но для этого требуются высококвалифицированные инженеры, у которых есть время для управления процессом в сети различных поставщиков. Доступны инструменты автоматизации для управления резервным копированием, но очень мало решений, обеспечивающих восстановление конфигурации, необходимое для минимизации общего воздействия сбоя. ^[14]

Планирование

Запланированный сбой является результатом запланированных действий владельца системы и/или поставщика услуг . Эти отключения, часто запланированные во время периода обслуживания , могут использоваться для выполнения следующих задач:

Отложенное обслуживание, например отложенный ремонт оборудования или отложенный перезапуск для очистки поврежденной памяти.
Диагностика для изоляции обнаруженной неисправности
Ремонт аппаратных неисправностей
Исправление ошибки или упущения в базе данных конфигурации или упущения в недавнем изменении базы данных конфигурации.
Исправление ошибки в базе данных приложения или ошибки при недавнем изменении базы данных приложения.
Исправления программного обеспечения/обновления программного обеспечения для устранения неисправности программного обеспечения.

Отключения также можно планировать в результате предсказуемого природного события, такого как отключение Солнца .

В отраслях, где используются компьютерные системы, необходимо тщательно планировать время простоя из-за технического обслуживания. Во многих случаях простои всей системы можно предотвратить с помощью так называемого «последовательного обновления» — процесса постепенного отключения частей системы для обновления без ущерба для общей функциональности.

Избегание

Для большинства веб-сайтов доступен мониторинг веб-сайтов . Мониторинг сайта (синтетический или пассивный) — это сервис, который «отслеживает» время простоя и пользователей на сайте.

Другое использование

Время простоя также может относиться к времени, когда человеческий капитал или другие активы приходят в упадок. Например, если сотрудники находятся на собраниях или не могут выполнять свою работу из-за другого ограничения, они не работают. Это может быть столь же дорогостоящим и может быть результатом выхода из строя другого актива (например, компьютера/системы). Это также широко известно как « мертвое время ».

Время простоя также обобщается в личном смысле и используется для обозначения периода сна или отдыха . ^[15]^[16]^[17]

Этот термин также используется на заводах или в промышленности. См. общее продуктивное обслуживание (TPM).

Измерение времени простоя

Существует множество внешних служб, которые можно использовать для мониторинга времени безотказной работы и простоя, а также доступности службы или хоста.

Смотрите также

Внешние ссылки

Словарное определение простоя в Викисловаре