Каскадный отказ — это отказ в системе взаимосвязанных частей, в которой отказ одной или нескольких частей приводит к отказу других частей, постепенно нарастающему в результате положительной обратной связи . Это может произойти, когда выходит из строя одна часть, увеличивая вероятность отказа других частей системы. [1] [2] Такой отказ может произойти во многих типах систем, включая передачу электроэнергии, компьютерные сети, финансы, транспортные системы, организмы, человеческое тело и экосистемы.
Каскадные отказы могут возникнуть, когда одна часть системы выходит из строя. Когда это происходит, другие части должны компенсировать отказавший компонент. Это, в свою очередь, перегружает эти узлы, заставляя их также выходить из строя, побуждая дополнительные узлы выходить из строя один за другим.
Каскадный отказ распространен в электросетях , когда один из элементов выходит из строя (полностью или частично) и переносит свою нагрузку на соседние элементы в системе. Затем эти соседние элементы выходят за пределы своей мощности, поэтому они перегружаются и переносят свою нагрузку на другие элементы. Каскадный отказ является распространенным эффектом, наблюдаемым в системах высокого напряжения , где единая точка отказа (SPF) в полностью загруженной или слегка перегруженной системе приводит к внезапному скачку напряжения во всех узлах системы. Этот импульсный ток может вызвать отказ уже перегруженных узлов, вызывая еще больше перегрузок и тем самым выводя из строя всю систему за очень короткое время.
Этот процесс отказа каскадно распространяется по элементам системы, как рябь на пруду, и продолжается до тех пор, пока практически все элементы в системе не будут скомпрометированы и/или система не станет функционально отключенной от источника своей нагрузки. Например, при определенных условиях крупная электросеть может рухнуть после отказа одного трансформатора.
Мониторинг работы системы в режиме реального времени и разумное отключение частей может помочь остановить каскад. Другой распространенный метод заключается в расчете запаса прочности для системы путем компьютерного моделирования возможных отказов, чтобы установить безопасные рабочие уровни, ниже которых ни один из рассчитанных сценариев не может вызвать каскадный отказ, и определить части сети, которые с наибольшей вероятностью вызовут каскадные отказы. [3]
Одной из основных проблем предотвращения сбоев в работе электросетей является то, что скорость управляющего сигнала не превышает скорость распространяющейся перегрузки по мощности, т.е. поскольку и управляющий сигнал, и электроэнергия движутся с одинаковой скоростью, невозможно изолировать отключение, отправив заранее предупреждение для изоляции элемента.
Каскадный отказ вызвал следующие отключения электроэнергии :
Каскадные сбои могут также происходить в компьютерных сетях (например, в Интернете ), в которых сетевой трафик серьезно ухудшается или останавливается в или между большими разделами сети, вызванными отказом или отключением оборудования или программного обеспечения. В этом контексте каскадный сбой известен под термином каскадный сбой . Каскадный сбой может повлиять на большие группы людей и системы.
Причиной каскадного сбоя обычно является перегрузка одного, важного маршрутизатора или узла, что приводит к выходу узла из строя, даже на короткое время. Это также может быть вызвано отключением узла для обслуживания или модернизации. В любом случае трафик направляется на другой (альтернативный) путь или через него. Этот альтернативный путь в результате становится перегруженным, что приводит к его выходу из строя и т. д. Это также повлияет на системы, которые зависят от узла для регулярной работы.
Симптомы каскадного сбоя включают: потерю пакетов и высокую задержку сети , не только для отдельных систем, но и для целых участков сети или Интернета. Высокая задержка и потеря пакетов вызваны узлами, которые не могут работать из-за перегрузки , что заставляет их по-прежнему присутствовать в сети, но без большого количества или какой-либо полезной коммуникации, проходящей через них. В результате маршруты все еще могут считаться действительными, хотя они фактически не обеспечивают коммуникации.
Если из-за каскадного сбоя выйдет из строя достаточное количество маршрутов, целый раздел сети или интернета может стать недоступным. Хотя это и нежелательно, это может помочь ускорить восстановление после этого сбоя, поскольку соединения будут отключены по тайм-ауту, а другие узлы прекратят попытки установить соединения с разделом(ами), которые были отключены, что снизит нагрузку на задействованные узлы.
Распространенным явлением при каскадном отказе является блуждающий отказ , когда секции падают, вызывая отказ следующей секции, после чего первая секция снова поднимается. Эта рябь может сделать несколько проходов через те же секции или соединительные узлы, прежде чем стабильность будет восстановлена.
Каскадные отказы — это относительно недавнее явление, связанное с огромным ростом трафика и высокой взаимосвязанностью систем и сетей. Термин был впервые применен в этом контексте в конце 1990-х годов голландским IT-специалистом и постепенно стал относительно распространенным термином для обозначения такого рода крупномасштабных отказов. [ необходима цитата ]
Сбои в работе сети обычно начинаются, когда выходит из строя один сетевой узел. Сначала трафик, который обычно проходит через узел, останавливается. Системы и пользователи получают ошибки о невозможности связаться с хостами. Обычно избыточные системы интернет-провайдера реагируют очень быстро, выбирая другой путь через другую магистраль. Путь маршрутизации через этот альтернативный маршрут длиннее, с большим количеством переходов и, следовательно, прохождением через большее количество систем, которые обычно не обрабатывают внезапно предлагаемый объем трафика.
Это может привести к отказу одной или нескольких систем на альтернативном маршруте, что создаст аналогичные проблемы.
В этом случае также затронуты связанные системы. Например, может произойти сбой разрешения DNS , и то, что обычно приводит к взаимосвязи систем, может нарушить соединения, которые даже не участвуют напрямую в фактических системах, которые вышли из строя. Это, в свою очередь, может привести к возникновению проблем на, казалось бы, не связанных между собой узлах, что может вызвать еще один каскадный сбой сам по себе.
В декабре 2012 года частичная потеря (40%) сервиса Gmail произошла по всему миру на 18 минут. Эта потеря сервиса была вызвана плановым обновлением программного обеспечения балансировки нагрузки, которое содержало ошибочную логику — в этом случае ошибка была вызвана логикой, использующей неподходящее «все» вместо более подходящего «некоторые». [4] Каскадная ошибка была исправлена путем полного обновления одного узла в сети вместо частичного обновления всех узлов одновременно.
Некоторые несущие конструкции с дискретными структурными компонентами могут быть подвержены «эффекту молнии», когда отказ одного структурного элемента увеличивает нагрузку на соседние элементы. В случае обрушения пешеходной дорожки Hyatt Regency подвесная дорожка (которая уже была перенапряжена из-за ошибки в строительстве) вышла из строя, когда вышел из строя один вертикальный стержень подвески, перегрузив соседние стержни, которые вышли из строя последовательно (т. е. как молния ) . Мост, который может иметь такой отказ, называется критическим по разрушению, и многочисленные обрушения мостов были вызваны отказом одной части. Правильно спроектированные конструкции используют достаточный коэффициент безопасности и/или альтернативные пути нагрузки, чтобы предотвратить этот тип механического каскадного отказа. [5]
Каскад трещин — это явление в контексте геологии, описывающее запуск цепной реакции последующих трещин одним переломом. [6] Первоначальный перелом приводит к распространению дополнительных трещин, вызывая каскадный эффект по всему материалу.
Каскады трещин могут возникать в различных материалах, включая камни, лед, металлы и керамику. [7] Типичным примером является изгиб сухих спагетти , которые в большинстве случаев распадаются более чем на 2 части, как впервые заметил Ричард Фейнман . [7]
В контексте остеопороза каскад переломов представляет собой повышенный риск последующих переломов костей после первоначального. [8]
Биохимические каскады существуют в биологии, где небольшая реакция может иметь системные последствия. Одним из негативных примеров является ишемический каскад , при котором небольшая ишемическая атака высвобождает токсины , которые убивают гораздо больше клеток, чем первоначальное повреждение, что приводит к высвобождению большего количества токсинов. Текущие исследования направлены на поиск способа блокировать этот каскад у пациентов с инсультом , чтобы минимизировать ущерб.
В исследовании вымирания иногда вымирание одного вида приводит к вымиранию многих других видов. Такой вид называется ключевым видом .
Другим примером является генератор Кокрофта-Уолтона , в котором также возможны каскадные отказы, при которых отказ одного диода может привести к отказу всех диодов за доли секунды.
Еще одним примером этого эффекта в научном эксперименте стал взрыв в 2001 году нескольких тысяч хрупких стеклянных фотоумножительных трубок, использовавшихся в эксперименте «Супер-Камиоканде» , где ударная волна, вызванная отказом одного детектора, по-видимому, спровоцировала взрыв других детекторов в цепной реакции.
В финансах риск каскадных банкротств финансовых учреждений называется системным риском : банкротство одного финансового учреждения может привести к банкротству других финансовых учреждений (его контрагентов ), каскадно распространяясь по всей системе. Учреждения, которые, как считается, представляют системный риск, считаются либо « слишком большими, чтобы обанкротиться » (TBTF), либо «слишком взаимосвязанными, чтобы обанкротиться» (TICTF), в зависимости от того, почему они, по всей видимости, представляют угрозу.
Однако следует отметить, что системный риск возникает не из-за отдельных учреждений как таковых, а из-за взаимосвязей. В исследовательской литературе были разработаны структуры для изучения и прогнозирования последствий каскадных сбоев. [9] [10] [11]
Схожий (хотя и отличный) тип каскадного сбоя в финансах происходит на фондовом рынке, примером чего является мгновенный крах 2010 года . [11]
Различные инфраструктуры, такие как водоснабжение , транспорт , топливо и электростанции, связаны друг с другом и зависят друг от друга в функционировании, см. рис. 1. Из-за этой связи взаимозависимые сети чрезвычайно чувствительны к случайным сбоям, и в частности к целевым атакам , так что сбой небольшой доли узлов в одной сети может вызвать итеративный каскад сбоев в нескольких взаимозависимых сетях. [12] [13] Отключения электроэнергии часто являются результатом каскада сбоев между взаимозависимыми сетями, и эта проблема была ярко проиллюстрирована несколькими крупномасштабными отключениями, которые произошли в последние годы. Отключения являются захватывающей демонстрацией важной роли, которую играют зависимости между сетями. Например, отключение электроэнергии в Италии в 2003 году привело к широкомасштабному отказу железнодорожной сети , систем здравоохранения и финансовых услуг и, кроме того, серьезно повлияло на телекоммуникационные сети . Частичный отказ системы связи, в свою очередь, еще больше нарушил систему управления электросетью , тем самым создавая положительную обратную связь в электросети. [14] Этот пример подчеркивает, как взаимозависимость может значительно увеличить ущерб во взаимодействующей сетевой системе.
Модель каскадных отказов из-за распространения перегрузки — это модель Моттера–Лая. [15]
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )