Что такое время работы на отказ

Опубликовано: 16.05.2024

Средняя наработка на отказ ( MTBF ) - это прогнозируемое время, прошедшее между внутренними отказами механической или электронной системы во время нормальной работы системы. Среднее время безотказной работы можно рассчитать как среднее арифметическое (среднее) время наработки на отказ системы. Этот термин используется для ремонтируемых систем, в то время как средняя наработка на отказ ( MTTF ) обозначает ожидаемое время до отказа для неремонтопригодной системы.

Определение MTBF зависит от определения того, что считается отказом . Для сложных, ремонтируемых систем отказами считаются те, которые выходят за рамки проектных условий, которые выводят систему из строя и переводят ее в состояние для ремонта. Возникающие сбои, которые можно оставить или поддерживать в неисправленном состоянии, и которые не выводят систему из строя, не считаются сбоями в соответствии с этим определением. Кроме того, блоки, снятые для планового планового обслуживания или управления запасами, не рассматриваются в рамках определения отказа. Чем выше MTBF, тем дольше система может проработать до отказа.

СОДЕРЖАНИЕ

Обзор

Средняя наработка на отказ (MTBF) описывает ожидаемое время между двумя отказами для ремонтируемой системы. Например, три идентичные системы, которые начинают нормально функционировать в момент времени 0, работают до тех пор, пока все они не выйдут из строя. Первая система выходит из строя через 100 часов, вторая - через 120 часов, а третья - через 130 часов. Среднее время наработки на отказ систем составляет 116,667 часов. Если эти системы были невосстанавливаемыми, то их MTTF будет 116.667 часов.

В общем, MTBF - это время безотказной работы между двумя состояниями отказа ремонтируемой системы во время работы, как описано здесь:

Для каждого наблюдения «время простоя» - это мгновенное время, в течение которого оно снизилось, которое после (т. Е. Больше) момента подъема, то есть «времени подъема». Разница («время простоя» минус «время работы») - это количество времени, в течение которого он работал между этими двумя событиями.

Ссылаясь на рисунок выше, среднее время безотказной работы компонента представляет собой сумму длительностей периодов эксплуатации, деленную на количество наблюдаемых отказов:

Аналогичным образом среднее время простоя (MDT) можно определить как

Расчет

Среднее время безотказной работы определяется арифметического среднего значения функции надежности , которая может быть выражена как ожидаемое значение в функции плотности времени до отказа: р ( т ) <\ Displaystyle R (т)>ж ( т )

Любой практически значимый расчет MTBF или вероятностный прогноз отказа на основе MTBF требует, чтобы система работала в течение своего «срока полезного использования», который характеризуется относительно постоянной частотой отказов (средняя часть « кривой ванны »), когда только происходят случайные отказы.

Предположение о постоянной интенсивности отказов приводит к следующей функции плотности отказов:, что, в свою очередь, упрощает вышеупомянутый расчет средней наработки на отказ до обратной величины интенсивности отказов системы. λ <\ displaystyle \ lambda>ж ( т ) знак равно λ е - λ т <\ Displaystyle е (т) = \ лямбда е ^ <- \ лямбда т>>

Обычно используются часы или жизненные циклы. Эта критическая взаимосвязь между средней наработкой на отказ системы и ее интенсивностью отказов позволяет выполнить простое преобразование / расчет, когда одна из двух величин известна и можно предположить экспоненциальное распределение (постоянная интенсивность отказов, т. Е. Отсутствие систематических отказов). MTBF - это ожидаемое значение, среднее или среднее значение экспоненциального распределения.

Как только MTBF системы известна, можно оценить вероятность того, что любая конкретная система будет работать в момент времени, равный MTBF. При условии постоянной интенсивности отказов любая конкретная система выживет до расчетного среднего времени безотказной работы с вероятностью 36,8% (т. Е. Выйдет из строя раньше с вероятностью 63,2%). То же самое относится к MTTF системы, работающей в течение этого периода времени.

Заявление

Значение MTBF можно использовать в качестве параметра надежности системы или для сравнения различных систем или конструкций. Это значение следует понимать только условно как «средний срок службы» (среднее значение), а не как количественное тождество между работающими и вышедшими из строя модулями.

Поскольку MTBF можно выразить как «средний срок службы (ожидаемый срок службы)», многие инженеры предполагают, что 50% элементов выйдут из строя к моменту t = MTBF. Эта неточность может привести к неправильным дизайнерским решениям. Кроме того, вероятностное прогнозирование отказов на основе MTBF подразумевает полное отсутствие систематических отказов (т. Е. Постоянную интенсивность отказов только с собственными случайными отказами), что нелегко проверить. При отсутствии систематических ошибок вероятность того, что система выживет в течение периода T, рассчитывается как exp ^ (- T / MTBF). Следовательно, вероятность отказа системы в течение периода T равна 1 - exp ^ (- T / MTBF).

Прогнозирование значения MTBF - важный элемент в разработке продуктов. Инженеры по надежности и инженеры-конструкторы часто используют программное обеспечение для расчета MTBF продукта в соответствии с различными методами и стандартами (MIL-HDBK-217F, Telcordia SR332, Siemens Norm, FIDES, UTE 80-810 (RDF2000) и т. Д.). Руководство по калькулятору надежности Mil-HDBK-217 в сочетании с программным обеспечением RelCalc (или другим аналогичным инструментом) позволяет прогнозировать показатели надежности наработки на отказ на основе конструкции.

Понятие, которое тесно связано с MTBF и важно при вычислениях, связанных с MTBF, - это среднее время простоя (MDT). MDT можно определить как среднее время, в течение которого система не работает после сбоя. Обычно MDT считается отличным от MTTR (Среднее время восстановления); в частности, MDT обычно включает организационные и логистические факторы (такие как рабочие дни или ожидание доставки компонентов), в то время как MTTR обычно понимается как более узкий и более технический.

MTBF и MDT для сетей компонентов

Два компонента (например, жесткие диски, серверы и т. Д.) Могут быть расположены в сети последовательно или параллельно . Терминология здесь используется по аналогии с электрическими цепями, но имеет несколько иное значение. Мы говорим, что два компонента соединены последовательно, если отказ одного из них вызывает отказ сети, и что они работают параллельно, если отказ обоих вызывает отказ сети. Среднее время безотказной работы результирующей двухкомпонентной сети с ремонтируемыми компонентами можно вычислить по следующим формулам, предполагая, что среднее время безотказной работы обоих отдельных компонентов известно: c 1 , c 2 <\ displaystyle c_ <1>, c_ <2>>

где - сеть, в которой компоненты расположены последовательно. c 1 ; c 2 <\ displaystyle c_ <1>; c_ <2>>

Для сети, содержащей параллельные ремонтируемые компоненты, чтобы узнать MTBF всей системы, в дополнение к MTBF компонентов, также необходимо знать их соответствующие MDT. Затем, предполагая, что MDT незначительны по сравнению с MTBF (что обычно имеет место на практике), MTBF для параллельной системы, состоящей из двух параллельных ремонтируемых компонентов, можно записать следующим образом:

где - сеть, в которой компоненты расположены параллельно, - вероятность отказа компонента во время «окна уязвимости» . c 1 ∥ c 2 <\ displaystyle c_ <1>\ parallel c_ <2>> п F ( c , т ) <\ displaystyle PF (c, t)>c <\ displaystyle c>т

Интуитивно обе эти формулы можно объяснить с точки зрения вероятностей отказа. Прежде всего, отметим, что вероятность отказа системы в течение определенного периода времени является обратной величиной ее MTBF. Затем, при рассмотрении ряда компонентов, отказ любого компонента приводит к отказу всей системы, поэтому (при условии, что вероятности отказа малы, что обычно имеет место) вероятность отказа всей системы в пределах заданного интервала может быть равна аппроксимируется как сумма вероятностей отказа компонентов. С параллельными компонентами ситуация немного сложнее: вся система выйдет из строя тогда и только тогда, когда после отказа одного из компонентов произойдет сбой другого компонента во время ремонта первого компонента; Здесь в игру вступает MDT: чем быстрее будет восстановлен первый компонент, тем меньше «окно уязвимости» для другого компонента.

Используя аналогичную логику, MDT для системы из двух последовательных компонентов можно рассчитать как:

а для системы из двух параллельных компонентов MDT можно рассчитать как:

Последовательно применяя эти четыре формулы, можно вычислить MTBF и MDT любой сети ремонтируемых компонентов при условии, что MTBF и MDT известны для каждого компонента. В особом, но очень важном случае нескольких последовательных компонентов расчет MTBF можно легко обобщить до

что можно показать по индукции, и аналогично

поскольку формула для mdt двух компонентов, включенных параллельно, идентична формуле mtbf для двух компонентов, включенных последовательно.

Варианты MTBF

Существует множество вариаций MTBF, таких как среднее время между сбоями системы (MTBSA), среднее время между критическими сбоями (MTBCF) или среднее время между незапланированным удалением (MTBUR). Такая номенклатура используется, когда желательно различать типы отказов, такие как критические и некритические отказы. Например, в автомобиле отказ FM-радио не препятствует основной работе автомобиля.

Рекомендуется использовать Среднее время наработки на отказ (MTTF) вместо MTBF в случаях, когда система заменяется после отказа («неремонтируемая система»), поскольку MTBF обозначает время между отказами в системе, которую можно отремонтировать.

MTTFd является расширением MTTF и касается только сбоев, которые могут привести к опасному состоянию. Его можно рассчитать следующим образом:

где B 10 - количество операций, которые устройство будет выполнять до того, как 10% выборки этих устройств выйдут из строя, а n op - количество операций. B 10d - тот же расчет, но где 10% образца не будут опасны. n op - количество операций / цикл за один год.

MTBF с учетом цензуры

Фактически, MTBF, учитывающий только отказы с по крайней мере некоторыми еще работающими системами, которые еще не вышли из строя, недооценивает MTBF, поскольку не включает в вычисления частичные сроки службы систем, которые еще не вышли из строя. Все, что мы знаем о таких сроках службы, - это то, что время до отказа превышает время, в течение которого они работали. Это называется цензурой . Фактически, с параметрической моделью продолжительности жизни вероятность возникновения опыта в любой день такова :

Для постоянного экспоненциального распределения опасность,, постоянна. В этом случае MBTF λ

Среднее время безотказной работы = , 1 / λ ^ знак равно ∑ ты я / k <\ displaystyle 1 / <\ hat <\ lambda>> = \ sum u_ / k>

где - оценка максимального правдоподобия , максимизирующая правдоподобие, указанное выше. λ ^ <\ displaystyle <\ hat <\ lambda>>> λ

Мы видим, что разница между MTBF, учитывающим только отказы, и MTBF, включая цензурированные наблюдения, заключается в том, что время цензуры добавляется к числителю, но не к знаменателю при вычислении MTBF.

Самая большая проблема SSD — срок службы меньше (в связи с износом твердотельного накопителя), чем у традиционных HDD и гибридных устройств.

Каждый раз, когда ваши данные записываются в ячейку NAND, она слегка вырабатывается. При достижении критического количества циклов записи та самая «измочаленная» ячейка NAND в конечном итоге потерпит неудачу завершения операции.

Понимание реального срока службы SSD-накопителя поможет организации определить, когда переход на такой формат хранения данных оправдан, а когда нет.

До сих пор не появилось единого мнения, как точно посчитать сколько живёт SSD, то есть когда именно он выйдет из строя. Тем не менее, алгоритм действий по определению потенциала той или иной модели накопителя существует. Поделился им Брайен Поузи (Brien Posey) — вице-президент Relevant Technologies по исследованиям и разработкам в области ИТ.

Мы приведём несколько цитат Брайана и основы его подхода в определении времени, сколько живут SSD-диски любых моделей и производителей.

Почему так сложно узнать срок службы SSD?

SSD служит меньше, чем HDD — вы тоже так считаете? Это мнение так распространено, что обратному никто и не поверит.

Производители не спешат указывать какие-то конкретные цифры — ведь устоявшихся стандартов в этой области не появилось. А значит, если каждый будет указывать «отсебятину», то и конкурентная борьба выльется в совершенно бессмысленную гонку вооружений.

«Большинство людей согласны с тем, что твердотельные накопители достаточно надёжны для массового использования, но я иногда читал сообщения в блогах, что современные твердотельные накопители гораздо более долговечны , чем даже самые лучшие жёсткие диски», — говорит Брайан .

Разные классы накопителей отличаются и по характеристикам, и по надёжности. Например, диск SLC, как правило, обладает гораздо большей долговечностью, чем диск QLC. Эксплуатация тоже играет немаловажную роль при определении срока службы: приложения с интенсивной записью ухудшают работу SSD гораздо быстрее, чем приложения, которые выполняют только случайные записи (те же резервные копии).

Всё это практически невозможно предсказать производителю. И всё-таки зная свои цели и привычки, вы способны прикинуть перспективы перехода на твердотельные накопители вполне самостоятельно. Уделим этому моменту особое внимание.

Как определить, сколько живет SSD?

Попробуйте научиться определять, сколько осталось SSD жить в вашей существующей системе или каковы перспективы проработать у выбранной модели как можно дольше. При помощи объяснений, предложенных Брайаном, вам потребуются лишь трое точных сведений.

  • Program/Erase Cycles — количество циклов операций
  • TBW — сколько можно записать терабайт данных
  • DWPD — как много раз вы перезаписываете диск в день

I. Показатели от производителя

Количество циклов операций (program/erase cycles), которым подвергается устройство — это значение, которое стараются предложить производители в качестве основного параметра срока службы SSD. Но только с этими цифрами невозможно даже отдалённо спрогнозировать, когда диск выйдет из строя, как мы и сказали выше. Но без него вы тоже не сможете сделать сколь-нибудь честную оценку.

II. Количество гарантированных операций

Два других более важных фактора, которые нужно изучить — это общее количество терабайт записи (TBW) и число операций записи на диске в день (DWPD). Производитель накопителя предоставит вам сведения об общем количестве терабайт, которые, по его проектным оценкам, должны записаться в течение гарантированного срока службы.

«Например, компьютер, который я сейчас использую, имеет диск объёмом 1 ТБ. По словам производителя, диск имеет показатель Terabytes Written (TBW) 500. Это означает, что в течение срока службы накопителя я могу рассчитывать на запись в него около 500 терабайт данных», — объясняет Брайан .

На практике это совсем не гарантированные 500 циклов операций записи и стирания на ячейку, как можно подумать изначально. Большинство производителей имеют дополнительные резервные ячейки NAND на диске. Эти дополнительные «клетки под данные» могут быть использованы вместо сильно изношенных (эдакий запас прочности для увеличения срока службы SSD).

«Другими словами, это некая оценка того, как можно использовать диск. Например, вы записываете 2 ТБ в день на диск объёмом 1 ТБ — получается около 2 операций записи в день. Если диск поддерживает 500 TBW, а вы выполняете на нём 2 операции перезаписи в день (DWPD) при ёмкости 1 ТБ (всего выходит около 2 ТБ в день), то диск должен работать примерно 8 месяцев (500 TBW / 2 TB в день = 250 дней)», — с наглядным примером Брайан раскрывает секреты определения, сколько служит SSD.

Имейте в виду, что оценка выходит приблизительная! Некий ожидаемый диапазон долговечности ячеек NAND. Например, «ожидается, что диск TLC с 3D NAND будет поддерживать от 1500 до 3000 циклов записи».

Рассчитанная цифра, на сколько хватит SSD, грубая оценка ещё и потому, что файловые хранилища редко используются столь линейно и равномерно. Даже при выравнивании износа (путём специального ПО для твердотельных накопителей, например) некоторые области диска всё равно могут записываться чаще, чем другие.

Показатель среднего времени наработки на отказ у SSD

При определении надёжности диска не стоит пренебрегать характеристикой среднего времени до отказа, когда его производитель рассчитывает и указывает на основании результатов испытаний на выносливость.

«Например, накопитель Western Digital WDS100T2BOA имеет значение 1,75 миллиона часов. Это не значит, что средняя продолжительность жизни диска здесь составляет 200 лет (1 750 000 часов). Среднее время до отказа определяется как количество часов общего обслуживания всех устройств, разделённое на количество таких устройств», — замечает эксперт.

Никто точно не знает, каковы были особенности тестов Western Digital в данном случае. Но есть основное предположение того, откуда могло прийти значение среднего времени наработки на отказ в 1,75 миллиона часов.

Среднее время наработки на отказ у SSD учитывает:

  • количество тестируемых устройств,
  • часы тестирования,
  • число отказавших устройств.

Предположим, что Western Digital решила протестировать 17 500 твердотельных накопителей, тестирование длилось 5000 часов (примерно семь месяцев) и во время теста отказали, например, 50 дисков. Вот как сработает математика:

17 500 дисков * 5 000 часов тестирования каждого / 50 отказов = 1 750 000

Этот расчет даст значение среднего времени наработки на отказ 1,75 миллиона часов. Значение не может даже примерно показать, на сколько лет хватит SSD. Но диски с более высоким значением «Среднее время наработки на отказ», вероятно, более надёжны, чем диски с низким значением, верно?

Компания ZEL-Услуги

Любые манипуляции с компьютерами для офиса, сервера или коммерческих целей, разумеется, составляют сейчас большой риск для бюджета фирмы. Передайте заботы об ИТ-оборудовании в компанию ИТ-аутсорсинга с экспертной поддержкой и консультацией по любым техническим вопросам и задачам.

НАДЕЖНОСТЬ В ТЕХНИКЕ

Термины и определения

Industrial product dependability. General concepts.
Terms and definitions

Дата введения 1990-07-01

1. РАЗРАБОТАН И ВНЕСЕН Институтом машиноведения АН СССР, Межотраслевым научно-техническим комплексом "Надежность машин" и Государственным Комитетом СССР по управлению качеством продукции и стандартам

2. УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Постановлением Государственного комитета СССР по стандартам от 15.11.89 N 3375

3. ВВЕДЕН ВПЕРВЫЕ

4. ССЫЛОЧНЫЕ НОРМАТИВНО-ТЕХНИЧЕСКИЕ ДОКУМЕНТЫ

Обозначение НТД, на который даны ссылки

Вводная часть, 5.1, 5.3

Настоящий стандарт устанавливает основные понятия, термины и определения понятий в области надежности.

Настоящий стандарт распространяется на технические объекты (далее - объекты).

Термины, устанавливаемые настоящим стандартом, обязательны для применения во всех видах документации и литературы, входящих в сферу действия стандартизации или использующих результаты этой деятельности.

Настоящий стандарт должен применяться совместно с ГОСТ 18322.

1. Стандартизованные термины с определениями приведены в табл.1.

2. Для каждого понятия установлен один стандартизованный термин.

Применение терминов-синонимов стандартизованного термина не допускается.

2.1. Для отдельных стандартизованных терминов в табл.1 приведены в качестве справочных краткие формы, которые разрешается применять в случаях, исключающих возможность их различного толкования.

2.2. Приведенные определения можно при необходимости изменять, вводя в них производные признаки, раскрывая значение используемых в них терминов, указывая объекты, входящие в объем определяемого понятия. Изменения не должны нарушать объем и содержание понятий, определенных в данном стандарте.

2.3. В случаях, когда в термине содержатся все небходимые и достаточные признаки понятия, определение не приведено и в графе "Определение" поставлен прочерк.

2.4. В табл.1 в качестве справочных приведены эквиваленты стандартизованных терминов на английском языке.

3. Алфавитные указатели содержащихся в стандарте терминов на русском языке и их английских эквивалентов приведены в табл.2-3.

4. Стандартизованные термины набраны полужирным шрифтом, их краткая форма - светлым.

5. В приложении даны пояснения к терминам, приведенным в настоящем стандарте.

1. ОБЩИЕ ПОНЯТИЯ

1.1. Надежность
Reliability, dependability

Свойство объекта сохранять во времени в установленных пределах значения всех параметров, характеризующих способность выполнять требуемые функции в заданных режимах и условиях применения, технического обслуживания, хранения и транспортирования.

Примечание. Надежность является комплексным свойством, которое в зависимости от назначения объекта и условий его применения может включать безотказность, долговечность, ремонтопригодность и сохраняемость или определенные сочетания этих свойств

1.2. Безотказность
Reliability, failure-free operation

Свойство объекта непрерывно сохранять работоспособное состояние в течение некоторого времени или наработки.

1.3. Долговечность
Durability, longevity

Свойство объекта сохранять работоспособное состояние до наступления предельного состояния при установленной системе технического обслуживания и ремонта

1.4. Ремонтопригодность Maintainability

Свойство объекта, заключающееся в приспособленности к поддержанию и восстановлению работоспособного состояния путем технического обслуживания и ремонта

1.5. Сохраняемость
Storability

Свойство объекта сохранять в заданных пределах значения параметров, характеризующих способности объекта выполнять требуемые функции, в течение и после хранения и (или) транспортирования

2. СОСТОЯНИЕ

2.1. Исправное состояние
Исправность
Good state

Состояние объекта, при котором он соответствует всем требованиям нормативно-технической и (или) конструкторской (проектной) документации

2.2. Неисправное состояние Неисправность
Fault, faulty state

Состояние объекта, при котором он не соответствует хотя бы одному из требований нормативно-технической и (или) конструкторской (проектной) документации

2.3. Работоспособное состояние Работоспособность
Up state

Состояние объекта, при котором значения всех параметров, характеризующих способность выполнять заданные функции, соответствуют требованиям нормативно-технической и (или) конструкторской (проектной) документации

2.4. Неработоспособное состояние
Неработоспособность
Down state

Состояние объекта, при котором значение хотя бы одного параметра, характеризующего способность выполнять заданные функции, не соответствует требованиям нормативно-технической и (или) конструкторской (проектной) документации.

Примечание. Для сложных объектов возможно деление их неработоспособных состояний. При этом из множества неработоспособных состояний выделяют частично неработоспособные состояния, при которых объект способен частично выполнять требуемые функции

2.5. Предельное состояние Limiting state

Состояние объекта, при котором его дальнейшая эксплуатация недопустима или нецелесообразна, либо восстановление его работоспособного состояния невозможно или нецелесообразно

2.6. Критерий предельного состояния
Limiting state criterion

Признак или совокупность признаков предельного состояния объекта, установленные нормативно-технической и (или) конструкторской (проектной) документацией.

Примечание. В зависимости от условий эксплуатации для одного и того же объекта могут быть установлены два и более критериев предельного состояния

3. ДЕФЕКТЫ, ПОВРЕЖДЕНИЯ, ОТКАЗЫ

3.1. Дефект
Defect

3.2. Повреждение
Damage

Событие, заключающееся в нарушении исправного состояния объекта при сохранении работоспособного состояния

3.3. Отказ
Failure

Событие, заключающееся в нарушении работоспособного состояния объекта

3.4. Критерий отказа
Failure criterion

Признак или совокупность признаков нарушения работоспособного состояния объекта, установленные в нормативно-технической и (или) конструкторской (проектной) документации

3.5. Причина отказа
Failure cause

Явления, процессы, события и состояния, вызвавшие возникновение отказа объекта

3.6. Последствия отказа
Failure effect

Явления, процессы, события и состояния, обусловленные возникновением отказа объекта

3.7. Критичность отказа
Failure criticality

Совокупность признаков, характеризующих последствия отказа.

Примечание. Классификация отказов по критичности (например по уровню прямых и косвенных потерь, связанных с наступлением отказа, или по трудоемкости восстановления после отказа) устанавливается нормативно-технической и (или) конструкторской (проектной) документацией по согласованию с заказчиком на основании технико-экономических соображений и соображений безопасности

3.8. Ресурсный отказ
Marginal failure

Отказ, в результате которого объект достигает предельного состояния

3.9. Независимый отказ
Primary failure

Отказ, не обусловленный другими отказами

3.10. Зависимый отказ
Secondary failure

Отказ, обусловленный другими отказами

3.11. Внезапный отказ
Sudden failure

Отказ, характеризующийся скачкообразным изменением значений одного или нескольких параметров объекта

3.12. Постепенный отказ
Gradual failure

Отказ, возникающий в результате постепенного изменения значений одного или нескольких параметров объекта

3.13. Сбой
Interruption

Самоустраняющийся отказ или однократный отказ, устраняемый незначительным вмешательством оператора

3.14. Перемежающийся отказ
Intermittent failure

Многократно возникающий самоустраняющийся отказ одного и того же характера

3.15. Явный отказ
Explicit failure

Отказ, обнаруживаемый визуально или штатными методами и средствами контроля и диагностирования при подготовке объекта к применению или в процессе его применения по назначению

3.16. Скрытый отказ
Latent failure

Отказ, не обнаруживаемый визуально или штатными методами и средствами контроля и диагностирования, но выявляемый при проведении технического обслуживания или специальными методами диагностики

3.17. Конструктивный отказ
Design failure

Отказ, возникший по причине, связанной с несовершенством или нарушением установленных правил и (или) норм проектирования и конструирования

3.18. Производственный отказ
Manufacturing failure

Отказ, возникший по причине, связанной с несовершенством или нарушением установленного процесса изготовления или ремонта, выполняемого на ремонтном предприятии

3.19. Эксплуатационный отказ
Misuse failure, mishandling failure

Отказ, возникший по причине, связанной с нарушением установленных правил и (или) условий эксплуатации

3.20. Деградационный отказ
Wear-out failure, ageing failure

Отказ, обусловленный естественными процессами старения, изнашивания, коррозии и усталости при соблюдении всех установленных правил и (или) норм проектирования, изготовления в эксплуатации

4. ВРЕМЕННЫЕ ПОНЯТИЯ

4.1. Наработка
Operating time

Продолжительность или объем работы объекта.

Примечание. Наработка может быть как непрерывной величиной (продолжительность работы в часах, километраж пробега и т.п.), так и целочисленной величиной (число рабочих циклов, запусков и т.п.).

4.2. Наработка до отказа
Operating time to failure

Наработка объекта от начала эксплуатации до возникновения первого отказа

4.3. Наработка между отказами
Operating time between failures

Наработка объекта от окончания восстановления его работоспособного состояния после отказа до возникновения следующего отказа

Понятиям MTTF (Mean Time To Failure — среднее время до отказа) и другим терминам теории надежности посвящено большое количество статей, в том числе на Хабре (см., например, тут). Вместе с тем, редкие публикации «для широкого круга читателей» затрагивают вопросы математической статистики, и уж тем более они не дают ответа на вопрос о принципах расчета надежности электронной аппаратуры по известным характеристикам ее составных элементов.

В последнее время мне довольно много приходится работать с расчетами надежности и рисков, и в этой статье я постараюсь восполнить этот пробел, отталкиваясь от своего предыдущего материала (из цикла о машинном обучении) о пуассоновском случайном процессе и подкрепляя текст вычислениями в Mathcad Express, повторить которые вы сможете скачав этот редактор (подробно о нем тут, обратите внимание, что нужна последняя версия 3.1, как и для цикла по machine learning). Сами маткадовские расчеты лежат здесь (вместе с XPS- копией).

1. Теория: основные характеристики отказоустойчивости
Вроде бы, из самого определения (Mean Time To Failure) понятен его смысл: сколько (конечно, в среднем, поскольку подход вероятностный) прослужит изделие. Но на практике такой параметр не очень полезен. Действительно, информация о том, что среднее время до отказа жесткого диска составляет полмиллиона часов, может поставить в тупик. Гораздо информативнее другой параметр: вероятность поломки или вероятность безотказной работы (ВБР) за определенный период (например, за год).

Для того чтобы разобраться в том, как связаны эти параметры, и как, зная MTTF, вычислить ВБР и вероятности отказа, вспомним некоторые сведения из математической статистики.

Ключевое понятие теории надежности — это понятие отказа, измеряемое, соответственно, интервальным показателем
Q(t) = вероятность того, что изделие откажет к моменту времени t.
Соотвественно, вероятность безотказной работы (ВБР, в английской терминологии «reliability»):
P(t) = вероятность того, что изделие проработает без отказа от момента t0=0 до момента времени t.
По определению, в момент t0=0 изделие находится в работоспособном состоянии, т.е. Q(0)=0, а P(0)=1.

Оба параметра — это интервальные характеристики отказоустойчивости, т.к. речь идет о вероятности отказа (или наоборот, безотказной работы) на интервале (0,t). Если отказ рассматривать, как случайное событие, то, очевидно, что Q(t) — это, по определению, его функция распределения. А точечную характеристику можно определить, как
p(t)=dQ(t)/dt = плотность вероятности, т.е. значение p(t)dt равно вероятности, что отказ произойдет в малой окрестности dt момента времени t.

И, наконец, самая важная (с практической точки зрения) характеристика: λ(t)=p(t)/P(t)=интенсивность отказов.
Это (внимание!) условная плотность вероятности, т.е. плотность вероятности возникновения отказа в момент времени t при условии, что до этого рассматриваемого момента времени t изделие работало безотказно.

Измерить параметр λ(t) экспериментально можно путём испытания партии изделий. Если к моменту времени t работоспособность сохранило N изделий, то за оценку λ(t) можно принять процент отказов в единицу времени, происходящих в окрестности t. Точнее, если в период от t до t+dt откажет n изделий, то интенсивность отказов будет примерно равна
λ(t)=n/(N*dt).

Именно эта λ-характеристика (в пренебрежении ее зависимостью от времени) и приводится чаще всего в паспортных данных различных электронных компонент и самых разных изделий. Только сразу возникает вопрос: а как вычислить вероятность безотказной работы и при чем здесь среднее время до отказа (MTTF).

2. Экспоненциальное распределение
В терминологии, которую мы только что использовали, пока не было никаких предположений о свойствах случайной величины — момента времени, в который происходит отказ изделия. Давайте теперь конкретизируем функцию распределения значения отказа, выбрав в качестве нее экспоненциальную функцию с единственным параметром λ=const (смысл которого будет ясен через несколько предложений).


Дифференцируя Q(t), получим выражение для плотности вероятности экспоненциального распределения:

,
а из него – функцию интенсивности отказов: λ(t)=p(t)/P(t)=const=λ.

Что мы получили? Что для экспоненциального распределения интенсивность отказов – есть величина постоянная, причем совпадающая с параметром распределения. Этот параметр и является главным показателем отказоустойчивости и его часто так и называют λ-характеристикой.

Мало того, если теперь посчитать среднее время до первого отказа – тот самый параметр MTTF (Mean Time To Failure), то мы получим, что он равен MTTF=1/ λ.

image

  • надежность элементов можно оценить одним числом, т.к. λ=const;
  • по известной λ довольно просто оценить остальные показатели надежности (например, ВБР для любого времени t);
  • λ обладает хорошей наглядностью
  • λ нетрудно измерить экспериментально

Но это еще не все, потому, что для экспоненциального распределения особенно легко делать расчет систем, состоящих из множества элементов. Но об этом – в следующей статье (продолжение следует).

В современном быстро меняющемся цифровом мире для предприятий стало критически важным измерять и отслеживать эффективность предоставления услуг, особенно управление происшествиями показатели, которые отслеживают время безотказной работы систем, время простоя из-за сбоев, а также то, насколько быстро и эффективно решаются проблемы, потому что даже небольшой сбой в системе может вызвать нарушение бизнес-процессов на миллионы долларов.

MTTR, MTBF, MTTF и MTTA - это аббревиатуры некоторых наиболее важных показателей управления инцидентами. В области управления ИТ-услугами эти сокращения помогают организациям планировать свои ресурсы, чтобы гарантировать, что они могут решить проблемы, вызванные сбоями в аппаратном и программном обеспечении. Полные формы следующие:

  • Среднее время ремонта
  • Среднее время между сбоями
  • Среднее время до отказа
  • Среднее время подтверждения

Давайте углубимся в каждую метрику.


Что такое среднее время ремонта (MTTR)?

Среднее время восстановления (MTTR) - это среднее время, необходимое для восстановления системы и восстановления ее полной функциональности. Расчет MTTR начинается после начала ремонта и продолжается до полного восстановления нарушенных служб, включая любое необходимое время тестирования.

В Управление ИТ-услугами промышленность, R в MTTR не всегда символизирует ремонт. Это также может означать выздоровление, ответ или решение. Несмотря на то, что все эти показатели соответствуют друг другу, они имеют свои последствия, поэтому всегда полезно уточнить, какой MTTR следует использовать. Давайте кратко рассмотрим, что означает каждое из них.

  • Среднее время восстановления (MTTR) - это среднее время, необходимое для восстановления после поломки устройства или системы. Это охватывает весь процесс от отключения из-за простоя до момента, когда система снова станет полностью работоспособной. MTTR - хороший индикатор для измерения скорости общего процесса восстановления.
  • Среднее время ответа (MTTR) - это среднее время, необходимое для восстановления после сбоя системы с момента получения первого предупреждения о сбое, не включая задержку в системе предупреждений. Этот MTTR обычно используется в сфере кибербезопасности для измерения эффективности команды в отражении системных атак.
  • Среднее время решения (MTTR) представляет собой среднее время, затрачиваемое на полное устранение неисправности системы, включая время, необходимое для обнаружения неисправности, диагностики проблемы и решения проблемы, убедившись, что неисправность больше не повторится. Этот показатель MTTR в основном используется для измерения процесса разрешения непредвиденных инцидентов, а не запросов на обслуживание.

Как вы рассчитываете MTTR?

Поскольку MTTR - это показатель управления инцидентами, который ИТ-команды используют для отслеживания ремонта, предприятиям следует стремиться к тому, чтобы значение MTTR было как можно ниже. Это достижимо за счет повышения производительности бригад, выполняющих ремонтные работы. MTTR можно рассчитать следующим образом:

MTTR = общее время, затраченное на ремонт в течение данного периода / количество ремонтов

Предположим, что в системе было 6 сбоев, и обслуживание, необходимое для восстановления системы до полной функциональности, заняло 3 часа, что составляет 180 минут. Итак, MTTR будет,

MTTR = 180/6 = 30 минут

Это означает, что MTTR организации составляет 30 минут, то есть время, которое в среднем организация тратит на каждый простой.

Что такое среднее время наработки на отказ (MTBF)?

Среднее время наработки на отказ (MTBF) - это среднее время, прошедшее между ремонтируемым отказом оборудования и его следующим возникновением. Среднее время безотказной работы измеряет доступность и надежность, поэтому чем выше значение MTBF, тем надежнее система.

Среднее время безотказной работы - это показатель, который помогает клиентам принимать обоснованные решения о том, когда обновлять систему или вводить оборудование в эксплуатацию. Если после фазы профилактического обслуживания среднее время безотказной работы улучшилось, это говорит о повышении надежности оборудования. Увеличение MTBF также демонстрирует эффективность процессов обслуживания.

Как вы рассчитываете MTBF?

MTBF - это время, прошедшее от одного отказа до следующего. Математически это можно рассчитать следующим образом:

Среднее время безотказной работы = общее время безотказной работы между отказами / общее количество отказов

Предположим, система отлично работает 13 часов. В течение этого периода произошло 3 отказа, в результате чего общее время простоя составило 1 час. Итак, MTBF будет,

Среднее время безотказной работы = (13-1) / 3 = 4 часа

Эта цифра означает, что сбой в системе происходит каждые 4 часа, что приводит к отключению системы и убыткам для организации. Отслеживание этого показателя может помочь спланировать стратегии, которые могут сократить время простоя.

Поскольку MTBF используется для отслеживания надежности, оно отражает только непредвиденные простои и не учитывает возможные простои во время планового обслуживания.

Как мы упоминали ранее, MTBF используется для отслеживания отказов в ремонтируемых системах. Для отслеживания отказов, требующих замены системы, используется показатель, называемый «Среднее время до отказа» (MTTF).

Что такое среднее время до отказа (MTTF)?

Средняя наработка до отказа (MTTF) - это среднее время, прошедшее между неисправимыми отказами оборудования. MTTF измеряет надежность неремонтопригодных систем и показывает время, в течение которого система, как ожидается, будет функционировать до полного отказа.

MTTF - важный показатель, используемый для измерения срока службы заменяемого или неремонтопригодного оборудования, такого как клавиатуры, батареи, настольные телефоны, мыши и т. Д. Исторические данные о MTTF каждого типа оборудования позволяют ИТ-специалистам поэтапно планировать устаревание.

Поскольку метрика используется для определения того, как долго обычно прослужит система, определение того, превосходит ли новая версия системы старую, также поможет понять ожидаемый срок службы и время планирования проверок системы.

Как вы рассчитываете MTTF?

Среднее время безотказной работы является основным показателем надежности оборудования, не подлежащего ремонту, поэтому цель состоит в том, чтобы увеличить срок службы актива. Более короткий MTTF приводит к частым простоям и сбоям. Для расчета MTTF используйте следующую формулу:

MTTF = общее количество часов работы / общее количество отказов

Предполагая, что мы должны исследовать три идентичные системы, пока все они не откажутся. Первая система проработала 14 часов, вторая - 16 часов, а третья - 12 часов. MTTF в этом случае будет,

MTTF = (14 + 16 + 12) / 3 = 14 часов.

Это означает, что данный тип системы в среднем необходимо заменять каждые 14 часов, чтобы предотвратить более длительные простои и последующие повреждения.

Что такое среднее время подтверждения (MTTA)?

Среднее время на подтверждение (MTTA) - это среднее время, которое требуется организации для ответа на жалобы, отключения или инциденты во всех отделах. В управление происшествиями метрика MTTA используется для отслеживания реакции службы поддержки и эффективности системы оповещений.

Медленное реагирование может снизить эффективность сотрудников, когда внутренние системы сталкиваются с проблемами и стоит организациям денег. Отслеживая и минимизируя MTTA, организации могут оптимизировать свои процессы, повысить удовлетворенность клиентов и увеличить прибыль.

Как вы рассчитываете MTTA?

MTTA - полезная мера для контроля скорости отклика. Если команда слишком долго отвечает и страдает от усталости от предупреждений, этот показатель поможет выявить проблему. Для расчета MTTA используйте следующее математическое представление:

MTTA = общее время, прошедшее между предупреждением и подтверждением / общее количество инцидентов

Допустим, в организации произошло 5 инцидентов, и между предупреждением и подтверждением для всех инцидентов прошло в общей сложности 30 минут, тогда MTTA будет

MTTA = 30/5 = 6 минут

Это означает, что MTTA для организации составляет 6 минут, и организация должна работать над сокращением этого времени, чтобы оптимизировать процесс разрешения проблем.

Заключение

Подводя итог, можно сказать, что среднее время восстановления (MTTR) - это мера, с помощью которой вы можете увидеть, как быстро вы можете вернуть неисправное оборудование в рабочее состояние. Среднее время наработки на отказ (MTBF) дает вам представление о том, насколько эффективна ваша группа поддержки в минимизации или предотвращении надвигающихся инцидентов. Используя метрическую среднюю наработку до отказа (MTTF), вы можете определить срок службы системы или оборудования. Наконец, среднее время для подтверждения (MTTA) - ценный показатель, с помощью которого вы можете отслеживать реакцию вашей группы ИТ-поддержки.

Теперь, когда вы понимаете эти метрики инцидентов в деталях, вы поймете, что каждая метрика предлагает разные точки зрения. При одновременном использовании эти мощные показатели могут дать более глубокое представление о том, как ваша группа поддержки управляет перебоями в обслуживании, и помочь вам снизить потери из-за неэффективности и проблем с качеством. Чтобы узнать больше о том, какие другие показатели управления услугами вы должны отслеживать, прочитайте нашу статью 7 важных показателей службы поддержки для измерения.

Читайте также: