Разделы
ИБП AC SOHO (230В) (24)
ИБП AC Power (400В) (339)
Опции к ИБП AC (356)
Распределение питания (29)
Батареи для ИБП (55)
Полный список товаров
Производители
AEG Power Solutions
APC
BB Battery
CSB
Delta Energy Systems
Eaton
Emerson Network Power
EnerSys AD
Exide Technologies
Fiamm
GE
NorthStar
Panasonic
Power Battery Company, Inc..
Riello UPS
Tripp-lite
Yuasa
Статьи
Новые статьи (0)
Тестирования
ИБП (10)
ЦОД (5)
Последние новости
RSS-канал новостей  RSS-канал новостей
Валюта
10 главных ошибок в эксплуатации ЦОДа
Автор: Боб Вулли
Статья компании: APC

 Введение

 

«Пришло время, когда компаниям необходимо проанализировать свои программы эксплуатации центров обработки данных. Им нужно четко сформулировать эксплуатационные требования и разработать программу эксплуатации, учитывающую структуру рисков для ЦОДа.» 

В отрасли центров обработки данных на протяжении многих лет считается общепризнанным тот факт, что основной причиной простоев ЦОДа являются не проблемы, связанные с их проектированием, и не технические недостатки, а ошибки операторов.(Стивен Элиот, старший аналитик компании IDC по управлению сетями и службами, 2004; Донна Скотт, вице-президент и руководитель научно-исследовательских работ, «Передовой опыт управления изменениями в процессе эксплуатации», Gartner,  2003). Этот факт нашел отражение в стандартах эксплуатационной устойчивости (Tier Standards on Operational Sustainability) организации Uptime Institute. По мере распространения данных рейтингов в отрасли регулирующие органы, страховщики и конечные пользователи будут уделять все больше внимания эксплуатации ЦОДов.

Пришло время, когда компаниям необходимо проанализировать свои программы эксплуатации центров обработки данных. Им нужно четко сформулировать эксплуатационные требования и разработать программу эксплуатации, учитывающую структуру рисков для ЦОДа. Однако создать программу эксплуатации, отвечающую самым высоким отраслевым стандартам, нелегко (особенно, если критически важные инженерные системы не являются основной сферой деятельности компании).

Многочисленные консультанты, работающие в данной сфере, способны помочь сориентироваться, но лишь немногие из них обладают знаниями в сфере центров обработки данных и критически важных систем, необходимыми для достижения эксплуатационной устойчивости. В информационной статье № 145 «9 главных ошибок, совершаемых при планировании центров обработки данных» рассматриваются основные ошибки, которые компании совершают при создании или расширении ЦОДов. Здесь же мы рассмотрим десять самых серьезных ошибок, которые вы можете совершить на следующем этапе — эксплуатации центра обработки данных.

Главные ошибки

 

«Многочисленные консультанты, работающие в данной сфере, способны помочь сориентироваться, но лишь немногие из них обладают знаниями в сфере центров обработки данных и критически важных систем, необходимыми для достижения эксплуатационной устойчивости»

 

Большая ошибка № 1: специалисты по эксплуатации не принимают участие в проектировании объекта

 

Первым шагом к созданию центра обработки данных с максимальной эффективностью, минимальными затратами и высоким КПД является использование подхода, основанного на совокупной стоимости владения (TCO): при его применении капитальные и текущие затраты будут согласованы с потребностями компании. Частью этой процедуры является определение критериев проектирования и параметров производительности специально для вашей организации.

Наш опыт свидетельствует о том, что при исключении специалистов по эксплуатации из процедуры проектирования объекта часто возникает необходимость внесения изменений и ремонта. Например, нам приходилось вносить изменения в совершенно новый ЦОД из-за перечисленных ниже причин.

1. После ряда ремонтных операций выяснилось, что распределительная сеть неверно спроектирована.

2. Генераторы были спроектированы и установлены таким образом, что простые операции по обслуживанию превращались в проблему.

3. Устройства для кондиционирования воздуха не обеспечивали подачи нужного количества воздуха в ЦОД ввиду изъянов в проекте здания.

Этих ошибок можно избежать, если в ходе проектирования рассматривать проект также и с точки зрения программы эксплуатации. Добавление оператора на этапе проектирования позволяет строить систему с учетом интересов конечного пользователя. В этом и заключается сущность подхода, основанного на учете совокупной стоимости владения.

Большая ошибка № 2: излишняя уверенность в проектном решении центра обработки данных

 

«При исключении специалистов по эксплуатации из процедуры проектирования объекта часто возникает необходимость внесения изменений и ремонта.»


Многие компании совершают серьезную ошибку, полагая, что высокий уровень резервирования позволяет не вкладываться в надежную программу эксплуатации и технического обслуживания. Исследуя причины простоев критически важных систем, разные специалисты приходят к одному и тому же заключению: главной из этих причин являются ошибки оператора. Бесперебойная работа системы, возможность сокращения расходов и защита капиталовложений, а также репутации компании в большей степени зависят от правильной эксплуатации, чем от проектного решения. Однако мы видим, как компании снова и снова совершают одну и ту же ошибку: вкладывают крупные суммы в создание надежного проекта с резервированием, а затем экономят на текущих расходах.

Например, многие ответственные операции на объекте выполняются компаниями, специализирующимися на обслуживании офисных зданий и не имеющими опыта технического обслуживания ответственных систем.

В основе эксплуатации обычных офисных систем лежит идея того, что при необходимости их можно отключить для ремонта или технического обслуживания. Кратковременный сбой офисной системы может создать неудобства для сотрудников, в то время как серьезный простой центра обработки данных ставит под угрозу весь бизнес компании. Инфраструктура объекта и обслуживающая его команда должны быть подчинены одной цели: обеспечить максимальный уровень готовности. Для критически важных систем характерен ряд особенностей и требований, невыполнимых в рамках обычных программ обслуживания объектов:

•Производительность — важнейшим требованием бизнеса является непрерывность работы

•Готовность — безотказная работа 100% времени без остановки производства

•Сложность системы — системы с резервированием, автоматизация переключения при сбое и процедуры аварийного восстановления

•Прозрачная отчетность – документирование процессов, контроль изменений и записи с возможностью аудита

Для выполнения этих требований необходимо заложить в основу эксплуатации верную методологию.

 

Чтобы обеспечить выполнение этих требований, необходимо всесторонне подготовить персонал, который с самого начала будет заниматься эксплуатацией ЦОДа. Неправильный подбор персонала или слишком позднее его привлечение к созданию проекта может привести к снижению стандартов эксплуатационной деятельности.

 

«Бесперебойная работа системы, возможность сокращения расходов и защита капиталовложений, а также репутации компании в большей степени зависят от правильной эксплуатации, чем от конструктивного решения.»

 

Большая ошибка № 3: неверный подход к подбору персонала

 

Многие компании используют для определения штатного расписания ЦОДа те же критерии, что и для систем управления зданиями. Однако в случае центра обработки данных недооценка кадровых потребностей может привести к нехватке рабочих рук в случае аварии. При определении штатного расписания необходимо учитывать структуру рисков компании и бюджет. Следует создать расписание, обеспечивающее оптимальное использование кадровых ресурсов при действиях в аварийной ситуации, техническом обслуживании и обслуживании представителями поставщика.

Крайне важно также найти и суметь удержать нужных специалистов. Привлечение талантливых сотрудников с определенными техническими навыками является очень сложной задачей. Потенциальных сотрудников необходимо тщательно отбирать, проверяя не только их анкетные данные, но и технические, управленческие и коммуникативные способности. Все эти навыки крайне важны, когда речь идет об эксплуатации ответственных систем. Однако просто найти квалифицированных сотрудников недостаточно — это лишь первый шаг.

«В случае центра обработки данных недооценка кадровых потребностей может привести к нехватке рабочих рук в случае аварии.»

  

Большая ошибка № 4: отсутствие обучения и развития

 

Набрав квалифицированных сотрудников, необходимо обеспечить их соответствующей поддержкой, обучением и карьерными возможностями. Создание благоприятной среды позволяет значительно уменьшить текучку кадров, которая в случае ответственных систем приводит к утрате знаний, представляющей серьезную опасность для большинства программ эксплуатации. 

Должным образом обученные сотрудники понимают, как работает система, как обеспечить ее безопасную эксплуатацию и обслуживание и что делать, если что-то пошло не так. После того, как ЦОД построен, обучением обычно занимаются представители поставщиков и подрядчиков. Поэтому оно, как правило, не охватывает весь рабочий процесс, ограничиваясь определенными компонентами.

По умолчанию торговые представители и технические специалисты обычно обучают лишь несколько сотрудников самым элементарным навыкам. В типичном случае обучения без отрыва от производства эти только что «обученные» сотрудники затем обучают своих коллег. При таком подходе неудачные методики и неподходящие процедуры могут легко превратиться в стандарты работы.
Необходима программа, эффективно обеспечивающая и контролирующая получение необходимых знаний в формате, позволяющем повысить уровень компетентности всех сотрудников.

•Уровень 1: выполнение элементарных операций под наблюдением.

•Уровень 2: выполнение повседневных операций и обслуживания.

•Уровень 3: выполнение более сложных операций и обслуживания.

•Уровень 4: уровень эксперта в предметной области.

Реализация плана обучения
Главной причиной, препятствующей разработке эффективных программ обучения, являются связанные с этим высокие временные и материальные затраты. Однако многие руководители не понимают, что средства и силы, вложенные в разработку программы обучения, компенсируются увеличением уровня готовности, уменьшением расходов на техническое обслуживание и снижением текучести кадров.

Программы непрерывного обучения следует рассматривать как инвестицию в развитие бизнеса.

«Должным образом обученные сотрудники понимают, как работает система, как обеспечить ее безопасную эксплуатацию и обслуживание и что делать, если что-то пошло не так.»

 

Большая ошибка № 5: отсутствие регулярной отработки и проверки навыков

 

Военные, пожарные и специалисты по оказанию первой помощи повторяют тренировочные упражнения до тех пор, пока правильная реакция даже в самых экстремальных условиях не превратится в их «вторую натуру». То же самое следует делать и техническим специалистам центров обработки данных, работающих с системами, для которых каждая секунда простоя считается чрезвычайной ситуацией. Неподготовленность к действиям в такой ситуации недопустима как с точки зрения безопасности, так и по финансовым причинам.

Необходимо добиться, чтобы в аварийной ситуации сотрудники компании действовали не менее эффективно, чем хорошо обученные специалисты аварийных служб. От этого могут зависеть жизни технических специалистов компании. Ключом к успеху в данном случае является повторение: следует регулярно выделять время для проведения тренировок. В тренировках должны участвовать все сотрудники, чтобы в реальной ситуации каждый из них знал, чего ждать.

Однако обучение не ограничивается тренировочными занятиями — необходима комплексная программа. Ниже перечислены этапы создания эффективной программы обучения работе с ответственными системами:

•Разработка тренировочных заданий для процедур действия в аварийных ситуациях

•Разработка теории эксплуатации для основного оборудования и систем

•Создание обучающих программ для эксплуатации и технического обслуживания

•Разработка экзаменов для различных уровней обучения

Чтобы у сотрудников был стимул постоянно совершенствоваться, необходимо разработать систему оценки тренировочных упражнений и тестов.
«Неподготовленность к действиям в аварийной ситуации недопустима — как с точки зрения безопасности, так и по финансовым причинам.» 

 

Большая ошибка № 6: отсутствие документированных процессов и процедур, привязанных к программе эксплуатации

 

В ответственной системе необходимо документировать каждое действие. Создаваемая документация должна содержать сведения, которые можно использовать для оценки ожидаемого результата, создания основы для устранения неисправности или постоянного упреждающего совершенствования системы.
Для эксплуатации необходима приемо-сдаточная документация поставщика, однако не менее важно наличие подробного описания процедур, выполняемых группой, которая работает с критически важными системами. В частности, это могут быть подробные описания объекта, повседневных операций, профилактического обслуживания, внепланового технического обслуживания и действий в аварийной ситуации. Кроме того, для безопасной и надежной работы системы необходимы точные исполнительские чертежи. Информация, содержащаяся в списках оборудования, перечнях работ по техническому обслуживанию и расписаниях технического обслуживания может казаться элементарной, но когда в ней возникает необходимость, часто выясняется, что она отсутствует, неточна или не соответствует требованиям.

Все эти данные чрезвычайно важны для реализации изменений в компании. 
 

«Для эксплуатации необходима приемо-сдаточная документация поставщика, однако не менее важно наличие подробного описания процедур, которые должна выполнять группа, работающая с критически важными системами.»   


Большая ошибка № 7: не реализованы необходимые процессы и процедуры

 

В критически важных системах необходимо использовать процессы контроля изменений, обеспечивающие оценку и одобрение всех изменений, планируемых к внедрению. Этого можно добиться только при помощи набора стандартных процедур и процессов, соответствующих общепринятым нормам управления изменениями и конфигурацией.

Процедуры

Практически для любого вида работ, выполняемых в центре обработки данных, необходимо письменное описание процедуры. Ниже перечислены наиболее часто используемые типы процедур.

Стандартная эксплуатационная процедура (Standard Operating Procedure — SOP)

Стандартные эксплуатационные процедуры бывают функциональными и административными. Они содержат описание фиксированной эксплуатационной процедуры и могут использоваться в качестве справочных материалов.

Способ выполнения операции (Method of Procedure — MOP)

Способ выполнения операции представляет собой подробное пошаговое описание процедуры, используемое при работе с любым элементом оборудования, способным напрямую или косвенно повлиять на ответственную нагрузку. Необходимо составить библиотеку способов выполнения операций для операций по плановому обслуживанию, внеплановому техническому обслуживанию и установке.

Порядок действий в аварийной ситуации (Emergency Operating Procedure — EOP)

Порядок действий в аварийной ситуации — это процедура реагирования для потенциального или возникавшего ранее состояния отказа. Она охватывает способы выхода из опасной ситуации, восстановления резервирования и изоляции проблемы.

Управление действиями поставщика (Vendor Management)

Отсутствие комплексной программы управления действиями поставщика чревато возникновением ненужных рисков при привлечении поставщиков. Все действия представителей поставщиков должны контролироваться и быть стандартизованы в рамках политик и процедур SOP, MOP и EOP. Напомним, что главной причиной простоев являются человеческие ошибки. Без соответствующей документации и программы управления действиями поставщиков опасность отключения возрастает в геометрической прогрессии.

Действия в аварийной ситуации

Протоколы реагирования и действий в чрезвычайных ситуациях необходимы, чтобы свести к минимуму время простоя системы. Даже самая тщательная подготовка не позволяет полностью избежать непредвиденных ситуаций. Хорошо продуманный процесс эскалации позволяет предотвратить или свести к минимуму ущерб, в то время как программа обобщения решений возникающих проблем, анализа сбоев и протоколирования инцидентов помогает предотвратить возникновение сбоев в будущем.

Все эти процедуры являются основой для систем контроля качества.
«Четкие процессы контроля изменений закладывают фундамент для систем контроля качества.»   

 

Большая ошибка № 8: отсутствие разработанных и внедренных систем контроля качества

 

Многие компании ошибочно полагают, что хорошо проверенный процесс является абсолютно надежным. Однако единственным способом обеспечения эффективности, надежности и экономичности эксплуатации центра обработки данных является постоянное совершенствование. Программа создания систем контроля качества основывается на двух принципах:

Обеспечение качества: процессы для предотвращения появления ошибок в системе;

Контроль качества: меры, принимаемые на различных этапах процесса для заблаговременного выявления проблем, которые могут привести к сбою в системе.

Достичь уровня совершенства, обеспечивающего полное отсутствие простоев, непросто. Ни один процесс и ни одна процедура не являются совершенными — особенно на ранних этапах. Чтобы создать механизм для тонкой настройки программы, очень важно иметь план постоянного совершенствования процессов. Например, все документы должны содержать раздел для отзывов, в которые вносятся сведения о любых изменениях, необходимых для выполнения или совершенствования процедуры. Данные изменения затем учитываются в новой версии процедуры и проверяются в рамках процедуры обеспечения качества. 
 

Организовав процессы в компании оптимальным образом, можно сосредоточить усилия на автоматизации для достижения наилучших результатов. Без автоматизации процессов почти невозможно собрать важнейшие данные для создания репозитория, позволяющего отслеживать тенденции и моделировать решения.

«Достичь уровня совершенства, обеспечивающего полное отсутствие простоев, непросто… чтобы создать механизм для тонкой настройки программы, очень важно иметь план постоянного совершенствования процессов.»   

 

  «Хорошо реализованная компьютерная система управления техническим обслуживанием помогает составлять расписания, распределять задания и отслеживать все действия по техническому обслуживанию на объекте.»   

Большая ошибка № 9: не используются программные средства управления

 

Отказавшись от программных средств управления, можно сэкономить. Однако количество документации, необходимой для успешного использования программы эксплуатации, очень велико, а доступ к этой документации должен осуществляться очень оперативно. В течение какого-то времени можно обходиться простыми таблицами, но слабое управление документами ставит под угрозу все усилия сотрудников. В Таблице 1 приведен пример отчета о нескольких видах работ в центре обработки данных. Продолжительность периода в данном отчете составляет три месяца, площадь объекта — 4645,3 кв. м. (50000 квадратных футов). Для каждого вида деятельности требуется подробная документация и значительное количество усилий по координации.

 

Таблица 1

Типичные виды работ, выполняемые на объекте в течение квартала

Вид работ

Количество

Профилактическое обслуживание

767

Внеплановое техническое обслуживание

486

Действия в аварийной ситуации

3

Повышение эксплуатационных показателей

4

Комплексное обучение

12

Отработка действий в аварийной ситуации

2

Обеспечение качества

566

Аудит в рамках контроля качества

15

 

Правильно реализованная компьютерная система управления техническим обслуживанием (CMMS) помогает составлять расписания, распределять задания и отслеживать все действия по техническому обслуживанию на объекте. Журнал этих действий можно использовать для получения общей статистики о состоянии объекта, эффективности программы и использовании ресурсов. Сочетание CMMS с системами управления качеством позволяет реализовывать продвинутые процедуры (профилактическое обслуживание, моделирование сбоев и др.), помогающие еще больше снизить расходы и риски в центре обработки данных.

Еще одним программным средством управления является система управления документами. Она используется для хранения и извлечения электронных копий важной документации по объекту: методов реализации процедур, процедур аварийного реагирования, принципиальных схем, политики безопасности, расписаний технического обслуживания, отчетов по объекту и т.д. Абсолютно обязательным является наличие архива данных, которые можно постоянно применять и использовать в качестве основы для управления изменениями.

На любом объекте, проходящем процедуры внешней оценки и аудита, должна быть система управления документами, реализованная в рамках комплексной системы управления качеством. Если организация хочет полностью контролировать все аспекты работы ЦОДа, она не может позволить себе идти на компромиссы.

«Если компания планирует создать новый центр обработки данных в ближайшие 12 месяцев, не стоит рассчитывать, что за это время удастся разработать эксплуатационную платформу. Для создания высококлассной программы нужны годы»

 

Большая ошибка № 10: попытка создать лучшую в своем роде программу эксплуатации так же быстро, как центр обработки данных

 

Многие организации не понимают, с какими усилиями связано создание лучшей в своем роде программы эксплуатации. Большинство из них недооценивают количество времени, которое необходимо потратить на разработку такой программы с нуля. Достаточно ли у вас времени и ресурсов? Есть ли необходимые специалисты, особенно, если центры обработки данных не являются основной специализацией вашей компании?

Для большинства компаний ответ будет отрицательным. У них нет нарабатываемых в течение многих лет данных и опыта, на основе которых строится такая программа, а также соответствующего бюджета. Но если у вашей компании все же имеются необходимые ресурсы и опыт, будьте готовы, что придется вложить значительные средства в перечисленные ниже компоненты.

Персонал: жизнеспособность программы эксплуатации зависит от технических специалистов, специалистов по обеспечению качества и обучению, а также от уровня компетенции в сфере механических и электрических систем и систем управления.
Обучение: обязательными являются инвестиции в персонал, позволяющие сотрудникам работать с максимальной эффективностью.

Программные системы управления: основой программы эксплуатации являются должным образом развернутые и поддерживаемые компьютерная система управления и система управления документами, в которых с течением времени формируется база данных с важными сведениями для процедур упреждающего моделирования.

Разработка процедур и система контроля качества: программа эксплуатации должна обеспечивать документирование процедур для всех ответственных работ, в то время как система контроля качества обеспечивает стабильность функционирования.

Интеграция процессов: программа эксплуатации должна опираться на сильные стороны всех этих компонентов для достижения нужных результатов и выработки передового опыта.

Даже если у вас хватает ресурсов и опыта для разработки программы, убедитесь, что у вас также достаточно и времени для этого. Если вы сталкиваетесь с постоянными отключениями или другими проблемами, либо если компания планирует создать новый центр обработки данных в ближайшие 12 месяцев, не стоит рассчитывать, что за это время удастся разработать эксплуатационную платформу. Для создания высококлассной программы нужны годы. Ниже перечислены ее необходимые составляющие.


Основные составляющие высококлассной программы эксплуатации

I. Управление персоналом

a. Оценка размеров команды и необходимой квалификации

b. Подбор кадров

c. Техническая квалификация

d. Изучение анкетных данных

e. Прием на работу и определение на должности

f. Удержание

g. Продвижение по карьерной лестнице

II. Программа обучения

a. Сертификация и переаттестация

b. Сопоставление задач и уровня сертификации

c. Отработка действий в аварийной ситуации

III. Документация

a. Исполнительские чертежи

b. База данных активов

c. Состав и объем работ по профилактическому обслуживанию

d. Расписание технического обслуживания

e. Правила производства работа на ответственном объекте

f. Программа безопасности

g. Отчеты по объекту

h. Контрольный список сквозной проверки

IV. Процессы и процедуры

a. Процесс контроля изменений

b. Стандартные эксплуатационные процедуры

c. Методы реализации процедур

d. Процедуры действий в аварийных ситуациях

e. Программа управления действиями поставщиков

V. Действия в аварийной ситуации

a. Процесс эскалации

b. Отчеты об инцидентах и их анализ

c. Программа обобщения приобретенного опыта

VI. Система контроля качества

a. Обеспечение качества

b. Контроль качества

c. Повышение качества

VII. Компьютерная система управления техническим обслуживанием.

a. Управление рабочими заказами

b. Составление расписаний профилактического обслуживания

c. Составление расписаний внепланового технического обслуживания

d. Статистические отчеты

VIII. Система управления документами

a. Электронное хранение и извлечение документов

b. Рабочий цикл рецензирования и одобрения документов

c. Архивирование документов

IX. Соответствие нормативным требованиям

 

Заключение

 

Сейчас, как никогда ранее, важно, чтобы компании понимали необходимость сбалансированной программы эксплуатации. Чтобы добиться эксплуатационной устойчивости, организациям следует оперативно оценить имеющиеся программы и начать разрабатывать методику эксплуатации, свободную от часто совершаемых ошибок. Комплексная программа объединяет трудовые ресурсы, процессы и системы таким образом, чтобы способствовать обеспечению качества и постоянному совершенствованию.

Компаниям, не обладающим ресурсами для быстрой разработки подобной масштабной программы, нужно обратиться за помощью к специалистам в области критически важных систем. Иначе их ждут ненужные риски, задержки и расходы. Внедряя лучшую в своем роде программу, организация защищает свои капиталовложения и обеспечивает постоянный рост показателей на протяжении нескольких лет.

Эта статья была опубликована 22 Октябрь 2015 г..
Число отзывов: 0
Написать отзыв