Шрифт:
Подходить к данной теме можно по-разному. Та информация, которую можно найти в интернете и немногочисленных публикациях, зачастую кажется очень общей по характеру изложения, и, хотя и, безусловно, способствует углублению знаний и пониманию тематики, но не дает конкретных, практических указаний по реализации принципов организации эксплуатации и технического обслуживания ЦОД. Отрадно видеть, что настоящее издание фокусируется именно на конкретных указаниях и живых примерах того, как эти принципы реализуются в повседневной работе.
ЦОД бывают разными – по назначению, сфере применения, масштабу, принципам построения и особенностям использования. Однако их роднит то, как реализуются принципы их повседневной эксплуатации. Реализация этих принципов может быть различной, но, применяя существующие на мировом рынке методологии и механизмы оценки уровня эксплуатации, можно выделять те объекты, которые стоят в авангарде отрасли. В этом контексте ЦОД Linx Datacenter – уникальный объект, четырехкратно награжденный оценкой Management and Operations Stamp of Approval. Эту оценку присуждает консалтинговая компания Uptime Institute – признанный отраслевой лидер мирового масштаба в сфере сертификации ЦОД по уровням Tier, отражающим степень надежности и качество эксплуатации центров обработки данных.
ЦОД Linx Datacenter на сегодняшний день – единственный в России (а, возможно, и в Европе), четырежды успешно прошедший аудит Management and Operations и получивший высокие оценки Uptime Institute. Стремление ключевых сотрудников данного объекта поделиться своим опытом в сфере эксплуатации нельзя расценивать иначе, как значительный вклад в популяризацию знаний об эксплуатации критических объектов.
Данная книга – особенная. Она идет много дальше общих рекомендаций по эксплуатации и дает массу практических советов, сопровождаемых примерами и иллюстрациями, о том, как подобрать необходимый персонал службы эксплуатации и рассчитать его численность, сформировать программы технического обслуживания инженерной инфраструктуры ЦОД, сформулировать и описать необходимые процессы и процедуры эксплуатации, корректно документировать их и обеспечить их доступность для службы эксплуатации, как управлять уровнем оказания услуг объекта, как отслеживать состояние складов, наличие необходимых инструментов, управлять повседневными операциями на объекте, обеспечивать безопасность труда и многое-многое другое.
Несмотря на кажущуюся очевидность того, как следует построить эксплуатацию объекта, ее практическая реализация – весьма нетривиальная задача, успешно решить которую под силу не каждому. В этом ключе данный труд – настоящий подарок для каждого участника отрасли ЦОД.
Эта книга станет незаменимым пособием по организации повседневной эксплуатации ЦОД для их владельцев, технических директоров, руководителей служб эксплуатации, ответственных лиц в данной сфере и линейных сотрудников служб эксплуатации. Учитывая универсальность излагаемых принципов и подходов, книга применима даже шире, нежели исключительно в отрасли ЦОД, – излагаемые знания и практические указания применимы для любых критических объектов.
Константин Королев,
директор по развитию бизнеса
в России и СНГ, Uptime Institute
Введение
Центры обработки данных (ЦОД) приобретают все более важное и критическое значение для повседневной жизни. Особенность их функционирования – беспрерывная и круглосуточная работа. Даже минутные простои могут иметь катастрофические по степени финансового и репутационного ущерба последствия для организации или, в случае отказа каких-либо популярных сервисов, стать заметными по всему миру даже для людей, не связанных с ИТ-индустрией.
По опубликованным данным [1] опросов представителей отрасли, до 79 % респондентов испытывали проблемы, связанные с жизнедеятельностью ЦОД, за последние три года. По нашей собственной десятилетней статистике инцидентов, это число составляет примерно 65 %. Согласно статистическим исследованиям Uptime Institute, 75 % [2] отказов в ЦОД связаны с человеческим фактором. Когда мы только начинали переосмыслять работу службы эксплуатации в 2015 г., эта цифра достигала лишь 70 %.
1
https://uptimeinstitute.com/2021-data-center-industry-survey-results.
2
https://ru.uptimeinstitute.com/professional-services/management-operations.
Человеческий фактор включает в себя ошибки дежурного персонала ЦОД, но, что более важно, также говорит о принятии неверных управленческих решений в отношении подбора сотрудников, выстраивания процессов обслуживания, обучения и общей тщательности выполнения работ по техническому обслуживанию или повседневной деятельности. Независимо от топологии инфраструктуры дата-центра, человеческий фактор представляет наибольший риск для его работоспособности, так как на долю отказов оборудования приходится относительно малая часть инцидентов. Следовательно, целесообразно направлять усилия на устранение большего процента рисков, связанного с человеческими ошибками при эксплуатации. Из них 48 % [3] связано с неверным выполнением процедур, 41 % – с неверно организованными процессами или процедурами.
3
https://uptimeinstitute.com/2021-data-center-industry-survey-results.
При правильно организованной системе эксплуатации, даже с несовершенной инженерной инфраструктурой и незначительным уровнем резервирования, ЦОД может иметь лучшее время беспрерывной работы, чем ЦОД с высоким уровнем резервирования систем, но с плохо выстроенной и организованной эксплуатацией. Недостатки инфраструктуры и низкий уровень резервирования можно компенсировать продуманными организационными мерами.
Мы – команда, которая уже более 10 лет занимается эксплуатацией ЦОД, – хотим поделиться с вами своим опытом организации современной модели эксплуатации ЦОД.