Оптическое кольцо высокой доступности
При создании отказоустойчивой системы, способной сохранять управляемость и работоспособность при разного рода происшествиях, облачный провайдер должен предъявлять особенно высокие требования к её топологии. Такая отказоустойчивая система предусматривает соединение двух или более дата-центров (ДЦ) и корпоративных сетей при помощи ВОЛС, что позволяет не перевозить компоненты СХД из одного места в другое для создания копий данных.
Двумя основными конкурирующими топологиями соединения ДЦ в корпоративные оптические сети являются «звезда» и «кольцо». В случае выхода из строя какого-либо узла (или части кабельной системы) «кольца» работоспособность сети в целом сохраняется. Кроме того, кольцевая топология является избыточной по числу связей, а значит и более дорогой. В свою очередь, «звезда» несколько лучше приспособлена для предоставления обычной для локальной сети централизованной услуги. Действительно, в локальной вычислительной сети (ЛВС) почти всегда есть сервер или маршрутизатор, для доступа к которому обычно и построена сеть. Сравнительные характеристики топологий «кольцо» и «звезда» представлены в таблице.
Сравнение топологий «звезда» и «кольцо»
Возможность использования недорогого активного оборудования без поддержки STP
Сохранение работоспособности всех пользователей сети в случае повреждения кабеля
Возможность организации дополнительного (резервного) канала без перестройки топологии сети
Сохранение связи между узлами в случае отказа центрального оборудования
Возможность строительства магистралей по частям
Малая зависимость от особенностей места строительства
Как построено оптическое кольцо
Обеспечение непрерывности работы информационных систем заказчика, размещённых в облаке, является главной целью облачного хостинг-провайдера. Следовательно, повышение уровня SLA является основной задачей.
Создание собственного оптического кольца высокой доступности, схема которого представлена на рисунке, позволило Cloud4Y существенно повысить уровень SLA, который мы гарантируем нашим клиентам.
Оптическое кольцо построено между двумя нашими облаками в Москве, которые физически находятся в ДЦ уровня Tier 3, и узлами коммутации M9 и M10. Технически расстояние между ДЦ может составлять до 100 км, в нашем случае это около 20 км. Основная особенность кольца – отсутствие единой (критической) точки отказа. Оптические каналы полностью дублированы, причём они прокладываются по разным маршрутам и разными операторами.
Благодаря такому решению практически исключается недоступность сервисов в облаке из-за проблем с каналами. Даже в случае выхода из строя одного оптического канала вся работа продолжится по другому контуру. И прерывания не будет. Помимо оптических каналов дублируются все коммутаторы и маршрутизаторы, что также обеспечивает автоматическое переключение на рабочий контур в случае выхода из строя одного из маршрутизаторов или коммутаторов. Помимо проблем с каналами, данная схема позволяет исключить ущерб от земляных работ, которые по каким-то причинам проводятся именно там, где лежит ВОЛС.
Общая пропускная способность оптического кольца составляет 180 Гбит/с, из которых 120 Гбит/с – пропускная способность между ДЦ, 20 Гбит/с – между первым ДЦ и узлом коммутации М10, 20 Гбит/с – между узлами коммутации М10 и М9 и 20 Гбит/с – между узлом коммутации М9 и вторым ДЦ. Каждый из маршрутов состоит из физически независимых друг от друга оптоволоконных пар, которые агрегируются в общий канал на корневых маршрутизаторах.
Вся сеть физически разделена на внутреннюю и внешнюю, разные интерфейсы серверов подключены в разные коммутаторы и работают в разных сетях. По внешней сети серверы общаются с интернетом, по внутренней сети все серверы общаются между собой. Серверы подключены в коммутаторы уровней L2 и L3, которые, в свою очередь, подключены как минимум двумя 10-гигабитными линками к агрегирующему стеку коммутаторов. Каждый линк идет к отдельному коммутатору в стеке.
Оборудование для оптического кольца высокой доступности
Оптическое кольцо выполнено на коммутаторах компании «Extreme» серии Summit. Помимо базовой функциональности, основанной на поддержке стандартных Ethernet технологий, в коммутаторах Summit реализована технология RPR (Resilient Packet Ring). Эта технология позволяет коммутаторам образовывать кольцевую топологию, обеспечивать восстановление работоспособности за время менее 50 мс и эффективно использовать пропускную способность в кольцевых структурах.
Коммутаторы Summit могут иметь до 24 слотов mini-GBIC для установки интерфейсных модулей 1000Base-X, 4 порта 10/100/1000Base-T и 2 слота для установки интерфейсных модулей 10GBase-X (XENPAK). Пропускная способность коммутирующей матрицы — 160 Гбит/с, пропускная способность на L3 — 65 миллионов пакетов/с. В коммутаторах поддерживаются протоколы RIPv1/2, OSPF, BGP-4, PIM-SM, IGMP, различные технологии обеспечения QoS на L1-L4, в том числе ограничение полосы пропускания с шагом 64 Кбит/с (1 Мбит/с на каналах 10 Гбит/с), 8 аппаратно обслуживаемых очередей на каждом порту. Предусмотрено резервирование источников питания, подключение внешних источников питания, резервирование банков памяти для хранения конфигурации и образа операционной системы ExtremeWare XOS.
В решении предусмотрена возможность подключения к каждому узлу магистрального кольца по оптическим интерфейсам агрегирующих узлов. К каждому агрегирующему коммутатору по оптическим интерфейсам могут подключаться коммутаторы доступа для подключения пользователей.
Как работает отказоустойчивое кольцо
Технология RPR базируется на стандартном механизме Ethernet-коммутации второго (канального) уровня, дополненном алгоритмом фирмы RAD Data Communications. Последний позволяет всем узлам кольца получать информацию о состоянии сети и в случае аварии или нештатной ситуации быстро переводить трафик на альтернативный маршрут.
Узел кольца RPR – это сетевое устройство, функционирующее как обычный коммутатор на втором уровне. Каждый узел имеет два магистральных порта для передачи трафика по кольцу, а также порты доступа, через которые трафик вводится в кольцо, и пользовательские порты для доставки трафика конкретных услуг. В штатном режиме все узлы RPR обмениваются специальными служебными сообщениями. Каждый узел через определенные промежутки времени передает сообщение о состоянии канала (link state) через оба своих магистральных порта.
Даже если сообщение о состоянии кольца отсутствует, узел должен посылать сообщения «keep-alive», по котором соседний узел понимает, что все в порядке. При получении узлом служебного сообщения с указанием того, что его сосед тоже получил такое сообщение, он считает кольцо функционирующим нормально. Канал считается аварийным, когда узел получает соответствующее сообщение или когда узел вообще не получает никаких служебных сообщений в течение 30 мс. В этом случае трафик пускается в обратном направлении в обход аварийного участка. Такой алгоритм позволяет сочетать простоту обычной коммутации с возможностью быстрой перемаршрутизации трафика в случае сбоя.
Новые технологии на защите бесперебойности работы систем
Дополнительно Cloud4Y используется соединение дата-центров четырьмя агрегированными 10GE каналами (2 на СХД, 2 на данные). Для этого мы задействовали связку коммутаторов Cisco Nexus и Juniper QFX.
Управляемый высокопроизводительный коммутатор ядра сети, распределения и агрегации Cisco Nexus поддерживает интерфейсы 1, 10, 40 Gb/s, обеспечивает минимальную задержку при коммутации и маршрутизацию на максимальной скорости для всех интерфейсов, при этом обладает высокой энергоэффективностью. Juniper QFX создавался с учетом требований по отказоустойчивости, включая использование резервных источников питания и резервирования систем охлаждения. Поддерживает увеличенные таблицы MAC-адресов, что позволяет использовать его в средах с большим количеством виртуальных серверов. При этом он является высокопроизводительным и многофункциональным решением уровня L2 и L3 и тоже обладает высочайшей энергоэффективностью.
Таким образом, оптическое кольцо высокой доступности позволяет повысить уровень доступности сервисов в облаке (SLA) до значения 99,99% и выше. Это означает, что появляется уникальная возможность адаптировать уровень SLA облачных сервисов к требованиям отдельных заказчиков и отраслей, что является огромным конкурентным преимуществом. Благодаря адаптируемым SLA у облачных провайдеров появляется способ дифференциации, который выгоден как для них самих, так и для клиентов.
Не всем заказчикам нужны одинаково высокие гарантии безотказной работы. Например, для заказчика, который пользуется облачной платформой Cloud4Y для тестирования приложений, в большинстве случаев не требуется такой же высокий SLA, как для заказчиков, которые размещают в облаке критически важные системы. Понимание этого факта позволит заказчикам существенно снизить свои расходы на IT, а облачные провайдеры могут предложить клиентам необходимый уровень обслуживания и специальные цены в соответствии с выбранным уровнем SLA.
Интересно, что два года назад мы рассказывали о том, что многие облачные провайдеры не верили в SLA 99.9%. Нам казалось это странным и удивительным. Как показало время, позиция Cloud4Y оказалась верной — теперь провайдеры стремятся не просто к 99,9%, но и более высоким значениям. А это означает, что клиенты облачных провайдеров получают всё более надёжные и стабильные решения.