Объединенный институт ядерных исследований

ЕЖЕНЕДЕЛЬНИК
Электронная версия с 1997 года
Газета основана в ноябре 1957 года
Регистрационный № 1154
Индекс 00146
Газета выходит по четвергам
50 номеров в год

Номер 6 (4654) от 16 февраля 2023:


№ 6 в формате pdf
 

Институт: день за днем

Платформа DIRAC: интеграция ресурсов

C 2016 года в ОИЯИ создан и развивается сервис для единого доступа к гетерогенным распределенным вычислительным ресурсам на основе открытой платформы DIRAC Interware, куда входят все основные вычислительные ресурсы ОИЯИ. Созданная платформа уже позволила ускорить обработку крупных пакетов задач примерно в три раза. Скорость вычислений обеспечивает в том числе интеграция облачных инфраструктур научных организаций стран-участниц ОИЯИ, кластера Национального автономного университета в Мексике и ресурсов Национальной исследовательской компьютерной сети России - НИКС, которая обеспечивает доступ к инфраструктуре сети более 200 организациям высшего образования и науки. На данный момент сервис на базе DIRAC используется для решения задач коллабораций всех трех экспериментов на ускорительном комплексе мегасайенс проекта NICA: MPD, BM@N и SPD, а также нейтринного телескопа Baikal-GVD.

"Фактически интеграция позволила объединить все большие вычислительные ресурсы ОИЯИ между собой. Если бы объединения не было, пользователям, скорее всего, пришлось бы выбрать один из ресурсов и настраивать все рабочие процессы на работу с ним. Использование объединенной инфраструктуры позволяет не привязываться к конкретному ресурсу, а использовать все те ресурсы, которые свободны. Для больших пакетов задач это ускоряет выполнение примерно в три раза", - рассказал Игорь Пелеванюк, научный сотрудник сектора распределенных систем ЛИТ. Он отметил, что без сервиса на базе DIRAC Interware актуальные задачи массовой генерации данных эксперимента MPD считались бы дольше и полностью занимали отдельный вычислительный ресурс на несколько месяцев.

По состоянию на январь 2023 года благодаря интеграции ресурсов с помощью DIRAC на мощностях распределенной платформы было выполнено 1,9 миллиона задач. Количество проведенных вычислений оценивается в 13 миллионов HEPSPEC2006-дней, что является эквивалентом 1900 лет расчетов на одном ядре современного центрального процессора. Таким образом, средняя продолжительность выполнения одной задачи в системе составила почти 9 часов.

Чтобы прогнозировать скорость выполнения расчетов, ученые использовали бенчмарк HEPSPEC2006 - программу для проверки скорости процессора, которая считает, с какой скоростью процессор производит вычисления, похожие на генерацию данных методом Монте-Карло. Знание результатов бенчмарка на разных ресурсах позволяет привести к единому знаменателю все участвующие в решении задач процессоры, имеющие различную скорость вычислений, и оценить вклад каждого из ресурсов, участвующих в распределенных вычислениях.

"Чем больше у нас ресурсов, тем быстрее мы в среднем можем проделать определенный объем вычислений. На ресурсах Tier1 и Tier2 суммарно было выполнено 45 процентов вычислений. Суперкомпьютер "Говорун" выполнил примерно такой же объем работы, но на нем нам удается выполнять те задачи, которые особенно требовательны к оперативной памяти и свободному месту на диске. Такие задачи зачастую не могут быть эффективно выполнены на других ресурсах, доступных нам", - прокомментировал Игорь Пелеванюк.

Сервис DIRAC в ОИЯИ применяется в основном там, где требуется выполнить огромный объем вычислений, и вычисления могут быть разделены между десятками тысяч независимых задач. Как правило, для научных расчетов, где суммарный объем вычислений не так велик, ученым достаточно использовать один ресурс. На этих ресурсах часть вычислительных мощностей выделяется для выполнения задач, отправленных в DIRAC. Эта доля определяется в соответствии с политикой конкретного ресурса, его загрузкой на текущий момент и объемом работы, который необходимо выполнить в определенный период времени. Так, самые большие доли - у центров Tier1 и Tier2, где для DIRAC выделено две тысячи ядер, у суперкомпьютера "Говорун" - до двух тысяч ядер (в зависимости от загрузки), и у облака, где для задач DIRAC выделяется до 500 ядер. По словам Игоря Пелеванюка, если появятся новые эксперименты, которые смогут эффективно использовать сервис на базе DIRAC Interware, то запуститься им будет проще, так как основные схемы работы в рамках распределенной инфраструктуры уже разработаны и испробованы.

"Многие научные сотрудники работают в рамках одной из инфраструктур: суперкомпьютера, облака, вычислительного кластера NICA и др. Для ряда задач этого достаточно, и если нет предпосылок к значительному росту вычислительной нагрузки в будущем, то, скорее всего, переход на систему, которую мы создали, не потребуется. Это не универсальная замена стандартных подходов. Однако для сложных вычислительных задач созданная платформа дает новый подход, который позволяет выйти на новый уровень сложности и на порядок увеличить количество ресурсов, которые можно использовать для исследований", - рассказал ученый.

Самым активным пользователем созданной инфраструктуры на данный момент является коллаборация эксперимента на установке MPD. На ее долю приходится 85 процентов проделанных вычислений. Нынешние расчеты для MPD, пока детектор еще не начал свою работу, посвящены симуляции методом Монте-Карло. При помощи специальных компьютерных программ, которые "сталкивают" частицы виртуально и трассируют продукты распада через вещество экспериментальной установки, можно отлаживать и настраивать работу алгоритмов реконструкции и анализа данных детекторов, помогая при этом формировать научную программу.

Модельные данные продолжают набираться и во время экспериментальных сеансов. "Мы используем набор генераторов, который позволяет нам создавать такие события, затем запускаем реальный эксперимент и собираем два набора данных: реальные данные с детектора и сгенерированные нами. И, если между ними нет существенной разницы для выбранного, хорошо изученного физического процесса, значит, набранные нами экспериментальные данные соответствуют действительности. И их вместе с созданным в эксперименте набором программного обеспечения для восстановления и анализа данных можно использовать для поиска новой физики.

Часть задач в этом проекте выполнили коллеги из Мексики, которые в 2019 году официально присоединились к реализации мегасайенс проекта NICA. Участие вычислительного кластера Национального автономного университета Мексики, коллаборанта эксперимента MPD на NICA, показало, что разработанный сервис может использоваться и для интеграции ресурсов, в том числе вне ОИЯИ.

Отдельного упоминания заслуживает интеграция облачных инфраструктур стран-участниц ОИЯИ. Для ее реализации потребовалось разработать специальный программный модуль, который позволил интегрировать в систему DIRAC облачные ресурсы, работающие на базе программного обеспечения opennebula.

Интеграция внешних ресурсов - это возможности для других стран участвовать в вычислениях для больших научных коллабораций: Baikal-GVD, MPD, SPD, BM@N. Если участники решат часть своего вклада обеспечить именно вычислениями, то их ресурсы можно будет интегрировать в существующую систему, и вопрос будет состоять в том, сколько ресурсов они способны выделить", - сказал ученый.

Цикл работ "Разработка и внедрение единого доступа к гетерогенным распределенным ресурсам ОИЯИ и стран-участниц на платформе DIRAC" был отмечен второй премией ОИЯИ за 2021 год в номинации "За научно-методические и научно-технические работы".

Исследования выполнялись совместно в Лаборатории информационных технологий, Лаборатории физики высоких энергий и Центре физики частиц университета Марселя (Франция) коллективом авторов: Владимир Кореньков, Николай Кутовский, Валерий Мицын, Андрей Мошкин, Игорь Пелеванюк, Дмитрий Подгайный, Олег Рогачевский, Владимир Трофимов и Андрей Царегородцев.

www.jinr.ru
 


При цитировании ссылка на еженедельник обязательна.
Перепечатка материалов допускается только с согласия редакции.
Техническая поддержка -
ЛИТ ОИЯИ
   Веб-мастер
Besucherzahler
??????? ?????????