efremov rg 2

Суперкомпьютерные вычисления в биологии: опыт лаборатории моделирования биомолекулярных систем института биоорганической химии РАН

Заместитель директора ИБХ РАН по научной работе, руководитель лаборатории,
д.ф.-м.н, профессор Р.Г. Ефремов

 

Предметом исследования современной молекулярной биологии является структуры и взаимодействия биологических молекул, изучать которые можно либо экспериментально (используя сложнейшее оборудование и ресурсоемкие методы), либо в компьютерных моделях, которые нам предлагает теоретическая молекулярная биофизика. Правда, компьютерное моделирование тоже не обходится без современного дорогостоящего оборудования — только многопроцессорные вычислительные системы, аппаратные ускорители, компьютерные кластеры и суперкомпьютеры предоставляют достаточную вычислительную мощность для изучения взаимодействия биологических молекул в системах рецептор–лиганд, ДНК–белок и других, с учетом явно заданного окружения: водных растворов или липидно-водных мембранных систем.

В Лаборатории моделирования биомолекулярных систем Института биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова РАН объектами изучения являются мембранные ионные каналы и рецепторы, а также взаимодействующие с ними лиганды — пептиды и малые молекулы. При этом принимается во внимание окружение взаимодействующих молекул — липидная бислойная мембрана различного состава и водная фаза, содержащая одно- и двухвалентные ионы металлов. (Примеры задач 1,2,3)

В вычислительных экспериментах используются алгоритмы моделирования на основании гомологии — для построения моделей структуры белков, которые не были изучены в биофизическом эксперименте; методы молекулярной динамики (МД), предназначенные для расчетов молекулярной подвижности модельных систем, в которых биологические молекулы заданы в виде ансамблей взаимодействующих частиц. Число частиц в таких модельных системах может варьировать от десятков тысяч до одного, двух миллионов, а траектории развития систем необходимо получать на интервалах до 100 - 1000 нс с шагом 2фс. Расчет траекторий МД выполняется посредством программного комплекса Gromacs, для которого существенны следующие характеристики аппаратной платформы:  частота процессора при длительном режиме работы; число физических вычислительных ядер на процессоре; поддержка набора команд AVX-2; латентность и пропускная способность коммуникационной среды (низкая латентность необходима при использовании метода Эвальда в расчетах электростатических взаимодействий); наличие на вычислительном узле профессиональных графических ускорителей.

Для сборки систем, предварительных расчетов и тестовых запусков можно использовать рабочие станции с процессором Intel верхнего уровня (например, i7-5930K, i7-6700K) и производительной видеокартой Nvidia (GTX 980Ti, GTX 1070, GTX 1080). Характерная скорость расчета МД системы из 300 тыс. атомов (белок в гидратированном липидном бислое) на таких компьютерах составляет 5-8 нс/сутки. На сервере с двумя CPU Intel Xeon E5-2697A v4 и двумя видеокартами Nvidia GTX 1080, скорость расчета можно довести до 10-15 нс/сутки. В большинстве же наших задач необходим расчет траектории МД длиной ~1000 нс, что требует более 2 месяцев непрерывной работы самого мощного сервера, имеющегося в распоряжении лаборатории. Если задача предполагает необходимость сравнения траекторий МД немного различающихся систем, то она становится практически невыполнимой без использования суперкомпьютерных ресурсов.

Создание суперкомпьютерного центра "Политехнический" и подписание в 2016 году Соглашения о сотрудничестве ИБХ с СПбПУ открыло для нас новые перспективы исследований.  Так, на 10 узлах кластера "Политехник - РСК Торнадо" (два 14-ядерных процессора Intel Xeon E5-2697 v3 и два  ускорителя NVIDIA K40X на каждом узле), нам удается получать несколько траекторий МД, при скорости расчета одной траектории 70-100 нс/сутки. Следует отметить хорошую поддержку пользователей в СКЦ “Политехнический”. На компьютерах всегда установлена актуальная версия пакета Gromacs, откомпилированная разными компиляторами (gcc и intel) с поддержкой графических ускорителей. Хорошо работает система очередей SLURM, позволяющая запускать программы с максимальным временем непрерывной работы 2 недели, разумно распределены квоты максимально выделяемых вычислительных ресурсов. Технические работы, требующие приостановки пользовательских задач и ограничение доступа к вычислителям, проводятся редко (примерно 1 раз в 3 месяца). Для сравнения, в ряде других суперкомпьютерных центров профилактические работы могут проводиться еженедельно и занимать полный рабочий день.

На сегодняшний день СКЦ “Политехнический” является одним из лучших, на наш взгляд, суперкомпьютерных центров страны (в которых авторам приходилось работать) и конкурентоспособным в ряду ведущих вычислительных центров мира. На его вычислительных ресурсах может с успехом решаться практически весь спектр задач молекулярного моделирования сложных биомолекулярных систем. Опыт создания такого СКЦ следует признать очень удачным. В то же время не следует забывать и о дальнейшем развитии мощностей СКЦ “Политехнический”, чтобы его вычислительные возможности соответствовали возрастающим потребностям исследовательских групп. Согласно нашему опыту «конечных пользователей» можно заключить, что, если в течение трех лет не проводить модернизацию ресурсов, то центр перестает справляться с потребностями пользователей: загрузка вычислительных мощностей становится близкой к 100% при значительном снижении результативности работы.

В заключение отметим, что полученный нами на сегодняшний день опыт сотрудничества с СКЦ «Политехнический», несомненно, является крайне полезным – на основании результатов проведенных вычислений в 2016-2017 гг. опубликованы 6 статей в высокорейтинговых международных журналах (см. п.п. 4-9 раздела публикаций), сделаны 5 докладов на международных конференциях. Важно также, что предоставленные нам аппаратные и программные средства СКЦ, наряду с неравнодушным отношением руководства и сотрудников Центра, позволили решить задачи, требующие как длительного последовательного расчета (в частности, получение траекторий МД мезоскопических биомолекулярных систем на интервалах порядка 1 мкс), так и одновременного запуска большого числа (до 20) расчетов МД сложных надмолекулярных объектов. В обоих случаях удалось достичь высокой производительности и получить результаты в кратчайшие сроки. В условиях жесткой мировой конкуренции в области вычислительной структурной биологии и молекулярной биофизики это очень ценно!

 

Дополнительные материалы

  1. Примеры НИР лаборатории, выполненных с использованием ресурсов СКЦ "Политехнический" в 2016-2017 гг. можно найти в разделе "Выставка достижений"
  2. Перечень публикаций лаборатории с благодарностью СКЦ «Политехнический» представлен п.п. 4-9 в разделе "Публикации"