4 Рекомендации для пользователей параллельного
вычислительного кластера
Вычислительный кластер для параллельных вычислений на основе
коммуникационной среды Myrinet 2000 доступен для пользователей через
интерактивные машины, на которых задачи компилируются и отлаживаются. На
интерактивных машинах имеются компиляторы: mpiCC, mpicc, mpif77 и mpiF90.
После компиляции и процесса отладки задачи направляются в очередь для
обработки в пакетном режиме. Для этого используется команда qsub.
4.1 Использование команды qsub
Существует 2 способа использования команды qsub:
1 Создать script-файл для запуска в пакетном режиме; в этом script-файле
определяются параметры, необходимые для работы задачи.
Пример командной строки:
qsub pbs_script
Пример содержания файла pbs_script:
#!/bin/sh
#PBS -q para
#PBS -l walltime=10:00:00,nodes=8:para
#PBS -m abe
#PBS -M username@lxpub01
#PBS -r n
mpiexec $PBS_O_WORKDIR/program_name
2 Ввести все параметры в командной строке.
Пример командной строки:
qsub -q para -l walltime=10:00:00,nodes=8:para -m abe -M \
username@lxpub01 -r n mpiexec $PBS_O_WORKDIR/program_name
4.2 Описание параметров
- -q - название очереди пакетной обработки (для
параллельных вычислений это "para"),
- -l - набор технических параметров, набираемых через
",":
- walltime - максимальное время выполнения
задачи,
- nodes - требуемое количество процессоров
(после указания количества процессоров после ":" следует
указывать название очереди)
- -m - события, происходящие в процессе пакетной обработки
задачи, о которых следует извещать по e-mail:
- b -
начало,
- e - завершение,
- a - прекращение работы
по ошибке;
- -M - e-mail адрес, на который будут направляться
все служебные сообщения о состоянии задачи
- -r - (y/n) (т.е. да или нет)
следует ли восстанавливать задачу при перезагрузке узлов
$PBS_O_WORKDIR - это переменная окружения при пакетной обработке,
которая инициализируется автоматически в процессе пакетной обработки и
значение этой переменной окружения есть абсолютный путь к текущему каталогу
пользователя, из которого производится запуск задания посредством команды
qsub; т.е. если запускаемый исполняемый модуль, например, myprogr, находится
в каталоге, из которого производится запуск, то в команде qsub следует ввести
$PBS_O_WORKDIR/myprogr
4.3 Контроль над исполнением задачи
После того, как задача была отправлена в очередь, ее состояние можно
контролировать с помощью команды qstat, после ввода которой на экране
появляется таблица, столбцы которой имеют следующие значения:
- Job id - уникальный идентификатор задачи
- Name - имя исполняемой задачи
- User - имя владельца задачи
- Time Use - общее процессорное время, использованное задачей на
данный момент
- S - состояние задачи
- Q - находится в очереди
- R - вычисляется
- E - произошла ошибка при выполнении
- Queue - название очереди, в которой запущена
задача
4.4 Результаты выполнения задачи в пакетной обработке
В рабочем каталоге пользователя появляются 2 файла:
Имя_задачи.oИдентификатор - содержит стандартный вывод (stdout),
Имя_задачи.eИдентификатор - содержит сообщения об ошибках (strerr)
Следует не забывать, что после изменения AFS-пароля необходимо также
выполнить команду pbspwstore для обеспечения возможности работы с системой
пакетной обработки.