Если при постановке задачи в очередь выдается ошибка следующего вида:
llsubmit: Processed command file through Submit Filter: "/etc/LoadL/cmc_submit_filter". llsubmit: 2512-078 Group "cmc" is not valid for user "galst". llsubmit: 2512-051 This job has not been submitted to LoadLeveler.
, тогда нужно проверить следующее.
Если пользователь принадлежит факультету ВМК, то проверить, что его первичная Unix-группа есть cmc, и в файле /etc/LoadL/LoadL_admin он также включен в группу cmc.
Если пользователь не принадлежит факультету ВМК, то удалить его из Unix-группы cmc и выставить в качестве первичной правильную группу. В файле /etc/LoadL/LoadL_admin из группы cmc его исключить.
Иногда пользователи ошибаются и привязывают задачи к несуществующим бронированиям.
Необходимо написать скрипт, который по cron'у будет запускаться, скажем, раз в час и переводить задачи из этих несуществующих бронирований в общую очередь.
Грубо говоря, скрипт должен делать примерно то же, что администратор:
pozdneev@fen1:~> llq Id Owner Submitted ST PRI Class Running On ------------------------ ---------- ----------- -- --- ------------ ----------- fen1.96105.0 makhnich 10/30 05:34 R 50 n512_h12 fen1 fen1.96019.0 g516111208 10/28 22:07 NQ 50 n128_m15 fen1.96022.0 g516111208 10/28 22:30 NQ 50 n128_m15 fen1.96023.0 g516111208 10/28 23:26 NQ 50 n128_m15 fen1.96024.0 g516111208 10/28 23:29 NQ 50 n128_m15 fen1.96025.0 g516111208 10/28 23:29 NQ 50 n128_m15 fen1.96026.0 g516111208 10/28 23:30 NQ 50 n128_m15 fen1.96027.0 g516111208 10/28 23:30 NQ 50 n128_m15 fen1.96028.0 g516111208 10/28 23:30 NQ 50 n128_m15 fen1.96086.0 g516111208 10/29 16:17 NQ 50 n128_m15 fen1.96087.0 g516111208 10/29 16:17 NQ 50 n128_m15 fen1.96088.0 g516111208 10/29 16:17 NQ 50 n128_m15 12 job step(s) in queue, 0 waiting, 0 pending, 1 running, 11 held, 0 preempted pozdneev@fen1:~> llq -s fen1.96019.0 ===== EVALUATIONS FOR JOB STEP fen1.bg.cmc.msu.ru.96019.0 ===== Step state : Not Queued Considered for scheduling at : Fri 28 Oct 2011 09:50:38 PM MSD Reservation fen1.96013.0.r does not exist. pozdneev@fen1:~> sudo -u loadl llbind -r fen1.96019.0 fen1.96022.0 fen1.96023.0 fen1.96024.0 fen1.96025.0 fen1.96026.0 fen1.96028.0 fen1.96086.0 fen1.96087.0 fen1.96088.0 llbind: Request to unbind job steps from their respective reservations has been sent to LoadLeveler. pozdneev@fen1:~> llq Id Owner Submitted ST PRI Class Running On ------------------------ ---------- ----------- -- --- ------------ ----------- fen1.96019.0 g516111208 10/28 22:07 R 50 n128_m15 fen1 fen1.96022.0 g516111208 10/28 22:30 R 50 n128_m15 fen1 fen1.96023.0 g516111208 10/28 23:26 R 50 n128_m15 fen1 fen1.96105.0 makhnich 10/30 05:34 R 50 n512_h12 fen1 fen1.96024.0 g516111208 10/28 23:29 I 50 n128_m15 fen1.96025.0 g516111208 10/28 23:29 I 50 n128_m15 fen1.96026.0 g516111208 10/28 23:30 NQ 50 n128_m15 fen1.96027.0 g516111208 10/28 23:30 NQ 50 n128_m15 fen1.96028.0 g516111208 10/28 23:30 NQ 50 n128_m15 fen1.96086.0 g516111208 10/29 16:17 NQ 50 n128_m15 fen1.96087.0 g516111208 10/29 16:17 NQ 50 n128_m15 fen1.96088.0 g516111208 10/29 16:17 NQ 50 n128_m15 12 job step(s) in queue, 2 waiting, 0 pending, 4 running, 6 held, 0 preempted