none
роблема с запуском MPI задач. Как отключить контроль HPC Scheduler за узлами? RRS feed

  • Вопрос

  • Доброе утро.
    В лаборатории пробуем запустить тестовое распаралленное приложение на MS-MPI на Windows HPC 2008 на нескольких узлах,объединенных в один домен. При запуске из командной строки ошибка - планировщик не дает: "This node is a resource managed by the Microsoft HPC Scheduler and mpiexec was attempting to use it without a sheduled job"
     Регистрация задачи как job успеха не имела - система делает всем процессам terminated сразу после запуска.
    Запуск этой же задачи локально получается - сколько угодно потоков и все работает.
    Думаю во всех проблемах виноват "Microsoft HPC Scheduler "  - как отключить контроль над использованием узлов?
    Отключение службы не помогает.
    Пробовал и другим способом - через планировщик - тоже никак:
    вот лог задания (job):
    9:48:00 Submitted
    9:48:00 Started
    9:48:00 Started on NODE03 with 8 cores
    9:48:00 Started on NODE00 with 8 cores
    9:48:00 Ended on NODE00
    9:48:00 Ended on NODE03
    9:48:00 Job Failed

    строка запуска через планировщик mpiexec.exe   -hosts 2 node00 8 node03 8

    файл ошибок:
    job aborted:
    [ranks] message

    [0-5] terminated

    [6-7] process exited without calling finalize

    [8-15] terminated

    ---- error analysis -----

    [6-7] on node00
    \\node00\Share\mpi32.exe ended prematurely and may have crashed. exit code 0xc0000417

    ---- error analysis -----

    пробовал компилировать и как 32 и как 64 со static mfc library
    • Перемещено Yuriy Lenchenkov 21 декабря 2010 г. 14:39 (От:Windows HPC Server 2008)
    17 февраля 2010 г. 8:18

Все ответы

  • Используйте job submit /numnodes:2  -- он зарезервирует узлы для запуска MPI задач.
    22 февраля 2010 г. 20:17
  • Спасибо, попробую конечно из командной строки job создать но я же раньше делал это через центр управления - и там специально выделял узла для запуска.
    24 февраля 2010 г. 20:42
  • Ошибка оказалась совсем в другом - каждая копия программы пишет свой лог-файл на диске Х, который являлся подключенным сетевым, так вот - из=за этого программы и завершались.
     Как только файлы назначил писать на диске С - все стало работать нормально.
    27 февраля 2010 г. 19:29