locked
HPC Cluster Manager之MPI Task RRS feed

  • 問題

  • 不知道版主是否試過在 HPC Server 2008上
    利用HPC Cluster Manager 去run 一個簡單的MPI例子( EX: Hello world)
    我發現我搞了很久 一直run失敗 目前判定是環境建置的問題
    每台PC也都也安裝了MPICH2 (MPICH2是否為必要安裝!?)

    今天若用MPICH2內建的wmpiconfig去看環境建置
    發現似乎找不到ComputerNode,Hosts只顯示本機"user"
    如圖:
    http://img269.imageshack.us/img269/6715/14977683.jpg
    有一個很奇怪的地方,在其它ComputerNode的wmpiconfig
    Domain部分顯示名稱卻為SERVER1(其他三台後面數字依此類推)
    卻無選單可選擇Domain:SERVER再利用MPICH2內建的mpiexec去run MPI的程式
    卻發現也都在本機跑而已,卻無在ComputerNode上執行
    如圖:
    http://img269.imageshack.us/img269/9430/20506492.jpg

    (到這邊似乎就能確認MPI環境設定是沒成功的)

    若用HPC HPC Server 2008內建的HPC Cluster Manager
    利用Run Diagnostics發現在MPI部分的測試都是Succeeded
    如圖:
    http://img163.imageshack.us/img163/7493/23749122.jpg
    (HeadNode:User)
    http://img29.imageshack.us/img29/9378/44036017.jpg
    (ComputerNode:Server4為例)
    然而在建立New Job並Add Task (MPI)卻也老是Failed

    By the way....
    在新增Task後 下方的Required Resources
    是指要執行MPI程式的所放之處嗎!?還是....!?

    在此提供簡單的MPI程式供測試
    載點:
    http://www.xun6.com/file/899af4f11/MPI.exe.html

    2009年11月16日 上午 09:54

解答

  • 我是覺得你應該先朝MPI.exe這支程式去找問題
    因為程式正常的話應該直接執行 mpiexec -n 5 C:\mpi.exe 此類指令時是不會報錯才對
    而你執行後會報錯..放到HPC Cluster裡面去run當然也是會有問題的

    根據該錯誤訊息(This application has failed to start because the application configuration is incorrect)
    我查到一篇MSDN論壇的討論..你可以參考看看..裡面提到似乎是 DLL檔沒有包進去執行檔裡面的樣子

    This application has failed to start because the application configuration is incorrect
    http://social.msdn.microsoft.com/Forums/en/vcgeneral/thread/36971526-95f3-4a9f-a601-1843c86332c1
    微軟技術支援服務
    • 已標示為解答 Vincent Lin 2009年11月21日 下午 03:24
    2009年11月19日 上午 04:12

所有回覆

  • MPI.exe 要如何執行? 我直接在cmd line 下執行會出現下面訊息

    The application has failed to start because its side-by-side configuration is incorrect.
    Please see the application event log or use the command-line sxstrace.exe tool for more detail.


    微軟技術支援服務
    2009年11月18日 上午 09:35
  • MPI.exe 要如何執行? 我直接在cmd line 下執行會出現下面訊息

    The application has failed to start because its side-by-side configuration is incorrect.
    Please see the application event log or use the command-line sxstrace.exe tool for more detail.


    微軟技術支援服務

    cmd line 下,我的指令為 mpiexec E:\MPI\MPI.exe (看你放在哪),但也是error訊息!!
    在HPC Server 要執行MPI程式,正確方法要用HPC Cluster Management介面系統去做一些設定
    2009年11月18日 上午 09:46
  • MPI.exe 應該是自行開發的吧
    你可以檢查事件檢視器的應用程式
    裡面會看到一些錯誤訊息
    微軟技術支援服務
    2009年11月18日 上午 09:54
  • MPI.exe 應該是自行開發的吧
    你可以檢查事件檢視器的應用程式
    裡面會看到一些錯誤訊息
    微軟技術支援服務

    的確...可以在HPC Cluster Management看到自己建置的job Failed的一些相關訊息
    試了n種不同設定(這邊指add job 及 task 過程中) 都是 Failed,
    不然就是狀態顯示runing放著他跑一整天也一樣維持runing
    然後安裝完MPICH2 利用內建的wmpiconfig去看環境建置
    發現似乎找不到ComputerNode,Hosts只顯示本機"user"
    如圖:
    http://img269.imageshack.us/img269/6715/14977683.jpg
    有一個很奇怪的地方,在其它ComputerNode的wmpiconfig
    Domain部分顯示名稱卻為SERVER1(其他三台後面數字依此類推)
    卻無選單可選擇Domain:SERVER
    再利用MPICH2內建的mpiexec去run MPI的程式
    卻發現也都在本機跑而已,卻無在ComputerNode上執行
    如圖:
    http://img269.imageshack.us/img269/9430/20506492.jpg
    到這邊似乎就能確認"MPI環境設定"是沒成功的
    (MPICH2是否為必要安裝!?)

    再利用HPC HPC Server 2008內建的HPC Cluster Manager
    利用Run Diagnostics發現在MPI部分的測試都是Succeeded
    如圖:
    http://img163.imageshack.us/img163/7493/23749122.jpg
    (HeadNode:User)
    http://img29.imageshack.us/img29/9378/44036017.jpg
    (ComputerNode:Server4為例)
    然而在建立New Job並Add Task (MPI)卻還是Failed

    與MPICH2內建的wmpiconfig比較來說
    那環境建置是否真的成功,正確無誤!?

    這陣子試了n種方法設定(指add job 及 task )
    自己總結歸咎原因為 環境設定問題噎
    但卻想破頭也想不出問題到底出在哪= ="

    有去美版的討論區(http://social.microsoft.com/Forums/en-US/windowshpcmpi/threads)
    po文章請教,卻一直無人回應!!
    2009年11月18日 上午 10:24
  • 我是覺得你應該先朝MPI.exe這支程式去找問題
    因為程式正常的話應該直接執行 mpiexec -n 5 C:\mpi.exe 此類指令時是不會報錯才對
    而你執行後會報錯..放到HPC Cluster裡面去run當然也是會有問題的

    根據該錯誤訊息(This application has failed to start because the application configuration is incorrect)
    我查到一篇MSDN論壇的討論..你可以參考看看..裡面提到似乎是 DLL檔沒有包進去執行檔裡面的樣子

    This application has failed to start because the application configuration is incorrect
    http://social.msdn.microsoft.com/Forums/en/vcgeneral/thread/36971526-95f3-4a9f-a601-1843c86332c1
    微軟技術支援服務
    • 已標示為解答 Vincent Lin 2009年11月21日 下午 03:24
    2009年11月19日 上午 04:12
  • 我是覺得你應該先朝MPI.exe這支程式去找問題
    因為程式正常的話應該直接執行 mpiexec -n 5 C:\mpi.exe 此類指令時是不會報錯才對
    而你執行後會報錯..放到HPC Cluster裡面去run當然也是會有問題的

    根據該錯誤訊息(This application has failed to start because the application configuration is incorrect)
    我查到一篇MSDN論壇的討論..你可以參考看看..裡面提到似乎是 DLL檔沒有包進去執行檔裡面的樣子

    This application has failed to start because the application configuration is incorrect
    http://social.msdn.microsoft.com/Forums/en/vcgeneral/thread/36971526-95f3-4a9f-a601-1843c86332c1
    微軟技術支援服務
    ths 我會去研究看看!!
    辛苦了...
    2009年11月19日 上午 05:16