none
Server 2003 R2當作File Server 不明原因系統無回應,絕對的怪問題。加RAID卡,已經一個多月,最有可能的猜測!!!

    問題


  • 請教各位前輩,最近遇到的一件怪事。
    2008年一月,公司購買了一台新的Server,用以取代舊的File Server,原本舊的Server是Server 2003 storage server,配備為CPU:C2.4 Ram:1024,硬碟兩顆160G。
    新的Server為1U的機架式主機,Tyan主機,CPU為E5335 2.0四核心,Ram:2G。兩個網卡為Intel PRO/1000 EB,顯示卡為XGI Z7晶片,使用On Board Intel RAID做RAID 1。問題描述與處理經過如下:
    1. 該主機購買來之後,使用公司購買的Server 2003 R2授權安裝,安裝完全無誤,也有更新到最新的Hotfix,加入網域後,只用於File server,並且加裝[檔案伺服器資源管理員]設定資料夾配額,還有利用另外一台DPM主機的Agent備份此台File Server。一開始幾天運作正常。後來就開始出現不知名原因死當。在舊主機時,也是類似設定,都沒有這種情形。
    2. 死當情況:一定是User發現網路磁碟機無法連線、無回應,資訊人員前往主機查看,發現稍微動一下滑鼠,整台主機就死當(應該說已經死當),系統完全沒有回應,強制reset按下,重新開機後,沒有任何錯誤訊息,只顯示何時系統異常重新開機的錯誤。完全沒有為什麼hang住的log。當的時候DPM agent都不是運作時間。
    3. 死當頻率:經過了三、四個月的紀錄,完全沒有規則性,有時候兩天,也有過五天、八天、十多天才死當。系統沒有回應的情況都一樣是User發現網路磁碟機沒有回應,主機就死當。
    4. 處理經過:最開始,更新了顯示卡的驅動,通過微軟認證的---一樣會當;安裝了Intel Storage Manager,更新了On board RAID驅動---一樣死當;後來跟該主機的原廠討論後,第一次更換記憶體---還是死當;第二次更換過整台1U主機,除了CPU、硬碟、記憶體沒換---還是死當。現在在測試網路上有人建議的,將網路卡的省電功能關閉,還不確定是否是這個原因。
    5. 因為主機都整台換過了,還是會不定期、不明原因死當,依然沒有Hang住或是Lag的錯誤訊息,所以決定重新安裝Server 2003 R2。但是很怕重灌過還是一樣。
    請教各位前輩,只當作File Server的2003 R2,搭配新的內建服務[檔案伺服器資源管理員]設定配額,有透過DPM來備份,會造成主機死當,而且沒有任何錯誤訊息嗎。機器都換過了、而且在舊的主機時,效能更低,也沒有這樣當過。希望大家幫忙想想可能性,謝謝。
    2008年7月2日 上午 02:43

解答


  • 10/10加上獨立的RAID卡後,最後的原因判斷。分為兩種組合情況。
    1. 如果您的Server是類似Intel ESB6321的south bridge(不確定是否有其他晶片組) + Intel Onboard ESB2 Raid Controller 也在南橋 + Intel Pro/1000 EB網卡 + Server 2003 R2 file server,在這種組合下,更新了所有驅動,您還是會當,主要是south bridge同時要跑模擬的RAID控制與網路卡(沒有獨立的網卡晶片),當不定時出現I/O異常時,主機就Hang住或Freeze,但是重開後又好。這種情況,我研判不加獨立的RAID卡的話,除非Intel確認真有此I/O問題,邊Debug邊改寫驅動才有救,但是他們會認為ESB2不適合用在正規的RAID控制。
    2. 如果您的Server是類似Intel xxxxxx的south bridge(不確定是否有其他晶片組) + Intel Onboard xxxx Raid Controller 也在南橋 + BroadCom adapter網卡 + Server 2003 R2 file server,在這種組合下BroadCom adapter有獨立的晶片,所以更新了最新的BroadCom adapter驅動,似乎就能解決問題了。
    上面是研究了台灣與美國提問時,相關同樣遇過主機異常死當的MIS,反應之後的結論,而解決了的電腦,大部分都是有獨立網卡晶片的Server Board,更新驅動後就OK。目前加上獨立的RAID卡,因為是設備廠商的經驗,而且反應給Intel是否ESB2 Raid Controller有問題之後的建議。持續觀察中。

    2008年10月18日 上午 02:08

所有回覆


  • 主要是希望各位前輩,有沒有人有遇過Server 2003 R2沒有任何錯誤訊息的死當,以及後來成功解決的方法或是問題的原因,已經找的四個月,該試的都快試完了,還是無解。謝謝。
    2008年7月2日 上午 03:10
  • 那台主機上面除了Windows Server原有的服務及功能外

    還有安裝什麼軟體嗎?

    2008年7月2日 上午 04:50
    版主

  • 沒有,只有裝驅動,連server 2003沒有用到的服務都沒裝。最多是有Windows DPM 2006遠端裝入的DPM Agent,這是用在DPM備份用的,也是微軟本身的產品,備份都正常於凌晨運作,沒有錯誤。
    2008年7月2日 上午 05:06
  • 說真的,我用2003 R2到現在還沒有碰到突然完全死當的狀況

    我個人比較傾向於是硬體上的問題

    建議請伺服器原廠協助你們測試或許會比較早找到問題

    2008年7月2日 上午 07:43
    版主

  • Dear AsksSu
      很感謝您的回應,因為我總共有多台的Server 2003,雖然只有這台是新裝的R2,但是其他台也都沒有這種狀況。由於主機只剩下CPU與硬碟沒換過,說真的,我也是無法找出原因,才來論壇貼問題。
    1. 不知道在100多個User連結網路磁碟機,是否會造成file server瓶頸。
    2. 或是file server上有些檔案,要用特殊的3D圖形軟體solid works開啟,是否會造成主機異常。
    3. 還是file server中有些公司自行開發的程式執行檔(連結其他台的SQL),只有提供user網路開啟,是否可能會影響到主機。
    4. Server主機上的On board RAID是Intel ESB2的,用做四顆硬碟的兩顆兩顆做RAID 1,是否會造成異常。
    以上是我沒接觸過的方向,但是因為認為不可能(舊主機也是跑這些東西),所以先前沒有提出。但是,目前死當的時候,真的都沒有錯誤的Log,是最困擾的。希望大家多多提供意見,非常感謝。
    2008年7月2日 上午 08:29
  • Dear janhome,

     

      如果沒有event log,要找出當機原因除了逐一更換硬體外,還可以試試Windows Kernel Debugger.

      這裡有一篇簡介性質的文章,你可以動手試試.

     

    2008年7月2日 上午 10:11
  • 這問題我估計是 user 打開網絡磁盤時,網絡沒有回應,client 一直在 hang 死的情況。

    請檢查以下幾個問題:

    1: Win2003R2 先退出 Domain, 然後重新加入Domain。

    2: 加一張新網咭入Server,關閉舊網咭。

    3: 檢查 Client 和網絡中電腦有否中毒。

     

    Thanks.
    2008年7月3日 上午 03:35

  • Dear Trend Wong
      很感謝您的回應。第二項,因為主機整台更換過了,所以server的板子都換了,網卡已經更換過了,所以跟網卡可能比較沒有關係。
      第一項,重新加入網域的動作,我會找時間測試看看。
      因為目前在測試網路上查到的

    http://qa.pcuser.com.tw/modules/newbb/viewtopic.php?topic_id=32499&forum=56

    ,建議將網卡上的[省電功能]關閉,所以暫時不做其他測試,以確認是否是這個原因。
      至於第三項,先前有裝過防毒,完整掃描,都沒有異常,後來測試是否是防毒造成,有移除掉。現在已經安裝回去了,也是持續觀察中。
      不知道各位前輩認為網卡上的[省電功能]是否會影響到整台Server hang住。謝謝。

    John
    2008年7月3日 上午 03:55
  • 實務上,我是碰過HP的商用桌上型電腦在XP SP2的環境下

    Broadcom網卡驅動預設開啟省電功能後,會有不定時死當狀況

    不過後來公司進的HP商用電腦,

    由於我都會降版裝XP SP3,加上驅動會抓最新的安裝

    之後就沒遇過了

     

    伺服器的話,倒還是第一次聽到,

    不知道你的網卡驅動是否有試過從Intel網站抓最新版的?

    像我的習慣是,只要是驅動程式都會抓原廠的

    而不是伺服器的廠牌網站放的

    2008年7月3日 上午 07:15
    版主
  • Intel的網卡驅動,我倒是沒有更新過,這幾天,已經開始測試將Intel網卡的[省點功能]關閉,如果經過兩三週都沒事,我想應該是網卡這邊的問題。Intel或是其他網站,是否有相關紀錄說明網卡[省電功能]會造成不定時死當,如果各位前輩有看過,是否可以提供出來,可以去參考或是研究一下。謝謝。
      另外,網卡的系統資訊為Intel PRO/1000 EB Network Connection with I/O Acceleration,查看主機板手冊,寫的是i82563EB Dual PHY,是否就是Intel® 82563 Gigabit 乙太網路 PHY此網卡。雖然下載PROSet工具都是包含所有的驅動,但是還是想確認一下真正的規格。
      目前看網卡的內容,PROSet版本為10.3.32.2版,新下載的為13.0,不知道Intel舊的版本如果有問題或bug,可以去哪裡查詢。謝謝。



    2008年7月3日 上午 09:19
  • PROSet的下載頁面

    有個RTF格式的「版本資訊」檔案

    裡面有大概提到一些Bug,不過我覺得應該不是最完整的

     

    其實我下載PROSet都沒在管伺服器的Intel網卡是哪個型號

    目前為止好像還沒碰到過灌PROSet後,Intel網卡辨識不出來的

     

    除非是那種OEM給其他廠牌的網卡

    比如HP出的網路卡,明明上面是Intel晶片

    但由於HP已經改寫韌體,所以只有HP出的驅動才能使用

    2008年7月3日 上午 09:57
    版主

  • Thanks AskaSu
      目前先往網卡方面做測試了,再來就是等待,如果能過三天、五天、十天、十五天到一個月每個階段都不死當,那應該就能夠判定原因了,開始等待,也謝謝各位前輩的幫忙。當然,如果不幸再發生,那還是會繼續跟大家討論的。謝謝。

    John
    2008年7月4日 上午 01:42
  • Dear :

     

    你的問題若是有安裝 Windows 2003 SP2建議先上Hotfix 948496 (http://support.microsoft.com/kb/948496)

    另外是否有防毒軟體,有的話建議停掉測試,若是Office Scan 8.x 參考http://support.microsoft.com/kb/923125

    可以建議也停掉DPM進行測試。並且死當是否有出現Event ID 2019 ?

     

    以上

     

     

    2008年7月4日 下午 04:48

  • Thanks Mike
      謝謝您的建議,我有去看第一篇文件了,該更新因為我都有即時更新,早在三月分就已經更新,其中一項處理方式也是建議更新網卡的驅動程式,而內容感覺也跟網卡的一些設定有關係,目前仍持續測試是否是網卡驅動的問題中。此部分也已經列入測試規劃。
      第二項的防毒部分,因為我先前測試過不論有無防毒軟體,系統仍然會不明的死當,所以已經排除該部分的原因了。
      第三項的部分,前文已經提到過,死當完全沒有錯誤Event ID,所以才是最頭痛的,如果有Event ID相信原廠也比較好抓問題,結果沒有,所以我們才會測這麼久,連機器換了,都沒有結果。

    John
    2008年7月5日 上午 02:21
  • Dear Jan

            請問您的問題解決了嗎? 我也是碰到跟您很類似的問題,也持續好幾個月了,也都沒有相關log,也是不定期的當掉...以下是敝公司的狀況:

    1. Server 的OS是 Win Server 2003 R2,安裝的服務都跟您一樣

    2. User透過網路磁碟的方式,使用該server上分享出來的資料夾

    3. 系統沒有死當,網路也有通,但網路磁碟會無緣無故無法開啟,然後無論我們用任何方法(除了重開機以外)都再也無法開啟任何一個分享的資料夾,會出現【找不到網路路徑】的錯誤訊息

    4. 與那台Server同型的設備我們公司還有另外5台,另外5台則從沒發生過同樣的問題,直到某一天某一台也需要讓user用網路磁碟的方式去開分享的資料夾,過沒幾天也出現一模一樣的問題

     

          根據上面的結果,我推測可能是網路磁碟的連線方式導致Server的某service終止運作了,我有在這個論壇上有找到另一篇也是很類似的情況,有人推論是BroadCom的晶片所造成的,因此我一直在找其他網卡來測,但還沒找到...

     

          這個問題也困擾我們很久了,希望我的內容有幫助道您,也希望若您的問題解決了可以說明一下,讓大家參考參考,謝謝。

     

    2008年7月7日 上午 03:24

  •   目前公司在測試,將[裝置管理員]-->[網卡]內容中的[電源管理],取消[允許電腦關閉這個裝置以節省電源]的勾選,還沒有結論,因為必須要等到將近一個月沒死當,才敢確認是否找到原因,屆時會將此問題結案。(網卡驅動已經準備好,我還沒更新,目前先測這個項目,當然到時候還是會更新網卡的驅動的)
      在這之前Askasu前輩有提到網卡的驅動建議更新到官方網站最新的,到時候一定會做的,如果您還沒做過什麼測試,可以先請您更新網卡驅動測試,大家再來樣本比較看看,不知道您網卡的型號是?
      但是看你的異常情況,跟我有一點點的差異,我們這邊的情況,是User無法使用網路磁碟後,去看server主機,server主機已經Hang住了,沒有任何log,之所以困擾我,是非上班時間遠端也無法重開機,我還是得跑到公司按server reset。如果hang住問題解決,就算服務異常,我遠端也可以觀察的出來原因與即時處理。不知道你server會hang住嗎?
      另外,昨天也在測試用戶端,因為公司有一台電腦XP Pro SP2,該台電腦也是常會不知明原因死當,有時候是IE,有時候office網路檔案。發現該員的網卡是Intel PRO/100,而且驅動在2003年的版本。也幫那台主機更新驅動了,目前觀察中。
    2008年7月7日 上午 05:21
  • Dear Jan

           網卡的省電設定之前已停用,但沒效,網卡的型號是BroadCom NetXtreme Gigabit EtherNet ,這兩天更新驅動程式試試看。這種沒有log的錯誤真是麻煩

     

           我覺得有可能是因為,網路磁碟的連線方式等於和FileServer之間的連線完全不中斷,這樣的方式導致Server端的軟體或硬題撐不住,而使service中斷...

     

           有任何結果再互相回報吧,謝謝囉!

    2008年7月7日 上午 06:13

  • 目前也有去美國微軟的技術論壇詢問同樣問題,但是都沒有人有經驗,目前比較大膽的假設,因為我有同類型的主機是Server 2003非R2版本,所以主要研判可能是server 2003 R2跟部分舊的網路卡驅動版本,有相容性問題。但是,所有的結論還是得等到不會再當才是結論。
    2008年7月7日 上午 06:23
  •   今天Server 2003 R2這台File Server又死當了,這次撐了十天。但是至少確定了兩件事情。

    1. 網卡停用省電設定,跟目前我的當機問題是沒有關係的。
    2. 這次也再度確認了有沒有裝防毒軟體是沒有影響的。

      雖然今天又死當了,但也讓我早一步正式更新該主機的Intel網卡驅動,希望一切就能像Askasu提供的建議,一切都平安無事。

      另外,有發現一件怪事,就是網卡驅動未更新前,該Server的[電腦管理]的[工作階段]中的電腦清單,一開始一些電腦會顯示IP,過一兩天後才會變成FQDN。但是更新驅動後,一開始就會顯示FQDN,這裡就蠻奇怪的,難道真的是驅動程式太舊的關係。開始另一階段的持續觀察........

    2008年7月12日 下午 01:34

  • 用很破的英文去美國微軟技術論壇詢問,目前已經有人提出類似的情況了,但是目前也是無解。他使用的是HP ML 350 G5 x64機型。
    http://forums.technet.microsoft.com/en-US/winservergen/thread/24646d23-d1cf-4768-a086-3fcc182691c9
    不知道是否有微軟技術人員能夠探討這個問題,因為該美國廠商的經驗研判可能是Server 2003 R2與SP2的相容性問題。大家可以討論看看。目前我仍然在測試網卡驅動程式更新後的狀態。目前兩天..........觀察中。
    2008年7月14日 上午 01:15
  • Dear Jan

          我更新網卡Driver後,到今天為止剛好一週,目前未當機..

          我在前一家公司也有架過File Server,也是Server2003 R2 + SP2,但從未當過,當時的使用和現在不太一樣,當時所有的Client都是用\\fileserver 這種方式進去的,頂多就是拉捷徑,但沒人用網路磁碟的方式去連...,所以我會推測可能是網路磁碟所造成的。再觀察看看囉!

     

    2008年7月14日 上午 01:31
  • 今天又剛好想到一個曾經碰過電腦無訊息死當的案例

    由於電源供應器的瓦數不足或不穩

    導致硬碟或其他硬體設備突然中斷動作而無預警當機

    看能不能找到PowerAngel這種設備稍微監測電力使用狀況

     

    至於使用網路磁碟的方式

    以我們公司約100人來說,幾乎全部的電腦都有加入網域

    並且用指令的方式強迫帶入個人的網路磁碟空間

    倒是沒有發生什麼異常狀況

    也供大家參考看看

    2008年7月14日 上午 09:46
    版主

  • Dear hsucych
      您目前測試狀況如何,這邊也還持續觀察中,也許你的推測沒錯,可能是舊版的驅動與NET USE有些莫名的衝突造成,希望驅動程式更新後,我們都能持續OK的運作。

    John
    2008年7月22日 上午 01:35
  • Dear Jan

          到目前為止都還沒當,這次是至今維持最久的一次(兩週又兩天)!我想如果四週過去後都沒問題的話,應該就沒問題了!現在每天(含假日)都去連連看,有狀況互相通報囉!

    2008年7月22日 上午 10:42

  • 已經觀察17天了,超過先前紀錄的最長時間,所以先標記答案,繼續持續觀察下去,如果OK,就準備安排時間系統備份了。
    2008年7月29日 上午 02:52
  •  hsucych 寫信:

    Dear Jan

          到目前為止都還沒當,這次是至今維持最久的一次(兩週又兩天)!我想如果四週過去後都沒問題的話,應該就沒問題了!現在每天(含假日)都去連連看,有狀況互相通報囉!



    Dear Hsucych
      你的設備已經更新網卡驅動將進一個月了,不知道你那邊是否OK,目前我這邊也觀察到30天了,今天將系統備份了。

      另一個猜測的可能性,就是Server 2003 R2提供給File server新的FSRM功能,檔案伺服器資源管理員,也許是此工具與舊版的網卡驅動會有異常的情況,當然,這也是我的猜測而已。

    週一8/12系統被其他MIS異常開關,發現了一個錯誤,目前已經下載Hotfix要測試安裝了。此Hotfix是沒有外放的,有此錯誤才要安裝。

    http://support.microsoft.com/kb/932578

    John
    2008年8月6日 上午 08:47

  •   8/26再度發生,又回到無解的情況。先前跑了一個多月都正常,現在同樣的當機,滑鼠能動,其他東西都不能點,只有工作管理員畫面能切換[效能]與[網路功能],鍵盤也沒有反應,而網路完全沒有回應,但是有下角網路的那個圖案,其中一個電腦圖案恆亮。
      差別的情況是,今天重新開機後,使用者還是無法連上網路磁碟機,後來停用網路介面卡,然後重新啟用網路介面卡,使用者才能連上。又要重新開始找原因了。可能會先將網路卡驅動整個移除,只裝Intel驅動,不裝Proset試試看。
    2008年8月26日 上午 08:28
  • Dear Jan

              由於我們半個月前有搬過家,所以等於又重新開機了,因此也無法確定是否問題仍然存在,只是到目前為止沒有再發生。很傷腦筋的一個問題...考不考慮換網卡? 換其他晶片的試試看...

    2008年8月26日 上午 11:18

  • 不知道微軟技術人員有沒有人幫忙研究一下,因為在美國的詢問,又有另外一位工程師遇到同樣情況,而且他使用不只一台Server 2003 R2,分別用了linksys line100tx V5與boardcom兩種網卡的機器,都有此情況,可看下面連結,真的是試到快要沒有方向了。昨天已經將驅動與硬體完全移除,只安裝驅動程式上去(Proset那些工具都沒裝),開始新的測試。

    http://forums.technet.microsoft.com/en-US/winservergen/thread/24646d23-d1cf-4768-a086-3fcc182691c9

    而且,這邊有時候當的時候跟美國論壇那位先生說的一樣,是User在儲存Excel檔或是一些共用檔案時,就忽然死當。真的原因不明???
    2008年8月27日 上午 05:20

  • Dear hsucych

      
    想跟您確認一件事,就是,你那台server是否有使用Onboard的Raid controller,像我是使用Onboard Intel ESB2 SATA RAID Controller做為我那台Server的Mirror,你呢,如果你也是用Onboard的,那我可能要測試是否是Onboard Raid瓶頸的問題(準備大工程加裝Raid卡)。如果你先前的設定沒有用到Raid或是用外接的Raid卡,當時也會這樣當,則我要將此Onboard Raid Controller可能性排除。麻煩您提供一下資料,先謝謝您的回覆。
    2008年8月28日 上午 03:00
  • Dear Jan

              我的機器的確是Onboard 的Raid Controller,型號應該是LSI Logic EMBedded MegaRaid,也是兩顆HD作Mirror。我在前公司時的File Server 則是用外接的Raid Card,而從沒當過,但那時沒有讓全公司User 用網路磁碟的方式連到File Server,因此我一直認為是使用方式的不同所造成的,不過也真的有可能是Raid Card 的關係,anyway,若之後有任何測試結果時,請再回覆一下,謝囉!

     

    2008年8月28日 上午 06:11

  •   因為目前在美國微軟詢問有同樣狀況的資訊人員,有人回應說他使用的有On board RAID與微軟的磁碟管理軟體RAID,結果兩台都有這種情況,所以我也不確定。
      那麼,就反過來問各位看官,你是否有Server 2003 --R2-- 的主機,而且使用Server主機上的On board RAID控制器,並且用做Miirror,而且跑了很久都沒問題的,因為還是想先確認On board RAID控制器異常的可能性,否則要加裝RAID卡,我的主機等同要重裝了。請各位提供意見看看,不管有沒有遇過,謝謝。
    2008年8月28日 上午 06:43
  •  janhome 寫信:

    不知道微軟技術人員有沒有人幫忙研究一下,因為在美國的詢問,又有另外一位工程師遇到同樣情況,而且他使用不只一台Server 2003 R2,分別用了linksys line100tx V5與boardcom兩種網卡的機器,都有此情況,可看下面連結,真的是試到快要沒有方向了。昨天已經將驅動與硬體完全移除,只安裝驅動程式上去(Proset那些工具都沒裝),開始新的測試。

    http://forums.technet.microsoft.com/en-US/winservergen/thread/24646d23-d1cf-4768-a086-3fcc182691c9

    而且,這邊有時候當的時候跟美國論壇那位先生說的一樣,是User在儲存Excel檔或是一些共用檔案時,就忽然死當。真的原因不明???


    美國有一位同樣情況的先生,建議安裝下面的工具,請問有人知道UPHClean是什麼功用嗎,目前已經抓了英文版的,但是沒有繁體中文版的。

    http://www.microsoft.com/downloads/details.aspx?familyid=1B286E6D-8912-4E18-B570-42470E2F3582&displaylang=en

    說明書中有提到,如果應用程式的log有出現1517,  1524 , 1500 好像就要裝,下面是Read me中的描述,其中的1500項目(可是不是Error,是藍色金嘆號的資訊項目),我查詢我那台Server 2003 R2在裝機完當天有出現過1500的log,不知道跟他最後一句話有沒有關係,擷取了一小段如下,看的不是很懂?

    HOW CAN I TELL IF I'M HAVING A PROFILE UNLOAD PROBLEM?
    ======================================================
    ...
    ...
    Userenv/1500:

    Windows cannot log you on because your profile cannot be loaded. Check that you
    are connected to the network, or that your network is functioning correctly. If
    this problem persists, contact your network administrator.

    This last error (1500) is relevant if you find one of the other ones earlier in
    the application log.
    2008年8月28日 上午 09:05
  • Dear Jan

              那段的意思如下:

               Windows無法登入,因為你的profile檔案(C:\Documents and Settings裡面那些資料夾)無法載入,檢查你是否連到網路,或是網路設定是否正確,如果問題仍持續,請聯絡網路管理員。

     

    這個錯誤是重要的,如果你有發現其他更早發生的log(可能是指1517、1524吧)。

     

    希望對你有幫助。

         

    2008年8月31日 上午 06:48

  •   目前都沒有看到1517、1524兩個Error,而只出現過一次的1500項目顯示的類型是正常的[資訊],也不是Error,所以我暫時將該UPHClean列為測試項目第一順位,未處理。
      當然,如果您的伺服器在更新驅動後,已經都正常持續運作下去超過一、兩個月以上,記得互相回報一下,這樣也許你的問題解決了,我的就是個人設定問題。Keep going
    2008年9月1日 上午 03:11

  •   2008/9/5剛才又當了。但是,這次我確定是我正在使用一台User的NB,點網路磁碟很慢很慢,我重複動作,過了約十分鐘之後,就有其他User打來說沒辦法連線網路磁碟機了。所以,在此猜測,是當某台網路磁碟機很慢,User重複動作想連,又登出又登入,又再度連結網路磁碟機,結果主機接到的封包異常,最後無法反應造成。[但是不是每次都那那台NB造成,每次都不一定是哪台電腦出現該種情況]
      所以,今天先裝美國微軟論壇那位先生建議的"User Profile Hive Cleanup Service"試試看。看看UPHClean有沒有作用。

    http://www.microsoft.com/downloads/details.aspx?familyid=1B286E6D-8912-4E18-B570-42470E2F3582&displaylang=en

      剛才看完上面的Readme.txt,在想說,不知道我們該主機有放公用的自行開發程式在分享資料夾中,為Delphi開發,有的是報表,有的是資料庫連結存取、增、修的程式,User都直接在此File server主機上面點選執行。跟下面擷取的內容描述是否有關連性。是否有前輩能幫忙解釋一下,看的不是很了解,謝謝。

    WHY DO PROFILES NOT UNLOAD?

    ===========================

     

    Many system and service processes do work on behalf of users.  When the work

    is done the system or service process is responsible for releasing handles it

    has to the user profile hive.  If this is not done by the service as the user

    logs off the profile cannot be unloaded.

     

    This problem in code can be caused by improper coding either in Microsoft

    software or 3rd party software (e.g. printer drivers, virus scanner service,

    etc).  With the information provided by the system there is no way to find

    out what software needs to be corrected to allow profiles to unload.

     

    This problem can be caused for a variety of reasons.  While software developers

    are typically very careful about releasing handles, developing software that

    works on behalf of a logged on user is complicated.  It is difficult for

    software developer to have full control over how the registry is accessed.

    Service developers might want to see KB article 199190 for more information.

     

    While it is possible to identify the service (see KB article 221833), it is

    sometimes difficult to track this down the specific problem code.  Even when

    you do identify the problem code there maybe times when the developer of this

    code is not able to make the necessary changes.  This is the reason for

    UPHClean -- it takes care of the problem regardless of the reason why.


    • 已提議為解答 scott.chentw 2009年4月22日 上午 06:39
    2008年9月5日 上午 03:44

  •   9/7再度發生,這次跟老婆正在外縣市,千里迢迢的趕回,回到公司時確定整台停滯不動 ( 通常開始當時,滑鼠還能滑動,只是點東西都沒反應,如果有開[工作管理員],則還是可以切換其中的TAB,但是無法點任何其他東西,當了很久之後,滑鼠也會停滯不動 ) 。決定將全部的網路刪除,重新建立,並且重新退出與加入網域。這是最後一手了。如果不行,可能就會請設備廠商提供一組同樣的機種,此次加上獨立的RAID卡,然後再移機一次了。七個多月來,該測試的都測試了,還是沒有任何錯誤Log與訊息。
      如果真的是DPM與Server 2003 R2衝突,那兩者都是微軟的系統,也該給我一下Log吧。所以,如果再發生,只能說那是Onboard RAID效能瓶頸造成。謝謝大家的幫忙。不會心灰意冷,只是要跟這台機器和平相處還真難。出社會七年,唯一的一台怪問題。Keep going John.
    2008年9月7日 上午 09:08

  •   美國論壇的資訊人員也有人再度發生當機事件了,想詢問一下有2003 R2的人員,是否有人使用FSRM(檔案伺服器管理員)來製作[資料夾配額]。或是將[電腦管理]整天開著,看log或是session,從來不關。如果可以的話請測試看看,因為我這邊共有四台類似的Tyan server,其中有三台是Server 2003 sp2(非R2版本),而且是三個網路介面卡,因為非R2版沒有FSRM所以沒法測試。只有這台(已經整機更換過的),是使用Server 2003 R2 sp2,而且只有兩個網路介面卡。也只有R2的這台會當,光碟是官方的安裝光碟。
      另外,請問當過機的各位,你們Server的顯示卡是哪個晶片。謝謝。
      目前還是到處找可能性,持續下去,微軟公司的人員們,也許兩個論壇的案例不多,但是,能否幫忙探就一下可能的原因呢,謝謝。
    2008年9月12日 上午 01:52

  • Dear hsucych

      想請問一下,您目前的機器情況如何,如果Ok,能否確認一下下面的機碼在你的Server的設定值,謝謝。


    國外IT人員的論點,Server 2003 R2 其中的 Chimney 似乎有問題
    http://virtualizationreview.com/forums/forum_posts.asp?tid=3736&pn=1&Tpn=1

    http://support.microsoft.com/kb/912222

    檢查HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters 下

    EnableTCPChimney

    EnableRSS

    EnableTCPA

    其中TCPA的值為 1,是否可能造成莫名的當機問題。其他兩個值都為 0


    研究了其他 Server 2003 SP2(非R2)的機器,上述三個設定值都是 0 Disable,全部只有這台R2是有 Enable的項目的,不知道有沒有前輩知道這三個項目,在什麼環境下才要開,什麼環境下建議關閉。謝謝。


    http://www.wretch.cc/blog/NOVAASKA/6424074

    • 已提議為解答 scott.chentw 2009年4月22日 上午 06:39
    2008年9月12日 上午 04:31
  • Dear Jan

            我的機器從8/11移機到現在差不多一個月,目前沒當過。以下是那幾個機碼的值:

    EnableTCPChimney :0

    EnableRSS:0

    EnableTCPA:0

     

            希望問題就是出在這邊! 

     

    • 已提議為解答 scott.chentw 2009年4月22日 上午 06:39
    2008年9月13日 上午 02:49
  •  Mike Lin 寫信:

    Dear :

     

    你的問題若是有安裝 Windows 2003 SP2建議先上Hotfix 948496 (http://support.microsoft.com/kb/948496)

    .....

    以上

     

     



    Dear Mike
      回去觀看您先前的建議,發現其實現在討論到的情況,跟您當時的建議方案是一樣的,當時的直覺是微軟更新已經更新了Download the 948496 package now.此KB948496,理論上該三個Key,應該已經Disable,但是,現在感覺似乎沒有,而且你的建議比較接近網路莫名的斷線與死當問題。目前會繼續觀察的,謝謝你當時的回應,我會再研究與觀察的。

    John
    • 已提議為解答 scott.chentw 2009年4月22日 上午 06:39
    2008年9月15日 上午 06:27
  • Dear janhome:

     

               先回答您的問題

    1、100多個User連結網路磁碟機不會造成當機的,因為目前在我服務的公司的file server都是win2003 R2 Enterprise Edition,目前最高量連線數都在一千到兩千人以上,皆不會造成當機狀況,所以您不需要考慮這個問題。

    2、在SERVER上的用特殊的3D圖形軟體solid works開啟檔案的話,造您的方式說是直接在SERVER上開啟?還是分享出來使用者在client端開啟?如果是後者,不會影響到SERVER,前者的話,沒試過耶

    3、你說file server中有些公司自行開發的程式執行檔(連結其他台的SQL),只有提供user網路開啟?是分享出來使用者在client端開啟?那也是不會造成當機的

    4、您切RAID的方式也是正確的,大部分都是第一、二顆做RAID1(mirror),其他的做RAID5,大部分的人都是這樣規劃的,所以問題應該也不是出在這邊

     

    說真的,我比較傾向於硬體導向,因為我們公司有遇過PC~我是說PC喔!因為CPU有問題導致很常當機,參考看看囉,不過既然你都換過那麼多硬體測試過ㄌ,其實也不差CPU跟硬碟了,總歸一句~大家加油喔

    • 已提議為解答 scott.chentw 2009年4月22日 上午 06:39
    2008年9月16日 上午 06:01

  • Dear kuocp
      謝謝您的回應,所以第一點應該沒有問題。
      第二點部分,只是分享該類型檔案給Client端開啟,測了那麼久,正如你說的,應該也不會有影響。
      第三點,那些程式,都是封裝成執行檔,只是分享給Client端開啟,目前已經啟用稽核原則在觀察是否有異常存取的情況。但是一般來說,以前的經驗是沒遇過會造成檔案伺服器當的。還在觀察。
      目前還是持續觀察可能的原因,研究對象就是用稽核原則觀察最後存取的資料(如果再當的話),另外就是TCP Chimney的功能,網路上很多建議好像是說[不要啟用TCP Chimney,因為微軟的KB948496更新,也是用來關閉TCP Chimney的],這也還在觀察。反正,還是一步一步的繼續加油就是了。

    THANKS ALL
    2008年9月16日 上午 06:57
  •  janhome 寫信:


    Dear Mike
      回去觀看您先前的建議,發現其實現在討論到的情況,跟您當時的建議方案是一樣的,當時的直覺是微軟更新已經更新了Download the 948496 package now.此KB948496,理論上該三個Key,應該已經Disable,但是,現在感覺似乎沒有,而且你的建議比較接近網路莫名的斷線與死當問題。目前會繼續觀察的,謝謝你當時的回應,我會再研究與觀察的。

    John


      2008/9/17今天,在微軟更新時,順便重新更新了一次 KB948496 ,更新完成新開機後,TCP Chimney、RSS、TCPA都備Disable了,先前TCPA不知為何還是Enable。並且將[網卡]的[進階]的[接收端縮放比例]停用。再持續觀察就是了。
    2008年9月17日 上午 03:28
  •  janhome 寫信:


    Dear Mike
      回去觀看您先前的建議,發現其實現在討論到的情況,跟您當時的建議方案是一樣的,當時的直覺是微軟更新已經更新了Download the 948496 package now.此KB948496,理論上該三個Key,應該已經Disable,但是,現在感覺似乎沒有,而且你的建議比較接近網路莫名的斷線與死當問題。目前會繼續觀察的,謝謝你當時的回應,我會再研究與觀察的。

    John


      2008/9/17今天,在微軟更新時,順便重新更新了一次 KB948496 ,更新完成新開機後,TCP Chimney、RSS、TCPA都備Disable了,先前TCPA不知為何還是Enable。並且將[網卡]的[進階]的[接收端縮放比例](這個也是RSS) 停用。再持續觀察就是了。

    http://www.ithome.com.tw/itadm/article.php?c=42386&s=3

    2008年9月17日 上午 03:28
  • 還是當了。

    稽核原則攔截,沒有攔截到什麼原因造成,所以應該不是自行開發程式的問題。

    將TCP Chimney、TPCA與RSS關閉,還是一樣沒有結果。這次過了八天,也是死當。

    覺得是Intel Onboard的RAID功能不足,目前沒有辦法與方向了,決定雙十節請廠商備機,再度移機。這一次會用RAID Card。

    如果真的要說有什麼特殊情況,那就是在今天當之前前天開始,在這台機器分享的公司自行開發程式的執行檔(Delphi開發),搜尋MS SQL資料庫的一些搜尋程式,會出現[逾時過期]訊息,這兩天內,有時候又不會,而今天晚上就當了。但是也不敢保證此訊息跟當機有什麼關係。


    也許是一開始方向就錯了,因為每次當時,硬體面板上網卡的燈號還是一閃一閃,而面板上的硬碟燈號與四顆硬碟的燈號都停滯不亮,所以搞不好真的是Intel ESB2的效能不足造成。


    Anyway,有建議的請再提出,也非常感謝大家的討論,或是祝福我雙十移機後能後真正的解決此問題。這台新機,八個多月,怪問題無解,其他台都沒事,夠了。還是無解。

    2008年9月25日 下午 01:58

  • 請問有同樣情況的各位,你們的south bridge晶片是Intel  63xxESB或是ESB6321系列嗎?目前看主機板資料,好像兩個網路介面卡與RAID都是south bridge的,不知道該晶片是否有問題?
    重灌之前,死馬當活馬醫,把所有的inf、網卡與Intel Matrix storage manager都更新到最新。
    還是當呀。
    最後查詢了相關的可能性,並且與廠商討論,還是決定改用獨立RAID卡,系統重建。因為 Intel ESB6321晶片,在此台Server搭配5000V。而south bridge同時提供網卡與ESB2 RAID controller的I/O,所以試到如此,應該是I/O效能不知為何會造成Server 2003 R2停擺問題,而hang住的時候,滑鼠仍然可以動、鍵盤的Num Lock也還可以切換,但是就是所有東西停擺,而沒辦法等他回復,按Reset重開,也不會產生任何有用的錯誤Log,最多是跟你說幾點幾分異常關機的Log。只能朝I/O效能問題處理了。

    謝謝這麼長時間大家的意見。
    2008年9月30日 上午 09:15

  • 10/10加上獨立的RAID卡後,最後的原因判斷。分為兩種組合情況。
    1. 如果您的Server是類似Intel ESB6321的south bridge(不確定是否有其他晶片組) + Intel Onboard ESB2 Raid Controller 也在南橋 + Intel Pro/1000 EB網卡 + Server 2003 R2 file server,在這種組合下,更新了所有驅動,您還是會當,主要是south bridge同時要跑模擬的RAID控制與網路卡(沒有獨立的網卡晶片),當不定時出現I/O異常時,主機就Hang住或Freeze,但是重開後又好。這種情況,我研判不加獨立的RAID卡的話,除非Intel確認真有此I/O問題,邊Debug邊改寫驅動才有救,但是他們會認為ESB2不適合用在正規的RAID控制。
    2. 如果您的Server是類似Intel xxxxxx的south bridge(不確定是否有其他晶片組) + Intel Onboard xxxx Raid Controller 也在南橋 + BroadCom adapter網卡 + Server 2003 R2 file server,在這種組合下BroadCom adapter有獨立的晶片,所以更新了最新的BroadCom adapter驅動,似乎就能解決問題了。
    上面是研究了台灣與美國提問時,相關同樣遇過主機異常死當的MIS,反應之後的結論,而解決了的電腦,大部分都是有獨立網卡晶片的Server Board,更新驅動後就OK。目前加上獨立的RAID卡,因為是設備廠商的經驗,而且反應給Intel是否ESB2 Raid Controller有問題之後的建議。持續觀察中。

    2008年10月18日 上午 02:08