Windows XP Windows 7 Windows 2003 Windows Vista Windows教程綜合 Linux 系統教程
Windows 10 Windows 8 Windows 2008 Windows NT Windows Server 電腦軟件教程
 Windows教程網 >> 電腦軟件教程 >> 服務器技術 >> 關於服務器 >> 內存故障導致服務器工作異常

內存故障導致服務器工作異常

日期:2017/2/8 10:34:29      編輯:關於服務器

故障現象]    

 

   在辦公局域網中一台服務器裝有Intel Pentium Ш處理器,平時工作均正常,但最近經常出現藍屏死機故障,導致管理工作無法正常進行。事情是這樣的,我在一次死機的時候關閉了服務器,將其中的 S D R A M由原來的 12 8 M B升級到 512 M B,並且在系統C M O S設置中選擇載入最優參數設置(即選擇“L O A D  BIO S  D E F A U L T S”),對內存的每個單元進行檢測。在完成設置重新啟動服務器後,內存檢測一切正常,但是屏幕提示需要重新SETUP,單擊指定的“F2”鍵後又出現死機現象。

 

診斷過程  

      這個問題看起來好辦多了,既然是在添加操作之後出現問題,那麼首先            檢查是否新添加的設備本身有物理故障或者針對設備進行的設置有錯誤。於            是,我按照縮小故障源的思路把服務器中現有的內存條換回原來的樣子,然後以每次僅去除一個硬件設備的方法依次檢查軟驅、硬盤、光驅等設備。結果發現,系統的各個硬件設備並沒有存在故障問題。於是排除了硬件的故障,看來還是要換一個角度再檢查。

      由於啟動後系統提示需要重新SETUP,我根據這個現象分析,出現故障可          能與系統SETUP設置有關,特別是與對內存每個單元進行檢測的設置有關。在確定檢查的方向後,我關閉了服務器。然後再拔出電池對電池插腳進行短接放電,但是檢查之後仍然不能解決問題。我嘗試找到主板清除CMOS的跳線設置,將插腳線由1一2改為2一3 ,經過一段時候後再恢復原位。開機再試,結果系統恢復正常,沒有其他提示信息出現。接下來仍然對內存進行升級並調整CMOS SETUP設置,特別是注意將對內存的檢測設置為對每MB進行檢測,至此系統完全恢復正常。        

      原來出現故障的根本原因,是由於服務器對所安裝內存設置的校驗方式 與內存本身所支持的方式並不配合。看來,網管不光是要關心網絡的連接狀況,也要對網絡內使用的所有設備多加留心。

排除心得   

       1 內存校驗方式。

引起這個故障原因是服務器內存的缺省設置為ECC(帶校驗),同時系統CMOS 中又設置對內存的每個單元都進行檢測,但用來升級的普通內存並不支持這一操作,因此導致了上述的故障。這類問題的排除關鍵是要清除CMOS設置,調整有關參數設置。  

  實際上,內存有三種比較常見的校驗方式,下面進行簡單地總結。  

  對於內存的奇偶校驗(Parity)要從比特概念說起,比特(bit)是內存中的最小單位,也稱“位”,它只有兩個狀態分別以1 和0表示。規定將8個連續的比特叫做一個字節(byte)。非奇偶校驗內存的每個字節只有8位,若它的某一位存儲了錯誤的數值。就會使其中存儲的相應數據發生改變而導致應用程序發生錯誤。而奇偶校驗內存在每一字節(8位)外又額外增加了一位作為錯誤檢測之用。比如一個字節中存儲了某一數值“10011110”,把該數值的每一位相加,即 1+0+0+1+1+1+1+0-5,若其結果是奇數,校驗位就定義為1, 反之則為0。當CPU讀取儲存的數據時,它會再次相加前8位中存儲的數據 ,計算結果是否與校驗位相一致。當CPU發現二者不同時就作出一定的反應。現在主板都可以使用帶奇偶校驗位或不帶奇偶校驗位兩種內存條,但要注意兩種不能混用。

    而ECC(Error Chechng and CorreCting)內存,它也是在原來的數據位上外加位來實現的。如8位數據,則需1位用干Parity檢驗,5位用於ECC,這額外的5位是用來重建錯誤的數據的。當數據的位數增加一倍Parity也增加一倍,而ECC只需增加一位,當數據為64位時所用的ECC和Party位數相同(都為8)。在那些Parity只能檢測到錯誤的地方,ECC可以糾正絕大多數錯誤。若工作正常時,一般不會發覺數據出過錯,只有經過內存的糾錯後,計算機的操作指令才可以繼續執行。   

 SPD(Serial Presence Detecl串行存在探測),它是1個8針的SOIC封裝(3mm x 4mm)256字節的EEPROM(Electrcally Erasable Programmable ROM電可擦寫可編程只讀存儲器)芯片。型號多為24LC01B,位置一般處在內存條正面的右側,裡面記錄了諸如內存的速度、容量、電壓與行、列地址帶寬等參數信息。當開機時PC的BIOS將自動讀取SPD中記錄的信息,如果沒有SPD,就容易出現死機或致命錯誤的現象。它是識別PC100內存的一個重要標志。個別硬件廠商為了降低生產成本,又要從表面上符合PC100標准,於是就在PCB板上焊上一片空的SPD,這樣就有可能導致在100MHz以上外頻不能正常工作。   

 2 在CMOS中載入最優參數的方式。   

 另外,在這次的故障中用到了載入最優參數設置。CMOS SETUP載入最優參數的設置通常有兩種:一種是SETUP優化參數,它可以起到優化整個系統的目的,但是需要系統支持,因此穩定性不能得到保證;另一種則是BIOS優化參數,這種參數的穩定性最好,通常建議使用。當系統出現故障時,不妨先將穩定性最好的參數裝入,解決問題後再行恢復。需要注意的是,一般情況下不要輕易拔出電池,在解決故障中采用的放電操作的目的只是為了方便清除CMOS的設置內容。

Copyright © Windows教程網 All Rights Reserved