Windows XP Windows 7 Windows 2003 Windows Vista Windows教程綜合 Linux 系統教程
Windows 10 Windows 8 Windows 2008 Windows NT Windows Server 電腦軟件教程
 Windows教程網 >> 電腦軟件教程 >> 服務器技術 >> 關於服務器 >> 案例回顧:雙機熱備 讓服務器永不間斷

案例回顧:雙機熱備 讓服務器永不間斷

日期:2017/2/8 10:33:30      編輯:關於服務器
         系統故障可能由各種原因引起,服務器若想恢復正常可能需要10分鐘、幾小時甚至幾天。

  我原來的單位作為北京市某區的網絡核心,針對不同的業務部門的應用平台就有20多個。而重要部門的外網網站和內部的OA也有20余個。其中政府網絡自動化辦公平台搭建於2001年初,經過了5年的升級改造後,現在運行的已經是第四版了。這個平台不但作為區內所有政府單位、各委辦局、街道辦事處等等部門的信息通訊平台,同時也是整個公文的流轉載體,地位之重可想而知。

給服務器找個替身

  某日,該區的核心服務器出現嚴重故障,導致數據丟失。我作為一名有十年工作經驗的信息主管,對於這台服務器幾年內遇到的故障問題可謂是膽戰心驚,想必大家也都清楚一個網絡管理的常識,那就是使用率越高,故障率也越高。

  在修復服務器之後的一個月,單位派我參加網絡安全的學習班。其實我早就聽說過“雙機熱備”這個名詞,不過真正了解它還是得益於學習班中的“保障業務連續性”的內容。

  很多廠商為我們解釋的“零”時間轉換,其實是不可能做到的,從實際應用的效果當中,或者從一些真實的案例中我們不難看到這只是一種相對的“零”時間。一般的系統能夠保持1分鐘進行主機轉換已經是一種比較好的設計了。 //電腦軟硬件應用網 WWW.45IT.COM

  雙機熱備由備用的服務器解決了在主服務器故障時服務不中斷的問題,但在實際應用中,可能會出現多台服務器的情況,即服務器“群集”。(這裡我需要說明一下,根據Cluster的正確翻譯我們應當將這種多服務器正是命名為——群集,而不是集群)如果我們更加具體的解釋雙機熱備系統,那麼就可以理解為Active(活動)與Standby(備用)方式存在的兩台服務器,它們共同使用一個共享的存儲設備。在同一時間內只有一台服務器運行,當其中運行著的一台服務器出現故障無法啟動時,另一台備份服務器會通過軟件診測(通常叫做心跳診斷)將備用服務器激活,保證應用在短時間內完全恢復正常使用。

准備部署雙機熱備系統

  從學習班回來後,我們單位按例召開每月的工作交流會,借助我區建立安全信息平台的計劃,我提出了建立雙機熱備的必要性。我們系統部每天接到的系統故障保修電話不下30個,這些故障類型繁多,如設備故障、操作系統故障、軟件系統故障等等。

  網絡操作人員和系統管理員人為的恢復服務器正常可能需要10分鐘、幾小時甚至幾天。而如果技術人員不在現場,則恢復服務的時間就更長了。這次OA的故障實屬特殊,可能有些系統工程師干一輩子都遭遇不到這樣的情景:RAID5磁盤陣列中的兩塊硬盤同時掉線;備份系統剛剛遷移到新的機房。當時感到的壓力是從來沒有遇到過的,在感謝IBM工程師及時修復的同時,我感到建立更加完善的保障體系更加重要。

  大家都清楚一個道理:服務器故障率要比交換機、存儲設備的故障高得多。原因很容易理解,服務器是比交換機、存儲設備復雜得多的設備,它既包括硬件,還要包括操作系統合應用軟件系統。決定是否使用雙機熱備,正確的方法是要分析現有系統的重要性以及對服務中斷的容忍程度,以此來決定是否使用雙機熱備。

  不僅設備故障可能引起服務中斷,而且軟件方面的問題也可能導致服務器不能正常工作。決定采用雙機熱備系統的“最終條件=用戶容忍時間-系統恢復時間”,根據以前的調查表,和每天接到的咨詢電話,OA的用戶端最長的等待時間不超過一小時,而我們要從備份中恢復的最快時間要超過6小時。由此可見,建立雙機熱備系統勢在必行。

選擇部署雙機熱備的方式

  報告也打了,資金也批了,到了開始組建階段我到犯了難。我了解到雙機熱備有兩種實現模式,猶豫的原因是到底選擇哪種方式建立?一種是基於共享的存儲設備的方式,另一種是沒有共享的存儲設備的方式,一般稱為純軟件方式。

存儲共享式

  對於這種方式,采用兩台服務器,使用共享的存儲設備(磁盤陣列櫃或存儲區域網SAN)組成。在對外提供服務過程中,兩台服務器將以一個虛擬的IP地址對外提供服務,當一台服務器出現故障時,另一台服務器根據心跳偵測的情況做出判斷,並進行切換,接管服務。由於使用共享的存儲設備,因此兩台服務器使用的實際上是一樣的數據,由雙機或集群軟件對其進行管理。

純軟件方式

  簡單地講,純軟件方式就是通過鏡像軟件,將數據實時復制到另一台服務器上,這樣同樣的數據就在兩台服務器上各存在一份,如果一台服務器出現故障,可以及時切換到另一台服務器。還有一種情況,群集也不需要使用共享的存儲設備,而可以直接使用雙機或群集軟件即可。但這種情況其實與鏡像軟件無關,只不過是上面的共享模式下的一種變化而已。

  經過了系統組的討論,最終選擇了“存儲共享式”。原因有三:

  1. OA是建立在Windows IIS + SQL Server平台上,采用Windows 的 Cluster Services不會出現兼容性的問題。

  2. Windows Cluster的建立通過簡單的培訓整個系統組都能進行管理,具有通用性,也能保證今後的升級不會造成麻煩。

  3. 考慮到OA今後的數據量,將購買軟件的資金投入到存儲設備上更加合理。

  在隨後的一年多時間裡,其間雙機熱備系統出現過單點故障。其中有一次是一個系統補丁安裝完以後造成IIS無法啟動,和OA的廠商共同模擬故障後找到了原因。不過,OA在這一年裡卻沒有停止過。
Copyright © Windows教程網 All Rights Reserved