毀滅性故障DHCP服務器大罷工

2022-08-14 16:30:20   admin    777

在不少企事業單位,出于節約資源或者便利的需要,往往在一臺P
C機上部署很多服務,這樣這臺PC就兼職較多服務器功能。這樣的
規劃確實方便了管理和維護,但也為網絡的安全、穩定運行埋下
了隱患。一旦網絡發生故障,對整個局域網的影響幾乎是毀滅性
的。和大家共享一個相關案例,以引起大家的重視。
一、網絡狀況描述
這個案例來自某高級中學的中心機房。在該校的中心機房里有不
少服務器,有為大多數計算機提供服務的公共服務器,例如DHCP
服務器。也有為專業機房和專業軟件服務的專用服務器,例如ERP
服務器等。其中僅有的一臺DHCP服務器為3個機房大約1500臺客戶
端提供服務,負責所有機房學生機IP地址的自動分配。通常情況
下,該校的機房至少有2個處于使用狀態,一直以來DHCP服務器運行良好。
最近,該校的機房部署了在線考試系統,需要一個數據庫服務器以保存考試題庫,以及進行評分等。于
是,管理員在這臺DHCP服務器上同時部署了在線考試系統,以提供考試中的數據交互和存取服務。此外,
由于機房沒有磁盤存儲陣列,該DHCP服務器同時還作為文件服務器。以備份機房各種相關資料,如驅動程
序、服務器應用軟件、上機練習題、考試題、系統鏡像文件等。學生機只有系統分區在硬盤還原卡的保護
之下,其他分區沒有設定為保護留給學生作為數據盤。為了便于維護,學生機部署完畢之后,在服務器上
做了系統的鏡像備份,這樣一旦系統被學生破壞,可以很方便地通過網絡克隆來恢復。于是,這臺DHCP服
務器還兼職這項功能。
二、故障現象及診斷
在網絡考試前一天的模擬測試中,發現測試機房中的客戶端大部分無法登錄,登錄后無法獲取題庫或者速
度非常慢。同時,另外一個機房中正在進行上機課,上課的老師也反映學生機大面積網絡不通。上課老師
馬上進行了排錯,發現并不是由于鏈路故障所致。然后,在操作系統的命令提示符中中使用網絡命令 ipco
nfig,發現客戶端機器無法獲得IP地址。因此可以肯定是此原因使得不能訪問網絡,重新啟動計算機故障
依舊,證明問題不是出在學生機上。查看交換機指示燈顯示狀態正常,沒有因堵塞產生死機的現象,那么
問題只能是出在DHCP服務器上了。接下來查看DHCP服務器上的DHCP服務狀態,也顯示也正常,但是發現服
務器操作反應較慢。那是什么原因導致DHCP服務器相應變慢呢?
三、故障原因分析
要理解導致DHCP服務器相應變慢的原因,我們有必要了解一下DHCP服務的工作過程。如果在局域網中部署
了DHCP服務器,并且客戶端設置為自動獲得IP地址。這樣當DHCP客戶端第一次登錄網絡的時候,也就是客
戶端發現本機上沒有任何IP數據設定,它會向網絡發出一個DHCP discover封包。因為客戶端還不知道自己
屬于哪一個網絡,所以封包的來源地址會為
0.0.0.0,而目的地址則為255.255.255.255,然后再附上DHCP discover的信息,向網絡進行廣播。在wind
ows的預設默認情況下,DHCP discover的等待時間預設為1秒,也就是當客戶端將第一個DHCP discover封
包送出去之后,在1秒之內沒有得到響應的話,就會進行第二次DHCP discover廣播。若一直得不到響應的
情況下,客戶端一共會有四次DHCP discover廣播(包括第一次在內)。除了第一次會等待1秒之外,其余三
次的等待時間分別是9、13、16秒。如果都沒有得到DHCP服務器的響應,客戶端則會顯示錯誤信息,宣告DH
CP discover的失敗。之后,基于使用者的選擇,系統會繼續在5分鐘之后再重復一次DHCP discover的過
程;當DHCP服務器收到DHCP客戶機廣播的DHCP discover信息后,它會向DHCP客戶機發送DHCP offer信息,
其中包括一個可租用的IP地址。一旦客戶機收到DHCP offer信息,就將使用服務器所提供的IP地址。
從DHCP的工作過程來分析,學生機無法獲得IP地址應該是DHCP服務器沒有做出響應,或者是DHCP服務器做
出了響但學生機沒有收到DHCP服務器的DHCP offer信息造成的。測試網線后首先排除了由于網絡硬件原因
造成學生機收不到DHCP服務器響應的可能,由此判斷就是DHCP服務器沒有做出正常響應,但是DHCP服務器
為什么沒有做出響應呢?
大家都知道,此時另外一個機房正在進行在線考試的模擬測試,在測試中客戶端會與服務器之間有大量的
數據交互,這些數據占用了大量的系統資源和網絡帶寬,因此造成DHCP服務器的相應緩慢。這樣就進入了
一個惡性循環,不但在線考試系統無法正常工作,學生機無法獲得IP地址無法上網,而且在網絡中充斥著
大量的重復請求(包括DHCP客戶端和在線考試系統客戶端)。這些垃圾信息占用了大量帶寬,形成了網絡風
暴。更為巧合的是,此時第三個機房內正有幾臺系統被學生破壞的計算機在進行網絡克隆恢復。服務器需
要進行大量的數據傳輸,這樣就使得服務器網絡端和總線負擔過重,不僅操作系統進程無法及時響應學生
機發出的DHCP請求,而且三個機房誰都無法正常工作。
四、故障排除
很明顯,這臺不堪重負的DHCP服務器造成了三個機房的系列故障。要從根本上解決問題,只有通過升級服
務器或者增加服務器的數量,做到各司其職,從而避免服務器負擔過重。即部署專門的DHCP服務器以供機
房的IP服務,部署專門的數據庫服務器以服務于在線考試系統,部署專門的文件服務器以提供文件服務器
和提供網絡克隆服務。這樣,雖然需要額外的投入,但是這是必須的。不過,購置專門的服務器對于諸如
學校這樣的事業單位不太現實。在筆者的建議下,該校采取了這樣的方案:由于在線考試系統的數據交互
頻繁,對服務器要求比較高,因此取消這臺服務器的DHCP服務和文件共享服務器,專職考試數據庫服務。
DHCP服務和文件共享服務,對于系統性能要求不是很高可以用一般的PC機代替。在進行上面的重新部署
后,類似的故障再也沒有出現
不過,讓我們好奇的是,該校的網絡管理員為什么在當初的部署和測試中發現這個問題呢?據筆者了解,原
來當初他們是在三個機房中分別進行的測試,而沒有在三個機房中同時進行針對服務器的壓力測試。
五、小結
通過這個案例,我要說的是,局域網是個完整的邏輯體系它有其自身的特點。服務器作為網絡功能實現的
核心必須我們要保證它的正常工作,超過正常的使用極限和范圍就會對部分或者整個網絡帶來意想不到的
后果。特別是對于像DHCP這樣提供最底層服務的公共服務器,不要使其負載過重。因為,不堪重負它們就
會罷工。

热久久最新地址免费看,久久久综合九色综合,欧美日韩国产精品一区二区三区,欧美一集片在线
一级国产加日韩加欧美 | 亚洲国产精品ⅴa在线播放 中文字幕羞羞视频网站 | 亚洲国产第一福利一区二区 | 日本精品AⅤ在线观看 | 亚洲AV第二区国产精品 | 婷婷5月色综合色综合 |