數(shù)據(jù)網(wǎng)絡(luò)無論大小,或是城域網(wǎng)、園區(qū)網(wǎng),或是一棟大樓
內(nèi)的局域網(wǎng),通常不可避免的要考慮在網(wǎng)絡(luò)中采用什么樣的主干設(shè)
備。就這點(diǎn)而言,我們認(rèn)為從網(wǎng)絡(luò)主干設(shè)備的系統(tǒng)結(jié)構(gòu)入手,將使
你的選型思路變得清晰和準(zhǔn)確(本文不對設(shè)備中使用何種協(xié)議展開
討論)。這些觀點(diǎn)是結(jié)合許多網(wǎng)絡(luò)項目的實(shí)踐,并吸收國外第三方
的一些評述而成的。我們的指導(dǎo)思想是,盡可能從客觀、中立的角
度品評一些技術(shù)問題,以供廣大的網(wǎng)絡(luò)技術(shù)工作者在實(shí)踐中參考,
并希望能有所陴益。
網(wǎng)絡(luò)主干設(shè)備的系統(tǒng)結(jié)構(gòu)
網(wǎng)絡(luò)主干設(shè)備的系統(tǒng)結(jié)構(gòu)直接決定了設(shè)備的性能和功能水
平。這猶如先天很好的一個嬰兒和一個先天不足的嬰兒,即便后天成長條件完全相同,他們的能力依然有相
當(dāng)大的差別。因此,深入了解設(shè)備的系統(tǒng)結(jié)構(gòu)設(shè)計,客觀認(rèn)知設(shè)備的性能和功能,這對正確選擇設(shè)備極有幫
助,下面將從七個方面進(jìn)行討論。
1.交換結(jié)構(gòu) (Switching Fabric)
隨著網(wǎng)絡(luò)交換技術(shù)不斷的發(fā)展,交換結(jié)構(gòu)在網(wǎng)絡(luò)設(shè)備的體系結(jié)構(gòu)中占據(jù)著極為重要的地位。為了便于
理解,這里僅簡述三種典型的交換結(jié)構(gòu)的特點(diǎn):
◆共享總線
由于近年來網(wǎng)絡(luò)設(shè)備的總線技術(shù)發(fā)展緩慢,所以導(dǎo)致了共享總線帶寬低,訪問效率不高;而且,它不
能用來同時進(jìn)行多點(diǎn)訪問。另外,受CPU頻率和總線位數(shù)的限制,其性能擴(kuò)展困難。它適用于大部分流量在模
塊本地進(jìn)行交換的網(wǎng)絡(luò)模式。
◆共享內(nèi)存
其訪問效率高,適合同時進(jìn)行多點(diǎn)訪問。共享內(nèi)存通常為DRAM和SRAM兩種,DRAM速度慢,造價低,SR
AM速度快,造價高。共享內(nèi)存方式對內(nèi)存芯片的性能要求很高,至少為整機(jī)所有端口帶寬之和的兩倍(比如
設(shè)備支持32個千兆以太網(wǎng)端口,則要求共享內(nèi)存的性能要達(dá)到64Gbps)。由此可見,既便不考慮價格因素,
內(nèi)存芯片技術(shù)本身在某種程度上也限制了共享內(nèi)存方式所能達(dá)到的性能水平。
◆交換矩陣(Cross bar)
由于ASIC技術(shù)發(fā)展迅速,目前ASIC芯片間的轉(zhuǎn)發(fā)性能通??蛇_(dá)到1Gbps,甚至更高的性能,于是給交
換矩陣提供了極好的物質(zhì)基礎(chǔ)。所有接口模塊(包括控制模塊)都連接到一個矩陣式背板上,通過ASIC芯片
到ASIC芯片的直接轉(zhuǎn)發(fā),可同時進(jìn)行多個模塊之間的通信;每個模塊的緩存只處理本模塊上的輸入/輸出隊
列,因此對內(nèi)存芯片性能的要求大大低于共享內(nèi)存方式??傊?,交換矩陣的特點(diǎn)是訪問效率高,適合同時進(jìn)
行多點(diǎn)訪問,容易提供非常高的帶寬,并且性能擴(kuò)展方便,不易受CPU、總線以及內(nèi)存技術(shù)的限制。目前大部
分的專業(yè)網(wǎng)絡(luò)廠商在其第三層核心交換設(shè)備中都越來越多地采用了這種技術(shù)。
2.阻塞與非阻塞配置
阻塞與非阻塞配置是兩種截然不同的設(shè)計思想,它們各有優(yōu)劣。在選型時,一定要根據(jù)實(shí)際需求來選
擇相應(yīng)的網(wǎng)絡(luò)設(shè)備。
◆阻塞配置
該種設(shè)計是指:機(jī)箱中所有交換端口的總帶寬,超過前述交換結(jié)構(gòu)的轉(zhuǎn)發(fā)能力。因此,阻塞配置設(shè)計
容易導(dǎo)致數(shù)據(jù)流從接口模塊進(jìn)入交換結(jié)構(gòu)時,發(fā)生阻塞;一旦發(fā)生阻塞,便會降低系統(tǒng)的交換性能。例如,
一個交換接口模塊上有8個千兆交換端口,其累加和為8Gbps,而該模塊在交換矩陣的帶寬只有2Gbps。當(dāng)該模
塊滿負(fù)荷工作時,勢必發(fā)生阻塞。采用阻塞設(shè)計容易在千兆/百兆接口模塊上提高端口密度,十分適合連接服
務(wù)器集群(因?yàn)榉?wù)器本身受到操作系統(tǒng)、輸入/輸出總線、磁盤吞吐能力,以及應(yīng)用軟件等諸多因素的影
響,通過其網(wǎng)卡進(jìn)行交換的數(shù)據(jù)不可能達(dá)到網(wǎng)卡吞吐的標(biāo)稱值)。
◆非阻塞配置
該設(shè)計的目標(biāo)為:機(jī)箱中全部交換端口的總帶寬,低于或等于交換結(jié)構(gòu)的轉(zhuǎn)發(fā)能力,這就使得在任何
情況下,數(shù)據(jù)流進(jìn)入交換結(jié)構(gòu)時不會發(fā)生阻塞。因此,非阻塞設(shè)計的網(wǎng)絡(luò)設(shè)備適用于主干連接。在主干設(shè)備
選型時,只需注意接口模塊的端口密度和交換結(jié)構(gòu)的轉(zhuǎn)發(fā)能力相匹配即可(建議:當(dāng)要構(gòu)造高性能的網(wǎng)絡(luò)主
干時,必須選用非阻塞配置的主干設(shè)備)。
3.采用何種方式實(shí)現(xiàn)第3層和第4層的處理
眾所周知,每一次網(wǎng)絡(luò)通信都是在通信的機(jī)器之間產(chǎn)生一串?dāng)?shù)據(jù)包。這些數(shù)據(jù)包構(gòu)成的數(shù)據(jù)流可分別
在第3、4層進(jìn)行識別。
在第3層(Network Layer,即網(wǎng)絡(luò)層,以下簡稱L3),數(shù)據(jù)流是通過源站點(diǎn)和目的站點(diǎn)的網(wǎng)絡(luò)地址被
識別。因此,控制數(shù)據(jù)流的能力僅限于通信的源站點(diǎn)和目的站點(diǎn)的地址對,實(shí)現(xiàn)這種功能的設(shè)備稱之為路由
器。一個不爭的事實(shí):無論過去、現(xiàn)在、還是將來,路由器在網(wǎng)絡(luò)中都占據(jù)著核心的地位。傳統(tǒng)路由器是采
用軟件實(shí)現(xiàn)路由功能,其速度慢,且價格昂貴,往往成為網(wǎng)絡(luò)的瓶頸。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,路由器技術(shù)發(fā)
生了革命,路由功能由專用的ASIC集成電路來完成?,F(xiàn)在這種設(shè)備被稱之為第三層交換機(jī)或叫做交換式路由
器。
在第4層(Transport Layer即傳輸層,以下簡稱L4),通過數(shù)據(jù)包的第4層信息,設(shè)備能夠懂得所傳
輸?shù)臄?shù)據(jù)包是何種應(yīng)用。因此,第4層交換提供應(yīng)用級的控制,即支持安全過濾和提供對應(yīng)用流施加特定的Qo
S策略。誠然,傳統(tǒng)路由器具有閱讀第4層報頭信息的能力(通過軟件實(shí)現(xiàn)),與第三層交換機(jī)(或交換式路
由器)采用專用的ASIC集成電路相比,設(shè)備的性能幾乎相差了兩個數(shù)量級,因此,傳統(tǒng)路由器無法實(shí)現(xiàn)第4層
交換。
值得指出的是:網(wǎng)絡(luò)主干設(shè)備的系統(tǒng)結(jié)構(gòu)在設(shè)計上分成兩大類:集中式和分布式。即便兩者都采用了新的
技術(shù),但就其性能而言,仍存在著較大的差異。
◆集中式
所謂集中式,顧名思義,L3/L4數(shù)據(jù)流的轉(zhuǎn)發(fā)由一個中央模塊控制處理。因此,L3/L4層轉(zhuǎn)發(fā)能力通常
為3M-4Mpps,最多達(dá)到15Mpps。
◆分布式
將L3/L4層數(shù)據(jù)流的轉(zhuǎn)發(fā)策略設(shè)置到接口模塊上,并且通過專用的ASIC芯片轉(zhuǎn)發(fā)L3/L4層數(shù)據(jù)流,從而
實(shí)現(xiàn)相關(guān)控制和服務(wù)功能。L3/L4層轉(zhuǎn)發(fā)能力可達(dá) 30Mpps 至 40Mpps。
4.系統(tǒng)容量
由于網(wǎng)絡(luò)規(guī)模越來越大,網(wǎng)絡(luò)主干設(shè)備的系統(tǒng)容量也成為選型中的重要考核指標(biāo)。建議重點(diǎn)考核以下
兩個方面:
◆物理容量
各類網(wǎng)絡(luò)協(xié)議的端口密度,如千兆以太網(wǎng)、快速以太網(wǎng),尤其是非阻塞配置下的端口密度。
◆邏輯容量
路由表、MAC地址表、應(yīng)用數(shù)據(jù)流表、訪問控制列表(ACL)大小,反映出設(shè)備支持網(wǎng)絡(luò)規(guī)模大小的能
力(先進(jìn)的主干設(shè)備必須支持足夠大的邏輯容量,以及非阻塞配置設(shè)計下的高端口密度。)
5.關(guān)鍵部件冗余設(shè)計
通過這些年的實(shí)踐,人們已經(jīng)認(rèn)同處于關(guān)鍵部位的網(wǎng)絡(luò)設(shè)備不應(yīng)存在單點(diǎn)故障。為此,網(wǎng)絡(luò)主干設(shè)備
應(yīng)能實(shí)現(xiàn)如下三方面的冗余。
◆電源和機(jī)箱風(fēng)扇冗余
◆控制模塊冗余
控制模塊冗余功能應(yīng)提供對主控制模塊的“自動切換”支持。如:備份控制模塊連續(xù)5次沒有聽到來
自主控制模塊的匯報,備份模塊將進(jìn)行初始化并執(zhí)行硬件恢復(fù)。另外,各種模塊均可熱插拔。
◆交換結(jié)構(gòu)冗余
如果網(wǎng)絡(luò)主干設(shè)備忽略交換結(jié)構(gòu)的冗余設(shè)計,就無法達(dá)到設(shè)備冗余的完整性。因此,要充分考慮網(wǎng)絡(luò)
主干設(shè)備的可靠性,應(yīng)該要求該設(shè)備支持交換結(jié)構(gòu)冗余。此外,交換結(jié)構(gòu)冗余功能也應(yīng)具有對主交換結(jié)構(gòu)
“自動切換”的特性。
6.緩沖技術(shù)
緩沖技術(shù)在網(wǎng)絡(luò)交換機(jī)的系統(tǒng)結(jié)構(gòu)中使用的越來越多,也越來越復(fù)雜。任何技術(shù)的使用都有著兩面
性,如過大的緩沖空間會影響正常通信狀態(tài)下,數(shù)據(jù)包的轉(zhuǎn)發(fā)速度(因?yàn)檫^大的緩沖空間需要相對多一點(diǎn)的
尋址時間),并增加設(shè)備的成本。而過小的緩沖空間在發(fā)生擁塞時又容易丟包出錯。所以,適當(dāng)?shù)木彌_空間
加上先進(jìn)的緩沖調(diào)度算法是解決緩沖問題的合理方式。對于網(wǎng)絡(luò)主干設(shè)備,需要注意幾點(diǎn):
◆每端口是否享有獨(dú)立的緩沖空間,而且該緩沖空間的工作狀態(tài)不會影響其它端口緩沖的狀態(tài)。
◆模塊或端口是否設(shè)計有獨(dú)立的輸入緩沖、獨(dú)立的輸出緩沖,或是輸入/輸出緩沖。
◆是否具有一系列的緩沖管理調(diào)度算法,如RED、WRED、RR/FQ、WERR/WEFQ。