互聯(lián)網(wǎng)行業(yè)一直走在技術(shù)最前沿,總能引領(lǐng)科技浪潮并因此深刻
改變?nèi)藗兊纳?。就在普通民眾越來越依賴搜索功能后,一場?br />
為激烈的競爭正在互聯(lián)網(wǎng)企業(yè)中轟轟烈烈的展開,對于搜狐來
說,如何在強手如林的搜索引擎市場占據(jù)有利地形,是一個必須
解決的重要“命題”。而這個命題的解決就重重的落在了搜狗(ww
w.sogou.com),這個名字頗有寓意的砝碼身上。
搜狗快速成長 位居中文搜索前三甲
搜狗是搜狐于2005年推出的全球首個第三代互動式中文搜索引
擎,在搜狐的整體發(fā)展戰(zhàn)略中占據(jù)十分重要的地位。搜狗的產(chǎn)品
線包括了網(wǎng)頁應用和桌面應用兩大部分。網(wǎng)頁應用以網(wǎng)頁搜索為
核心,在音樂、地圖、圖片、視頻等領(lǐng)域提供垂直搜索服務,并
通過說吧和問答建立用戶間的搜索型社區(qū);桌面應用依托搜索引擎技術(shù),主要包括搜狗輸入法和搜狗瀏覽
器,旨在提升用戶的使用體驗。
據(jù)CNNIC(中國互聯(lián)網(wǎng)絡信息中心)剛剛發(fā)布的《2009年中國搜索引擎用戶行為研究報告》顯示,2009年搜狗
的首選用戶新增率為41.2%,在所有搜索品牌中用戶新增率最高,搜狗的品牌滲透率為26.9%,緊隨百度、
谷歌之后居第三位。從“用戶首選搜索引擎”、“用戶二選搜索引擎”兩個指標的數(shù)據(jù)綜合來看,在全國
市場的網(wǎng)民選擇中,搜索引擎的排位應該是百度第一、谷歌第二、搜狗第三,這也被認為是目前為止針對
中文搜索引擎相對科學的排名。
“搜狗”不斷求“新” 滿足用戶需求獲青睞
互聯(lián)網(wǎng)行業(yè)競爭激烈,能否得到更多用戶的認可是企業(yè)生存的根本,而認可的關(guān)鍵就在于服務是否及時、
優(yōu)質(zhì)、準確,這點在“搜狗”這樣的搜索服務上尤為如此。搜狗深知搜索引擎的最大難題是正確理解和滿
足用戶的需求,正是這種以“用戶需求為導向”的發(fā)展理念使得搜狗不斷優(yōu)化產(chǎn)品體驗、提高技術(shù)能力,
并力爭做中國最有特色的搜索引擎。而這一切,都必須基于一個強大的數(shù)據(jù)中心來完成,提升數(shù)據(jù)中心的
效能,就成為提升用戶滿意度的關(guān)鍵要素。在此基礎(chǔ)上,搜狐特別啟動了搜狗新一代數(shù)據(jù)中心項目的建
設(shè),希望通過利用技術(shù)創(chuàng)新,提升搜狗的產(chǎn)品品質(zhì),從而贏得用戶的青睞。在這一過程中,H3C提供的高性
能、高可靠的新一代數(shù)據(jù)中心網(wǎng)絡解決方案,成為了搜狗邁向未來的堅實基礎(chǔ)。
“搜狐追求新技術(shù)應用是有傳統(tǒng)的,搜狗引擎就是搜狐在搜索技術(shù)領(lǐng)域追求創(chuàng)新的一個結(jié)果。我們希望能
利用各種領(lǐng)先的技術(shù)與設(shè)備,讓我們的產(chǎn)品與服務能夠為用戶帶來更好的感受。尤其在搜狗數(shù)據(jù)中心上,
我們更希望避免出現(xiàn)傳統(tǒng)數(shù)據(jù)中心的‘短板’,進一步提升數(shù)據(jù)中心網(wǎng)絡的性能、效率與可靠性,讓用戶
訪問起來感覺更加良好?!彼押W(wǎng)絡運維部總監(jiān)解釋了采用新一代數(shù)據(jù)中心解決方案的初衷。
此外,搜狐在數(shù)據(jù)中心網(wǎng)絡建設(shè)上不斷“求新”是形勢使然,從2007年搜狐正式推出搜狗網(wǎng)頁搜索3.0版本
之后,搜狗搜索引擎的中文網(wǎng)頁收錄量已達一百億之上,每天的網(wǎng)頁更新量則有5億之多,激增的海量數(shù)據(jù)
對搜狗數(shù)據(jù)中心帶來了前所未有的壓力。新的搜狗業(yè)務應用要求數(shù)據(jù)中心網(wǎng)絡平臺能支撐百億海量網(wǎng)頁收
錄、及時網(wǎng)頁更新和網(wǎng)頁評級體系,滿足高密度服務器集群的高性能并行抓取,同時網(wǎng)絡系統(tǒng)要能滿足后
期靈活的擴展能力。面對著超高的網(wǎng)絡流量與數(shù)量龐大的服務器集群,原有的搜狗數(shù)據(jù)中心網(wǎng)絡架構(gòu)與設(shè)
備性能已無法滿足這一要求,采用新一代數(shù)據(jù)中心架構(gòu)來建設(shè)搜狗IDC新機房成為必然的選擇。
根據(jù)這一需求,2009年初,搜狐征集了業(yè)內(nèi)多家廠商的設(shè)備,進行了全方位考察。最終,H3C集S12508數(shù)據(jù)
中心級核心交換機、S75E高端多業(yè)務路由交換機、S5800萬兆交換機、iMC智能管理中心等軟硬件設(shè)備為一
體的統(tǒng)一交換架構(gòu)數(shù)據(jù)中心解決方案,一舉拿下了項目的全部份額,搜狗新一代數(shù)據(jù)中心網(wǎng)絡建設(shè)的大幕
也由此拉開。
讓“浪涌”不再是問題
在搜狗數(shù)據(jù)中心網(wǎng)絡體系中,部署了兩臺H3C S12500交換機作為了整個網(wǎng)絡的核心,同時,兩臺S75E高端
多業(yè)務路由交換機承擔起數(shù)據(jù)傳輸網(wǎng)的重任,而數(shù)十臺S5800交換機則作為接入交換機,將兩千多臺服務器
連成了一個大的網(wǎng)絡。
這其中最為搶眼莫過于數(shù)據(jù)中心級核心交換機S12500。作為國內(nèi)首款100G平臺交換設(shè)備,S12500的超大交
換容量、高密度的萬兆端口、高級別的包緩存能力等特性,在搜狗數(shù)據(jù)中心派上了“大用場”,也成為了
搜狐選擇H3C解決方案的重要原因之一。
據(jù)H3C網(wǎng)絡產(chǎn)品線副總裁孫德和介紹,S12500的設(shè)計瞄準的就是數(shù)據(jù)中心高密度、大流量和大緩存的特點,
其單臺設(shè)備容量已達到5.76T,而且能支持多達576個萬兆端口,能夠充分滿足搜狗數(shù)據(jù)中心高密度萬兆應
用的需求,這也是傳統(tǒng)的萬兆交換機很難做到的一點。
眾所周知,網(wǎng)頁搜索最重要的就是搜索速度與結(jié)果準確性,這也是搜狗引擎持續(xù)不斷優(yōu)化改進的目標,它
依托的是系統(tǒng)在瞬間對海量網(wǎng)頁數(shù)據(jù)進行挖掘、分析、顯示的結(jié)果。在這一過程中,數(shù)據(jù)中心網(wǎng)絡承擔的
帶寬壓力非常巨大。為了保證用戶能夠得到及時、準確的搜索結(jié)果,當搜狗引擎接收到一個網(wǎng)頁搜索請求
時,往往會向高密度服務器群同時發(fā)起檢索需求,并在非常短的時間內(nèi)接收幾百臺服務器幾乎同時發(fā)回的
搜索結(jié)果,巨大的數(shù)據(jù)浪涌如果不能及時吸收,那么很容易出現(xiàn)網(wǎng)絡擁塞的現(xiàn)象。
而S12500的大緩存能力很好地解決了這個問題,不僅每個端口擁有256M的大緩存能力,更重要的是它支持
分布式緩存機制,當搜索數(shù)據(jù)浪涌到來時,一部分報文被緩存在接入交換機S5800的8M緩存中,另一些則緩
存在S12500的更大緩存中,有效地利用了各級設(shè)備的端口緩存能力,最大限度地吸收突發(fā)流量,這樣,就
減少了丟包的可能性,盡可能地減少了對業(yè)務的影響。在先期開展的實地測試結(jié)果表明,每次浪涌的收斂
時間都控制在了幾十毫秒之內(nèi),這樣的結(jié)果也讓搜狐刮目相看。
搜狐網(wǎng)絡運維部總監(jiān)表示,通過建設(shè)新一代數(shù)據(jù)中心網(wǎng)絡,解決了搜索引擎業(yè)務普遍感到“頭疼”的浪涌
問題,對普通用戶來說,意味著搜索結(jié)果中的死鏈接也會更少,H3C S12500核心交換機的性能的確在其中
起到了非常關(guān)鍵的作用。
創(chuàng)新架構(gòu)帶來的價值
在搜狗數(shù)據(jù)中心的網(wǎng)絡架構(gòu)圖中,有一點和常見的拓撲圖不太一樣:數(shù)十臺作為接入交換機的S5800并非是
簡單的并列關(guān)系,而是每四臺虛擬成一臺虛擬交換機,然后并列著接入核心交換機S125000。對此,搜狐網(wǎng)
絡運維部總監(jiān)解釋到,這里采用的是H3C推出的IRF2(第二代智能彈性架構(gòu),Intelligent Resilient Frame
work 2)技術(shù),這也正是搜狐最終選擇H3C新一代數(shù)據(jù)中心解決方案來構(gòu)建搜狗網(wǎng)絡的另一個重要因素。
智能彈性架構(gòu)技術(shù)簡單的說,是把多臺物理設(shè)備互相連接起來,使其成為一臺統(tǒng)一的邏輯設(shè)備。也就是
說,用戶可以將多臺設(shè)備真正當作一臺設(shè)備進行管理和使用,從而為用戶帶來簡化管理、簡化網(wǎng)絡業(yè)務、
彈性擴展、1:N可靠、性能加倍提升和增值業(yè)務擴展等多方面的網(wǎng)絡使用新體驗。目前,H3C的眾多設(shè)備都
支持這一技術(shù)。
在H3C提出的搜狗數(shù)據(jù)中心網(wǎng)絡解決方案中,這一創(chuàng)新技術(shù)也在多處得以體現(xiàn)。上面提到的S5800堆疊就是
其中之一。在實際應用中,四臺S5800 通過IRF2實現(xiàn)40G互聯(lián),然后10組S5800堆疊接入雙機互備的S1250
0,也就是說,S12500只需要10個端口,就可實現(xiàn)40個萬兆互聯(lián)。這使得搜狗數(shù)據(jù)中心網(wǎng)絡具有了良好的可
擴展性,日后網(wǎng)絡擴容時,可直接利用上其他多余端口,而無須額外投資。
兩臺核心交換機S12500雙機互聯(lián)同樣采用了IRF2架構(gòu),它所帶來的價值同樣十分明顯。以往搜狗數(shù)據(jù)中心
網(wǎng)絡采用的是傳統(tǒng)的環(huán)路設(shè)計,這樣有一半的網(wǎng)絡帶寬必須讓道給環(huán)路,帶寬利用率低,而且容易出現(xiàn)環(huán)
路堵塞鏈路。而且,在維護上也容易出現(xiàn)問題,在網(wǎng)絡運行過程中如果因為設(shè)備故障或者人為因素需要更
改網(wǎng)絡配置時,一旦出現(xiàn)環(huán)路定義錯誤,就會形成廣播,造成整個網(wǎng)絡堵塞甚至中斷,也就意味著搜狗引
擎業(yè)務也會出現(xiàn)中斷,對互聯(lián)網(wǎng)企業(yè)來說,無疑意味著 “重大事故”。
采用IRF2技術(shù)則避免了這些問題。現(xiàn)在的搜狗數(shù)據(jù)中心網(wǎng)絡采用MSTP+VRRP+BFD的方式構(gòu)建,而去掉了令人
煩惱的“環(huán)路”。這不僅意味著在網(wǎng)絡運維更為簡單,不會出現(xiàn)環(huán)路故障,而且,也意味著整個網(wǎng)絡在不
增加投資的情況下,可利用的帶寬相比以前增加了一倍!
在搜狐對IRF2性能實際測試中,搜狐數(shù)據(jù)中心網(wǎng)絡的穩(wěn)定性也十分突出。無論是S12500內(nèi)部雙引擎的主備
倒換,還是鏈路級的倒換,系統(tǒng)的恢復時間都小于30毫秒。也就是說,即使對網(wǎng)絡連續(xù)性要求高達50毫秒
的延遲敏感型應用,網(wǎng)絡的穩(wěn)定性也不會對業(yè)務帶來不良影響,也有利于搜狗業(yè)務的進一步發(fā)展。
“正是因為IRF2技術(shù)可以讓整個網(wǎng)絡的擴展性更好,而且ROI投資回報率更高,為搜狗業(yè)務的未來提供了堅
實的基礎(chǔ),所以我們對H3C提出的解決方案也更為滿意?!彼押W(wǎng)絡運維部總監(jiān)表示。
結(jié)束語
在數(shù)據(jù)中心應用領(lǐng)域,互聯(lián)網(wǎng)企業(yè)由于其業(yè)務特點,一直走在應用的前列,他們的選擇往往代表著市場的
“風向標”。在搜索引擎業(yè)務方面搜狐選擇H3C解決方案來構(gòu)建搜狗數(shù)據(jù)中心網(wǎng)絡,也是搜狐圍繞著這一目
標,所采取的實實在在的舉措。
從實際效果來看,H3C新一代數(shù)據(jù)中心解決方案,不僅保障了搜狐現(xiàn)有業(yè)務的連續(xù)性,滿足搜狐不斷增長的
業(yè)務帶寬需求,同時面向未來可以承載不斷涌現(xiàn)的新業(yè)務,也讓搜狐可以在激烈的搜索引擎市場競爭中,
更有信心。